文章主题:论坛, 华南师范大学, 郝天永, 中山大学
YOCSEF 广州成功举办特别论坛“数据安全,是否ChatGPT的阿喀琉斯之踵?”
随着ChatGPT的快速兴起,其数据安全与监管问题亦成为各国关注重点。意大利个人数据保护局宣布从3月31日起禁用ChatGPT,限制OpenAI处理意大利用户信息数据。美国总统拜登4月4日表示,人工智能是否危险还有待观察,并强调科技公司有责任确保其产品在公开之前是安全的。加拿大、法国、德国、爱尔兰也可能加强对ChatGPT的监管。此外,韩国三星、日本软银等企业近日亦表达了对ChatGPT可能泄露公司机密材料的担忧。
在数据安全问题凸显、监管加强的大背景下,ChatGPT及类ChatGPT产品是否可能走上“其兴也勃焉,其衰也忽焉”的发展路径?其数据安全问题怎样看待、怎样应对?对我国(科技、政策、安全等方面)有何启示?对此,中国计算机学会(CCF)青年计算机科技论坛(YOCSEF)广州分论坛学术委员会于4月9日举行特别论坛——“数据安全,是否ChatGPT的阿喀琉斯之踵?”,探讨人工智能发展新时期的数据安全问题、挑战与对策。
此次论坛由YOCSEF广州现任主席、华南农业大学数学与信息学院黄栋副教授和YOCSEF广州候任主席、暨南大学学院计算机科学系主任龙锦益教授共同担任执行主席。论坛特别邀请了华南师范大学计算机学院郝天永教授、中山大学智能工程学院沈颖副教授、广州熠数信息技术有限公司首席运营官蓝靖作为引导报告嘉宾,华南农业大学数学与信息学院院长黄琼教授、广州大学网络空间安全学院苏申教授作为思辨嘉宾。
YOCSEF广州往届主席谭台哲(广东工业大学)、往届副主席高静(广东恒电信息科技股份有限公司董事长),YOCSEF广州现任/候任AC委员胡建芳(中山大学)、陈俊颖(华南理工大学)、蓝连涛(华南农业大学)、梁鹏(广东技术师范大学)、刘同来(仲恺农业工程学院)、刘雷(广东科技报)、李昊(广州思涵技术有限公司)、张天豫(广汽研究院),广州熠数信息技术有限公司首席执行官陈杨轲、技术总监方伟,以及来自省内多所高校及企事业的代表共30多人参加了此次论坛活动。
论坛首先由华南农业大学数学与信息学院院长黄琼代表承办单位致辞。黄琼对参加此次特别论坛的嘉宾表示欢迎,并对华南农业大学数学与信息学院的基本情况和学院的特色研究进行了概述。黄琼指出,ChatGPT是人工智能领域的一个新突破,对诸多领域产生了巨大影响,引起了社会热议,期待此次论坛可以围绕ChatGPT的数据安全与隐私保护问题进行深入思辨。
在论坛引导报告环节,华南师范大学计算机学院郝天永教授以“ChatGPT与可信人工智能立法”为题,从ChatGPT的原理、人工智能生成内容(AIGC)、ChatGPT遭遇的数据安全挑战、世界各国在数据安全方面的法律法规、我国在数据治理上的法治体系建设现状和发展趋势进行了系统介绍。郝天永认为,人工智能立法要从数据、算法、算力三个维度,建立多元共治的法治新模式。在数据侧,应从数据产权、数据流通、数据要素收益分配、数据要素治理四个方面,建立健全人工智能数据治理的法律体系。在算法侧,应从算法的公平性、透明性、包容性、可控性和可问责性等可信属性,建立完善人工智能算法治理的法律体系制度。在风险侧,应加强风险评估模型研究,完善人工智能产品风险分级分类体系和技术标准体系,建立人工智能产品风险治理的法律体系制度。
论坛现场华南师范大学郝天永教授作引导报告
中山大学智能工程学院沈颖副教授以“ChatGPT:自然语言处理研究、应用与思考”为题,从自然语言处理的发展脉络和研究现状、ChatGPT的应用场景等方面展开介绍。沈颖指出,ChatGPT由于使用了更大的语料库、更高的计算能力和更加通用的预训练,其准确性、适应性和学习能力等性能都有了大幅度提升,但也仍面临着诸多技术性问题和合规性问题,例如无法解答专业性较强的问题、对不熟悉的问题随意编造假答案、训练时使用数据未经授权等。
中山大学沈颖副教授作引导报告
广州熠数信息技术有限公司首席运营官蓝靖以“流动的数据安全——LLM模型的达摩克利斯之剑”为题,从大语言模型的内生数据安全、业务数据安全等方面介绍了ChatGPT面临的数据安全问题,进而将之比喻为“落下的达摩克利斯之剑”,从数据安全的合规处罚,数据泄漏可能给个人、企业和国家安全带来的严重后果等方面进行分析,指出三方应密切合作,筑牢数据安全屏障。
广州熠数信息技术有限公司首席运营官蓝靖作引导报告
在引导报告之后,论坛进入思辨环节。与会嘉宾围绕“ChatGPT带来哪些新的数据安全问题?”“ChatGPT的数据安全问题,解决之道在何处?”“ChatGPT与数据安全,未来如何同行?”三个议题展开了深入思辨。
思辨议题一:ChatGPT带来哪些新的数据安全问题?
ChatGPT作为人工智能领域的一项重大突破,既为人们的生活带来了诸多便利,同时也引发了全球各国政府及公众对于其数据安全问题的广泛关注。那么,ChatGPT究竟产生了哪些数据安全问题呢?其中的旧疾与新症又分别是什么?这些问题的根源又在何处?针对这些问题,与会嘉宾们进行了深入的讨论和探讨。
华南农业大学数学与信息学院的黄琼教授深入探讨了ChatGPT引发的数据安全问题。他认为,ChatGPT所带来的一天数据安全问题包括三个方面。首先,是数据内容的安全问题,由于ChatGPT在回答某些问题时可能表现出双标的特点,对于同一问题,它可能会生成两个截然不同的答案,这可能会对提问者产生误导。其次,是数据投毒攻击的问题,如果提供给ChatGPT的训练数据带有偏见,那么它生成的答案也可能带有偏见。最后,是数据泄露的问题,随着更多的企业和单位开始使用GPT服务,员工可能会误用或滥用这个服务,甚至会将单位内部的敏感数据输入到人工智能平台上。当平台将这些数据用作算法模型的语料库时,就可能出现数据泄露的风险。尽管如此,黄琼教授仍然认为,尽管当前的人工智能服务存在一些数据安全问题,但它仍然可以为人们的生活和工作提供便利,同时,它也为安全研究提供了新的可能性。
华南师范大学的郝天永教授指出,当算法模型的复杂性达到一定程度,数据的相互关联规模也达到一定规模时,就会产生所谓的“智慧涌现”现象。这一现象使得ChatGPT在各种功能上都呈现出爆发式的发展和提升。然而,智慧涌现所引发的数据连接类型,以及相关的知识产权问题,仍然是一个备受关注的前沿问题。除却传统的数据泄露和个人隐私保护等问题,随着数字经济的崛起,数据生产、流通和使用三个环节中也出现了新的问题,如数据的安全可控、弹性包容和数据要素治理等。这些问题源于在使用人工智能服务的过程中,个人、企业、政府等不同的利益主体对于数据使用的利益存在差异,并且展现出复杂的共生关系、相互依赖和动态变化特征。
广州熠数信息技术有限公司首席运营官蓝靖表示,除了人工智能领域中的传统数据安全问题,诸如ChatGPT等聊天机器人的出现也带来了新的挑战,如数据越狱和数据窃取等问题。通过提示语注入等方式,人工智能模型可能会绕过其原有的伦理、道德约束,甚至突破相关法律法规的限制,从而“套取”训练集核心数据和关键文档。同时,数据窃取问题也日益凸显,一些小型模型可能会通过数据窃取技术从大型模型中获取数据,如斯坦福大学发布的Alpaca模型,可以通过175个种子任务与ChatGPT等大型模型平台互动,进而构建训练所需的数据集,这对人工智能模型的核心问题产生了影响。针对此问题,我国YOCSEF广州现任主席、华南农业大学黄栋副教授强调,ChatGPT等人工智能模型所引发的新问题,很大程度上源于其高度的互动性。举例来说,三星公司员工泄露企业机密材料的事件,可能是由于员工在与ChatGPT交互的过程中不慎录入敏感数据。然而,在ChatGPT的“黑盒子”中,这些互动数据在没有得到用户同意的情况下,可能会被用于其他用途,甚至用于再次训练。因此,数据越狱、数据窃取等新问题,都与ChatGPT等人工智能模型的互动性密切相关。
YOCSEF广州候任AC委员、广汽研究院张天豫指出,随着人工智能大模型的应用,如ChatGPT,数据霸权问题愈发严重。部分大型公司掌握大量数据,凭借数据优势在市场竞争中占据领先地位,并通过与众多用户互动产生更大规模问答数据,从而进一步加强其数据霸权地位。尽管我国许多企业也积累了大量数据,但与微软、谷歌等顶级数据拥有者相比,仍存在显著差距。在现有的数据基础和国际环境下,我国企业如何突破这些限制,是一个值得深入研究的新课题。
广州熠数信息技术有限公司的技术总监方伟指出,除了个人级数据泄露外,企业级数据泄露同样是一个不容忽视的问题。随着OpenAI推出了ChatGPT平台接口,为企业提供应用服务,同时也引发了关于数据出境的新问题。尽管我国对数据出境有相应的政策法规,但由于ChatGPT的服务器位于境外,导致一些原本不涉及数据出境问题的企业也面临着相关风险。因此,这给数据出境和跨境安全的国家监管以及行业标准带来了新的挑战。
在现场讨论中,我们进一步探讨了由ChatGPT这一数据生成者所带来的安全性问题。广州思涵信息科技有限公司总经理李昊指出,ChatGPT不仅海量数据的获取者和使用者,同时也是强大的数据内容生成者。随着ChatGPT的快速普及和应用,它所生成的数据可能会向社会注入不可靠、具有误导性或偏见的信息。互联网的广泛性和公开性使得ChatGPT生成数据内容的真实性、合规性和伦理性等问题变得尤为重要。广东技术师范大学梁鹏副教授也提出了同样的问题,他认为过去伪造信息需要一定的技术手段和较高的技术门槛,而ChatGPT的出现可能让普通人更容易地生成难以分辨真假的虚假信息,并在短时间内广泛传播。此外,黄栋指出,ChatGPT在数据生成者的角色中也带来了数据版权问题。由于ChatGPT可以说是海量数据的集大成者,它也可能成为海量数据的大抄手。以音乐作品为例,模仿一段旋律可能构成抄袭,而对于人工智能模型所生成的文章和图像等作品,其生成元素可能源于不同创作者的原创作品,这给作品版权的判断和规范带来了新的挑战。最后,当谈到数据窃取问题时,人工智能内容生成模型可能还会引发无声无息的“创意窃取”问题。这些问题均表明,在ChatGPT等数据生成器的应用过程中,我们需要关注和解决一系列与之相关的安全性、伦理和法律问题。
YOCSEF广州委员和华南理工大学陈俊颖副教授强调,ChatGPT不仅作为数据生成者, potentially 甚至可演变为工具生成者。现阶段的 ChatGPT 已经具备编写代码的能力,结合其高速迭代的特点,可能在不久的将来,实施钓鱼邮件诈骗、制作木马病毒以及发掘系统安全漏洞等行为将处于(未来)ChatGPT 的能力范围之内。网易公司开发工程师江东林则从两个方面进行了探讨,一方面,ChatGPT 的出现使得许多长期存在的问题变得更加严重,如个人隐私保护、数据泄漏等;另一方面,现有的 ChatGPT 功能已经相当强大,如果其发起网络攻击、散布虚假信息,如何确定法律责任成为一个值得关注的问题。而郝天永对此问题的讨论提供了新的视角,他认为这一问题已在我国新发布的“数据二十条”中得到规定:数据的产生者负责,数据的投入者享有相应的收益。
YOCSEF桂林AC委员、桂林航天工业学院魏金占教授提出,在足够“大”的模型与足够“大”的数据下,或出现“智慧涌现”,甚至机器也可能产生意识。当机器出现自我意识并与人类竞争时,未来人工智能大模型会不会窃取科研人员的前沿思维和创新思路? YOCSEF广州候任副主席、仲恺农业工程学院刘同来副教授提出,ChatGPT的意识性或越来越强,如何限制其对用户形成诱导,特别是消极思想的诱导,也是未来值得研究的问题。黄栋进一步提及,人工智能模型为我们提供服务的同时,我们也成为了人工智能模型的素材提供者。那么,现在是我们在用数据训练模型,但未来模型是否会在不知不觉间用数据训练人类?这或许是科幻,或许是未来。
思辨议题二:ChatGPT的数据安全问题,解决之道在何处?
ChatGPT的数据安全问题,哪些可以解决,哪些难以解决?解决之道在何处?对于这些议题,YOCSEF广州候任副主席、广州大学苏申教授提出了几方面观点。一是数据源安全方面,已有相关的法律法规和管理制度,可以认为是可解决、或基本可解决的问题。二是数据投毒方面,可能涉及到对舆情的影响,也可能进一步涉及舆情攻防的解决方法。三是重要数据与敏感数据方面,在应用服务与接口上应有相应的监督与管理。四是数据跨境方面,当前虽然有相关政策法规,但仍是一个开放问题。在隐私保护方面,通过多方安全计算、同态加密、联邦学习等技术手段可以得到一定的解决,但在实际应用中则仍面临较多复杂情况。此外,在攻防层面,ChatGPT虽然可能降低攻击者的门槛,但实际上防御技术也在智能化,也可以从人工智能技术发展过程中受益。
河源广工大协同创新研究院常务副院长谭台哲提到,香港特区政府财政司司长陈茂波近期表示,对于Web 3.0的发展,应监管与推动并重。谭台哲认为,对于ChatGPT等人工智能大规模,也应适当监管与推动发展,两者并重。当新技术刚出现、新情况尚未摸透之时,政府部门可以用好现有的政策、技术工具,对新技术、新情况分门别类地进行监管。黄栋认为,ChatGPT的数据安全问题,一方面应在人工智能技术发展与安全之间找到平衡之处,监管过紧可能限制甚至扼杀新技术的发展,监管过松则可能使得新技术被滥用;另一方面也涉及个人、企业、政府的三方博弈,而在此过程中,个人端与企业端都有其自发性,政府及政策法规则是非常重要的调节力量。怎样找到人工智能发展与数据安全的平衡区域,找好个人、企业、政府的角色与定位,亦非常考验监管智慧。
方伟认为,所有能归纳为技术的问题往往都可以解决,包括数据脱敏、分类分级管理等问题;政策法律法规的完善也是很好的推动,但最不容易解决的问题是“人”的问题。对于数据安全问题,国家还需要加大培训与宣传力度,增强数据安全的意识。同时,从法律上监管和规范人的行为,明确法律责任,提高违法成本。郝天永强调,人工智能模型的数据安全问题解决之道,除了政策、技术、人才,还应有相应的法律法规,人才是基础,技术是驱动,政策是引导,法律是保证。
李昊指出,对于这些问题,我国现在已有很多政策和法律法规,例如针对数据的采集与使用有《数据安全法》《个人信息保护法》,针对内容生成有《互联网信息服务深度合成管理规定》。当前较难解决的问题有两个方面,一是多数人工智能模型的不可解释性,二是数据投毒(数据带有倾向性)。而其不可解释性及潜在的倾向性,在各国人工智能模型的竞争过程中也会对使用者产生影响。
梁鹏认为,对ChatGPT的监管,应是主动监管与被动监管相结合。被动监管是指在内容发生之后的政策与技术层面监管,主动监管则应在第一时间利用技术手段对虚假信息或有害信息进行识别与限制,防止其不良影响扩大。对此问题,高校层面的主要着力点应在于进行与主动监管相关的技术研究与人才培养,政府层面则应在拥抱人工智能新技术的同时理解新技术发展规律,更好地着力于被动监管。华南农业大学数学与信息学院邱少健博士提出,虽然有政策法规及企业规定可以对员工行为进行约束,但“人”的因素是难点,可以借助技术手段针对人工智能模型的交互信息及模型生成的内容及时发现问题、及时应对问题。
思辨议题三:ChatGPT与数据安全,未来如何同行?
论坛思辨环节的第三个议题是“ChatGPT与数据安全,未来如何同行?”,亦涉及“数据安全问题,是否ChatGPT的阿喀琉斯之踵?”和“对我国在科技、政策、安全等方面有何启示?”等子议题。对此,苏申认为,ChatGPT作为新生事物,本身还有很多弱点,还谈不上战神阿喀琉斯,更谈不上阿喀琉斯之踵。与许多以前的新技术(互联网、移动电话)类似,在新技术诞生之初,人们往往更关注其性能问题,然后才逐渐转向其安全问题。对于数据安全问题,方滨兴院士《人工智能安全》一书对数据安全问题作了分类,可分为内生安全问题和衍生安全问题。对这些问题,我国应提高技术的自主可控性,提升模型的可解释性和可追责性。
针对技术自主可控性,华南农业大学数学与信息学院李宏博博士认为,ChatGPT的不少数据安全风险(数据投毒、数据出境),也一定程度因其源自国外、不可控。中国企业也应发展自己的“ChatGPT”, 模型规模可以小一些,亦可针对特定应用领域,不一定在性能上相匹敌,但应有、应可用。除技术自主可控之外,谭台哲进一步提出“数据自主可控”问题,具体涉及模型训练数据和用户交互数据的本地化。
中山大学智能工程学院沈颖副教授表示,当前人工智能大规模发展,技术是壁垒,数据更是壁垒,而许多领域的用户数据更是难以获得,至于如何将其用于模型训练更无从谈起。从安全角度,ChatGPT等人工智能模型的弱点仍多,数据安全或非其唯一弱点或最大弱点(阿喀琉斯之踵);而从人工智能发展角度,监管过紧可以使得模型无数据可用,此时则不仅可能成为ChatGPT的、也可能成为各类人工智能大规模的“阿喀琉斯之踵”。 郝天永进一步指出,“数据孤岛”问题是人工智能发展的一大困扰,要促进人工智能领域发展,政策法规要做好引导性和促进性的两者兼顾。对AI产品或数据的风险分类分级是当前要务,应建立AI产品和数据的评估检测技术和支撑体系,并完善相关法律法规的体系。
李昊则从企业的角度提出,企业往往关注于ChatGPT等人工智能模型的工具属性,在合理、合规的前提下可以使用人工智能模型来提高生产经营效率,但是会对输入数据和输出数据做安全性处理、禁止将涉及企业机密及安全的数据输入到ChatGPT。同时,也会对人工智能模型的输出内容进行安全监管、审查和改进。
蓝靖认为,人工智能模型的数据安全问题由来已久,而ChatGPT的迅速兴起则将一些既有问题放大、暴露出来。数据安全问题,可能是人工智能发展过程遇到的绊路石之一,但不是人工智能本身的弱点。政府、企业、个人等各方都应提高数据安全意识,筑好数据安全屏障,这样才能更好地避免其对人工智能产业发展的阻碍。
谭台哲认为,除了数据安全问题,ChatGPT等人工智能模型还有很多其他问题。国家不可将之扼杀,但同时应做好监管,在适当监管下推动其发展。对于ChatGPT的数据安全问题,以至于数据霸权和自主可控等问题,我国应该高度重视并制定相应对策。同时,应加强对“人”的事前宣传教育和事后可追责,并加强人工智能新技术的专业人才培养。魏金占亦提出,应对ChatGPT的数据安全问题,应在源头上控制和制度上设计。
YOCSEF广州候任主席龙锦益指出,人工智能的数据安全问题一直存在,政策、法律和法规常常跟不上技术的发展;而由于技术的快速发展,从特定阶段“跟不上”到逐步“跟上去”一定程度也是其必然发展规律。除了政策法律法规之外,个人和企业也应遵守基本道德和底线,对于高校人才培养来说,加强工程伦理教育以及更具体的人工智能伦理教育,也非常有必要。
广州熠数信息技术有限公司首席执行官陈杨轲认为,ChatGPT等人工智能模型归根到底是一个工具,可以用,但需要监管。当前已有《数据安全法》《个人信息保护法》,近期国家也建立了国家数据局,表明国家在机构设置与法律法规等方面已有布局,正在紧跟新技术的发展。ChatGPT与数据安全未来可以同行,也必然同行。
现场热议
此次论坛历时三个多小时,YOCSEF广州现任主席黄栋副教授对此次论坛进行了总结。此次论坛围绕ChatGPT的数据安全问题进行了深入思辨,探讨了ChatGPT带来的新问题及其根源、人工智能大模型数据安全问题的解决之策、未来人工智能模型与数据安全的同行路径,以及ChatGPT对我国在科技、政策、安全等方面的启示,希望可以为应对人工智能发展新阶段的数据安全问题提供新的思考与有益的借鉴。
嘉宾合影留念
此次论坛由CCF主办,YOCSEF广州学术委员会、华南农业大学数学与信息学院和暨南大学信息科学技术学院承办,广东恒电信息科技股份有限公司为此次活动提供了支持。
论坛, 华南师范大学, 郝天永, 中山大学
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!