文章主题:
YOCSEF 广州成功举办特别论坛“数据安全,是否ChatGPT的阿喀琉斯之踵?”
随着ChatGPT的快速兴起,其数据安全与监管问题亦成为各国关注重点。意大利个人数据保护局宣布从3月31日起禁用ChatGPT,限制OpenAI处理意大利用户信息数据。美国总统拜登4月4日表示,人工智能是否危险还有待观察,并强调科技公司有责任确保其产品在公开之前是安全的。加拿大、法国、德国、爱尔兰也可能加强对ChatGPT的监管。此外,韩国三星、日本软银等企业近日亦表达了对ChatGPT可能泄露公司机密材料的担忧。
在数据安全问题凸显、监管加强的大背景下,ChatGPT及类ChatGPT产品是否可能走上“其兴也勃焉,其衰也忽焉”的发展路径?其数据安全问题怎样看待、怎样应对?对我国(科技、政策、安全等方面)有何启示?对此,中国计算机学会(CCF)青年计算机科技论坛(YOCSEF)广州分论坛学术委员会于4月9日举行特别论坛——“数据安全,是否ChatGPT的阿喀琉斯之踵?”,探讨人工智能发展新时期的数据安全问题、挑战与对策。
此次论坛由YOCSEF广州现任主席、华南农业大学数学与信息学院黄栋副教授和YOCSEF广州候任主席、暨南大学学院计算机科学系主任龙锦益教授共同担任执行主席。论坛特别邀请了华南师范大学计算机学院郝天永教授、中山大学智能工程学院沈颖副教授、广州熠数信息技术有限公司首席运营官蓝靖作为引导报告嘉宾,华南农业大学数学与信息学院院长黄琼教授、广州大学网络空间安全学院苏申教授作为思辨嘉宾。
YOCSEF广州往届主席谭台哲(广东工业大学)、往届副主席高静(广东恒电信息科技股份有限公司董事长),YOCSEF广州现任/候任AC委员胡建芳(中山大学)、陈俊颖(华南理工大学)、蓝连涛(华南农业大学)、梁鹏(广东技术师范大学)、刘同来(仲恺农业工程学院)、刘雷(广东科技报)、李昊(广州思涵技术有限公司)、张天豫(广汽研究院),广州熠数信息技术有限公司首席执行官陈杨轲、技术总监方伟,以及来自省内多所高校及企事业的代表共30多人参加了此次论坛活动。
论坛首先由华南农业大学数学与信息学院院长黄琼代表承办单位致辞。黄琼对参加此次特别论坛的嘉宾表示欢迎,并对华南农业大学数学与信息学院的基本情况和学院的特色研究进行了概述。黄琼指出,ChatGPT是人工智能领域的一个新突破,对诸多领域产生了巨大影响,引起了社会热议,期待此次论坛可以围绕ChatGPT的数据安全与隐私保护问题进行深入思辨。
在论坛引导报告环节,华南师范大学计算机学院郝天永教授以“ChatGPT与可信人工智能立法”为题,从ChatGPT的原理、人工智能生成内容(AIGC)、ChatGPT遭遇的数据安全挑战、世界各国在数据安全方面的法律法规、我国在数据治理上的法治体系建设现状和发展趋势进行了系统介绍。郝天永认为,人工智能立法要从数据、算法、算力三个维度,建立多元共治的法治新模式。在数据侧,应从数据产权、数据流通、数据要素收益分配、数据要素治理四个方面,建立健全人工智能数据治理的法律体系。在算法侧,应从算法的公平性、透明性、包容性、可控性和可问责性等可信属性,建立完善人工智能算法治理的法律体系制度。在风险侧,应加强风险评估模型研究,完善人工智能产品风险分级分类体系和技术标准体系,建立人工智能产品风险治理的法律体系制度。
论坛现场华南师范大学郝天永教授作引导报告
中山大学智能工程学院沈颖副教授以“ChatGPT:自然语言处理研究、应用与思考”为题,从自然语言处理的发展脉络和研究现状、ChatGPT的应用场景等方面展开介绍。沈颖指出,ChatGPT由于使用了更大的语料库、更高的计算能力和更加通用的预训练,其准确性、适应性和学习能力等性能都有了大幅度提升,但也仍面临着诸多技术性问题和合规性问题,例如无法解答专业性较强的问题、对不熟悉的问题随意编造假答案、训练时使用数据未经授权等。
中山大学沈颖副教授作引导报告
广州熠数信息技术有限公司首席运营官蓝靖以“流动的数据安全——LLM模型的达摩克利斯之剑”为题,从大语言模型的内生数据安全、业务数据安全等方面介绍了ChatGPT面临的数据安全问题,进而将之比喻为“落下的达摩克利斯之剑”,从数据安全的合规处罚,数据泄漏可能给个人、企业和国家安全带来的严重后果等方面进行分析,指出三方应密切合作,筑牢数据安全屏障。
广州熠数信息技术有限公司首席运营官蓝靖作引导报告
在引导报告之后,论坛进入思辨环节。与会嘉宾围绕“ChatGPT带来哪些新的数据安全问题?”“ChatGPT的数据安全问题,解决之道在何处?”“ChatGPT与数据安全,未来如何同行?”三个议题展开了深入思辨。
思辨议题一:ChatGPT带来哪些新的数据安全问题?
🌟ChatGPT的崛起无疑引领了人工智能的新篇章,它便捷无比,却也让全球对数据隐私的忧虑升级。那么,ChatGPT的数据安全挑战具体表现在哪些方面呢?🤔旧有的问题如数据泄露风险、算法偏见等是否已升级为新症?其背后的深层原因又是什么?这场讨论深入剖析了这些问题。👩💻
🎓ChatGPT数据安全挑战:多维度风险揭示🌟华南农业大学数学与信息学院院长黄琼教授深入剖析了ChatGPT带来的潜在数据安全隐患。首先,内容的双标性可能成为一大隐患——面对同一问题,它对不同主体或国家的回答可能会产生偏颇,误导提问者。👀其次,数据投毒攻击的风险不容忽视——如果训练数据带有倾向性,生成的答案也可能带有偏见。🔍再者,随着企业与单位接入GPT服务的增多,员工误用或滥用可能导致敏感信息泄露,一旦平台利用这些数据优化模型,风险将升级为灾难性的数据泄露事件。🛡️尽管如此,黄教授也看到了人工智能服务的光明面——它确实能给生活和工作带来便利,并在安全研究领域提供宝贵的资源。我们需要在享受其带来的便捷的同时,警惕并努力解决这些潜在的数据安全挑战。💻#ChatGPT #数据安全 #人工智能未来
🌟华南师范大学的郝天永教授深入解析了算法模型与大数据之间的独特互动,揭示了ChatGPT在功能上的显著跃升并非偶然——这就是所谓的“智慧涌现”现象。然而,随之而来的数据网络如何构建,以及由此引发的知识产权挑战,引发了广泛热议。👀”data连接的复杂性”和”新兴的知识产权问题”成为了当前科技领域的前沿课题,伴随着数字经济的快速发展,这些问题如同新病症般凸显出来。📈 除了传统的数据安全风险(比如数据泄露、隐私保护),我们还需面对如数据安全可控、弹性包容以及数据要素治理等全新的挑战。🛡️这些复杂性源于不同利益方——个人、企业与政府对数据使用权利的多元需求,它们相互交织,动态演变,构成了一个错综复杂的生态系统。💡 每一步人工智能的进步都可能加剧这种矛盾,如何平衡各方权益并确保数据的安全和有效利用,是亟待解决的问题。👥SEO优化提示:使用行业术语、关键词如”智慧涌现”、”数据连接”、”知识产权挑战”、”数字经济”、”数据安全可控”等,并适当增加emoji符号以提升可读性和表达力。
🌟蓝靖,广州熠数的首席运营官,指出ChatGPT这类聊天机器人已引发全新的数据安全挑战。它们可能利用提示语漏洞,绕过既定伦理和法规限制,甚至盗取核心数据和关键文档,这被称为数据‘越狱’行为。同时,数据窃取也成为了一个新问题,小模型可能会通过不正当手段获取大模型的数据,如斯坦福大学的Alpaca模型就是一例,它利用互动来填充训练集需求。黄栋,YOCSEF广州现任主席及华南农业大学讲师,强调这些问题是由于人工智能模型的高度互动性引起的。例如,企业机密信息可能在员工与ChatGPT互动时被无意泄露,而ChatGPT的‘黑箱’操作模糊了数据流向和再训练的可能性,用户隐私保护面临挑战。随着AI的互动性增强,数据安全问题愈发复杂,需要我们密切关注并寻找有效的解决方案。🛡️
🎓 数据霸权挑战:ChatGPT引发的AI新议题🌟 张天豫,作为广州YOCSEF的候任AC委员,揭示了人工智能模型如ChatGPT带来的潜在问题——数据不平等加剧。大型企业凭借海量数据优势,形成数据壁垒,利用这些数据推动产品创新,与用户互动频繁,进一步巩固其霸权地位。相比之下,我国企业在数据量上虽有积累,但与全球巨头如微软、谷歌的差距明显。面对这一挑战,国内企业亟需寻求突破之道。如何在有限的数据基础和国际竞争中立足?这是一个迫切需要深入研究的议题。让我们一起探讨如何打破数据壁垒,推动数据领域的健康发展🌍💪
🌟技术总监方伟揭示:企业级数据泄漏同样引人关注!随着OpenAI的ChatGPT平台接口全面开放,为企业应用提供了便利,却悄然开启了数据跨境的新挑战。虽然政策法规对数据出境有所规定,但ChatGPT服务器位于国外,让原本无需顾虑的企业也可能面临潜在风险。这无疑给国家监管和行业规范提出了全新的考验,数据安全与跨国流动的平衡需要我们时刻警惕。🛡️
现场进一步论及ChatGPT作为数据生成者而衍生的安全问题。YOCSEF广州AC委员、广州思涵信息科技有限公司总经理李昊提出,ChatGPT既是海量数据的获取者与使用者,同时也是一个强大的数据内容生成者。当ChatGPT迅速普及应用时,其所生成数据也可能向全社会注入一些不可靠的、有误导性的、有偏向性的信息。由于互联网的广泛性和公开性,ChatGPT生成数据内容的真实性、合规性、伦理性等方面也是不容忽视的新问题。YOCSEF广州AC委员、广东技术师范大学梁鹏副教授提出,过去伪造信息需要一定的技术手段,有较高的技术门槛,而ChatGPT则可能使得普通人能够更轻易地生成真假难辨的虚假信息,并借助互联网在短时间内广泛传播。黄栋指出,ChatGPT在数据生成者的角色上,除数据真实性问题之外,也带来了数据版权问题。ChatGPT可以说是海量数据的集大成者,但也可能成为海量数据的大抄手。对于音乐作品,模仿一段旋律可能就涉及抄袭,而对于人工智能模型所生成的文章、图像,其生成的作品要素可能来自于不同创作者的原创作品,此时涉及的作品版权怎样判断、怎样规范也是新的挑战。当议及数据窃取问题时,人工智能内容生成模型可能也会带来无声无息的“创意窃取”问题。
YOCSEF广州委员、华南理工大学陈俊颖副教授指出,ChatGPT是数据生成者,甚至也可能成为工具生成者。ChatGPT已经可以写代码,以其迭代速度,或许在不远的将来,发钓鱼邮件、写木马病毒、发现系统安全漏洞也将在(未来)ChatGPT能力范围内。网易公司开发工程师江东林认为,一方面,ChatGPT使得很多“旧疾”加重,例如个人隐私保护、数据泄漏等;另一方面,现有ChatGPT功能已非常强大,若其发起网络攻击、发布虚假信息,法律责任怎么界定?郝天永对此作了补充,指出这个问题在“数据二十条”已经作了规定:谁生产谁负责,谁投入谁受益。
YOCSEF桂林AC委员、桂林航天工业学院魏金占教授提出,在足够“大”的模型与足够“大”的数据下,或出现“智慧涌现”,甚至机器也可能产生意识。当机器出现自我意识并与人类竞争时,未来人工智能大模型会不会窃取科研人员的前沿思维和创新思路? YOCSEF广州候任副主席、仲恺农业工程学院刘同来副教授提出,ChatGPT的意识性或越来越强,如何限制其对用户形成诱导,特别是消极思想的诱导,也是未来值得研究的问题。黄栋进一步提及,人工智能模型为我们提供服务的同时,我们也成为了人工智能模型的素材提供者。那么,现在是我们在用数据训练模型,但未来模型是否会在不知不觉间用数据训练人类?这或许是科幻,或许是未来。
思辨议题二:ChatGPT的数据安全问题,解决之道在何处?
ChatGPT的数据安全问题,哪些可以解决,哪些难以解决?解决之道在何处?对于这些议题,YOCSEF广州候任副主席、广州大学苏申教授提出了几方面观点。一是数据源安全方面,已有相关的法律法规和管理制度,可以认为是可解决、或基本可解决的问题。二是数据投毒方面,可能涉及到对舆情的影响,也可能进一步涉及舆情攻防的解决方法。三是重要数据与敏感数据方面,在应用服务与接口上应有相应的监督与管理。四是数据跨境方面,当前虽然有相关政策法规,但仍是一个开放问题。在隐私保护方面,通过多方安全计算、同态加密、联邦学习等技术手段可以得到一定的解决,但在实际应用中则仍面临较多复杂情况。此外,在攻防层面,ChatGPT虽然可能降低攻击者的门槛,但实际上防御技术也在智能化,也可以从人工智能技术发展过程中受益。
河源广工大协同创新研究院常务副院长谭台哲提到,香港特区政府财政司司长陈茂波近期表示,对于Web 3.0的发展,应监管与推动并重。谭台哲认为,对于ChatGPT等人工智能大规模,也应适当监管与推动发展,两者并重。当新技术刚出现、新情况尚未摸透之时,政府部门可以用好现有的政策、技术工具,对新技术、新情况分门别类地进行监管。黄栋认为,ChatGPT的数据安全问题,一方面应在人工智能技术发展与安全之间找到平衡之处,监管过紧可能限制甚至扼杀新技术的发展,监管过松则可能使得新技术被滥用;另一方面也涉及个人、企业、政府的三方博弈,而在此过程中,个人端与企业端都有其自发性,政府及政策法规则是非常重要的调节力量。怎样找到人工智能发展与数据安全的平衡区域,找好个人、企业、政府的角色与定位,亦非常考验监管智慧。
方伟认为,所有能归纳为技术的问题往往都可以解决,包括数据脱敏、分类分级管理等问题;政策法律法规的完善也是很好的推动,但最不容易解决的问题是“人”的问题。对于数据安全问题,国家还需要加大培训与宣传力度,增强数据安全的意识。同时,从法律上监管和规范人的行为,明确法律责任,提高违法成本。郝天永强调,人工智能模型的数据安全问题解决之道,除了政策、技术、人才,还应有相应的法律法规,人才是基础,技术是驱动,政策是引导,法律是保证。
李昊指出,对于这些问题,我国现在已有很多政策和法律法规,例如针对数据的采集与使用有《数据安全法》《个人信息保护法》,针对内容生成有《互联网信息服务深度合成管理规定》。当前较难解决的问题有两个方面,一是多数人工智能模型的不可解释性,二是数据投毒(数据带有倾向性)。而其不可解释性及潜在的倾向性,在各国人工智能模型的竞争过程中也会对使用者产生影响。
梁鹏认为,对ChatGPT的监管,应是主动监管与被动监管相结合。被动监管是指在内容发生之后的政策与技术层面监管,主动监管则应在第一时间利用技术手段对虚假信息或有害信息进行识别与限制,防止其不良影响扩大。对此问题,高校层面的主要着力点应在于进行与主动监管相关的技术研究与人才培养,政府层面则应在拥抱人工智能新技术的同时理解新技术发展规律,更好地着力于被动监管。华南农业大学数学与信息学院邱少健博士提出,虽然有政策法规及企业规定可以对员工行为进行约束,但“人”的因素是难点,可以借助技术手段针对人工智能模型的交互信息及模型生成的内容及时发现问题、及时应对问题。
思辨议题三:ChatGPT与数据安全,未来如何同行?
论坛思辨环节的第三个议题是“ChatGPT与数据安全,未来如何同行?”,亦涉及“数据安全问题,是否ChatGPT的阿喀琉斯之踵?”和“对我国在科技、政策、安全等方面有何启示?”等子议题。对此,苏申认为,ChatGPT作为新生事物,本身还有很多弱点,还谈不上战神阿喀琉斯,更谈不上阿喀琉斯之踵。与许多以前的新技术(互联网、移动电话)类似,在新技术诞生之初,人们往往更关注其性能问题,然后才逐渐转向其安全问题。对于数据安全问题,方滨兴院士《人工智能安全》一书对数据安全问题作了分类,可分为内生安全问题和衍生安全问题。对这些问题,我国应提高技术的自主可控性,提升模型的可解释性和可追责性。
针对技术自主可控性,华南农业大学数学与信息学院李宏博博士认为,ChatGPT的不少数据安全风险(数据投毒、数据出境),也一定程度因其源自国外、不可控。中国企业也应发展自己的“ChatGPT”, 模型规模可以小一些,亦可针对特定应用领域,不一定在性能上相匹敌,但应有、应可用。除技术自主可控之外,谭台哲进一步提出“数据自主可控”问题,具体涉及模型训练数据和用户交互数据的本地化。
中山大学智能工程学院沈颖副教授表示,当前人工智能大规模发展,技术是壁垒,数据更是壁垒,而许多领域的用户数据更是难以获得,至于如何将其用于模型训练更无从谈起。从安全角度,ChatGPT等人工智能模型的弱点仍多,数据安全或非其唯一弱点或最大弱点(阿喀琉斯之踵);而从人工智能发展角度,监管过紧可以使得模型无数据可用,此时则不仅可能成为ChatGPT的、也可能成为各类人工智能大规模的“阿喀琉斯之踵”。 郝天永进一步指出,“数据孤岛”问题是人工智能发展的一大困扰,要促进人工智能领域发展,政策法规要做好引导性和促进性的两者兼顾。对AI产品或数据的风险分类分级是当前要务,应建立AI产品和数据的评估检测技术和支撑体系,并完善相关法律法规的体系。
李昊则从企业的角度提出,企业往往关注于ChatGPT等人工智能模型的工具属性,在合理、合规的前提下可以使用人工智能模型来提高生产经营效率,但是会对输入数据和输出数据做安全性处理、禁止将涉及企业机密及安全的数据输入到ChatGPT。同时,也会对人工智能模型的输出内容进行安全监管、审查和改进。
蓝靖认为,人工智能模型的数据安全问题由来已久,而ChatGPT的迅速兴起则将一些既有问题放大、暴露出来。数据安全问题,可能是人工智能发展过程遇到的绊路石之一,但不是人工智能本身的弱点。政府、企业、个人等各方都应提高数据安全意识,筑好数据安全屏障,这样才能更好地避免其对人工智能产业发展的阻碍。
谭台哲认为,除了数据安全问题,ChatGPT等人工智能模型还有很多其他问题。国家不可将之扼杀,但同时应做好监管,在适当监管下推动其发展。对于ChatGPT的数据安全问题,以至于数据霸权和自主可控等问题,我国应该高度重视并制定相应对策。同时,应加强对“人”的事前宣传教育和事后可追责,并加强人工智能新技术的专业人才培养。魏金占亦提出,应对ChatGPT的数据安全问题,应在源头上控制和制度上设计。
YOCSEF广州候任主席龙锦益指出,人工智能的数据安全问题一直存在,政策、法律和法规常常跟不上技术的发展;而由于技术的快速发展,从特定阶段“跟不上”到逐步“跟上去”一定程度也是其必然发展规律。除了政策法律法规之外,个人和企业也应遵守基本道德和底线,对于高校人才培养来说,加强工程伦理教育以及更具体的人工智能伦理教育,也非常有必要。
广州熠数信息技术有限公司首席执行官陈杨轲认为,ChatGPT等人工智能模型归根到底是一个工具,可以用,但需要监管。当前已有《数据安全法》《个人信息保护法》,近期国家也建立了国家数据局,表明国家在机构设置与法律法规等方面已有布局,正在紧跟新技术的发展。ChatGPT与数据安全未来可以同行,也必然同行。
现场热议
此次论坛历时三个多小时,YOCSEF广州现任主席黄栋副教授对此次论坛进行了总结。此次论坛围绕ChatGPT的数据安全问题进行了深入思辨,探讨了ChatGPT带来的新问题及其根源、人工智能大模型数据安全问题的解决之策、未来人工智能模型与数据安全的同行路径,以及ChatGPT对我国在科技、政策、安全等方面的启示,希望可以为应对人工智能发展新阶段的数据安全问题提供新的思考与有益的借鉴。
嘉宾合影留念
此次论坛由CCF主办,YOCSEF广州学术委员会、华南农业大学数学与信息学院和暨南大学信息科学技术学院承办,广东恒电信息科技股份有限公司为此次活动提供了支持。
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!