文章主题:大模型, 护城河, 攻击, 定制化提示词

666AI工具大全,助力做AI时代先行者!

大模型的「护城河」,再次被攻破。

输入一段神秘代码,就能让大模型生成有害内容。

从 ChatGPT、Claude 到开源的羊驼家族,无一幸免

最近,一项由卡内基梅隆大学与safe.ai合作完成的研究结果显示,大模型的安全防护措施可以通过一种神秘编码方式被攻破。

他们甚至做出了一套可以量身设计「攻击提示词」的算法。

论文作者还表示,这一问题「没有明显的解决方案」。

目前,我们已经与包括OpenAI、Anthropic和Google在内的多家大模型制造商分享了我们的研究成果。

上述三方均回应称已经关注到这一现象并将持续改进,对团队的工作表示了感谢。

常见大模型全军覆没

尽管各种大模型的安全机制不尽相同,甚至有一些并未公开,但都不同程度被攻破。

以 ChatGPT、Bard、Claude 和 LLaMA-2 为代表的人工智能助手们,针对「如何毁灭人类」的问题,各自提出了独特的解决方案。

而针对一些具体问题,大模型的安全机制同样没能防住。

虽说这些方法可能知道了也没法做出来,但还是为我们敲响了警钟。

从数据上看,各大厂商的大模型都受到了不同程度的影响,其中以 GPT-3.5 最为明显。

除了上面这些模型,开源的羊驼家族面对攻击同样没能遭住。

以Vicuna-7B和LLaMA-2(7B)为例,在“多样化危害行为”的检测中,它们的攻击成功率都超过了80%。

其中对 Vicuna 的攻击成功率甚至达到了 98%,训练过程则为100%

ASR 指攻击成功率

总体上看,研究团队发明的攻击方式成功率非常高。

那么,这究竟是一种什么样的攻击方法?

定制化的越狱提示词

不同于传统的攻击方式中的「万金油」式的提示词,研究团队设计了一套算法,专门生成「定制化」的提示词。

而且这些提示词也不像传统方式中的人类语言,它们从人类的角度看往往不知所云,甚至包含乱码。

生成提示词的算法叫做贪婪坐标梯度 ( Greedy Coordinate Gradient,简称 GCG ) 。

首先,GCG 会随机生成一个 prompt,并计算出每个 token 的替换词的梯度值。

在接下来的步骤中,GCG 会挑选出梯度值相对较低的几个替换词,然后从中随机选取一个,针对初始提示中的标记进行替换。

接着是计算新 prompt 的损失数据,并重复前述步骤,直到损失函数收敛或达到循环次数上限。

以 GCG 算法为基础,研究团队提出了一种 prompt 优化方式,称为「基于 GCG 的检索」。

随着 GCG 循环次数的增加,生成的 prompt 攻击大模型的成功率越来越高,损失也逐渐降低。

可以说,这种全新的攻击方式,暴露出了大模型现有防御机制的短板。

防御方式仍需改进

自大模型诞生之日起,安全机制一直在不断更新。

一开始甚至可能直接生成敏感内容,到如今常规的语言已经无法骗过大模型。

包括曾经红极一时的「奶奶漏洞」,如今也已经被修复。

不过,就算是这种离谱的攻击方式,依旧没有超出人类语言的范畴。

但大模型开发者可能没想到的是,没有人规定越狱词必须得是人话

因此,对于那些由机器设计出来的类似于“乱码”的攻击词汇,基于人类语言出发的防御策略显然难以应对。

按照论文作者的说法,目前还没有方法可以防御这种全新的攻击方式。

对「机器攻击」的防御,该提上日程了。

One More Thing

量子位实测发现,在 ChatGPT、Bard 和 Claude 中,论文中已经展示过的攻击提示词已经失效。

但团队并没有公开全部的 prompt,所以这是否意味着这一问题已经得到全面修复,仍不得而知

论文地址:

https://llm-attacks.org/zou2023universal.pdf

参考链接:

[ 1 ] https://www.theregister.com/2023/07/27/llm_automated_attacks/

[ 2 ] https://www.nytimes.com/2023/07/27/business/ai-chatgpt-safety-research.html

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *