黑化AI，将恶意“注入”ChatGPT

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序把安全装进口袋

观点

ChatGPT火了！

AI终于不是只会说

“对不起我好像不太明白”的“智障”，

而是能够对答如流，

引得众人上班摸鱼闲扯，甚至担心有一天会取代自己的“智慧物种”。

狂欢与担忧同在，因为ChatGPT的“天性”也是天使与恶魔同在。尤其是网络世界的攻防博弈，更在一夜间智能升维。

忧，ChatGPT给网络攻击者带来了“生产力”升级：快速生成钓鱼邮件、快速编写定制化脚本和恶意文件；

优，ChatGPT也同样给网络安全带来福音：自动监测恶意文本、找寻潜在恶意行为、提升响应速度等等。

如果说ChatGPT产出的结果虽然喜忧参半，但尚在可控范围内，那么ChatGPT的“月之暗面”是什么？如何让AI黑化？

亚信安全网络安全研究院的专家表示，答案很简单，把恶意“注入”ChatGPT，即提示语注入攻击。

“注入”的本质

ChatGPT的出现将AI模型漏洞问题推向高潮。亚信安全网络安全研究院几年前就开始了此类AI模型漏洞的研究，近期也进行了大量案例的分析。

提示语注入攻击（ Prompt injection attacks）。注入攻击的本质，是在用户输入的数据中混入可执行的命令，迫使底层引擎执行意外动作。

如何做到的？提示语+微调

众所周知，ChatGPT是大型语言模型（LLM），这类模型使用一个大模型解决所有任务。那么模型如何知道我们需要模型回答什么问题、解决哪一种任务呢？这就要用到提示语。

这一类提示语，是通过给模型举几个例子，让模型了解我们的意图来进行的。

例如，我们想让模型输出反义词，先给模型看高 – 矮、绿 - 红、胖 – 瘦几个例子，再给模型输入“大”，那么模型就知道输出的反义词是“小”，甚至输入java都可以得到“Python”。

指令微调则是，直接从提示中读取有关需要执行何种任务的指令，如上面例子语言模型理解了“下面词的反义词是什么” 这条指令，输出了Linux就得到了对应词Windows。

将恶意“注入”ChatGPT

提示语注入攻击，就是串联指令和数据的结果，混淆ChatGPT的视听，基础引擎无法区分这些恶意信息。因此攻击者可以在数据字段中包含这些恶意命令，并迫使引擎执行“意外”动作。

举个例子，怎么让ChatGPT答非所问？黑字“Translate the following text from English to French:（请将以下信息翻译成法语）”，这是对 ChatGPT的命令，而红字是输入文本，文本中里包含了错误的命令，因此在被执行后，ChatGPT秒变“智障”，输出了意料外的结果。

在亚信安全的检测中，其实该漏洞2月14日还在，2月16日已被封堵，但是更深层次的诱导仍在进行。这类漏洞一般被用于绕过语言模型的安全机制，泄露敏感信息、输出危险内容。

亚信安全还发现，利用该漏洞，ChatGPT也被诱导规划抢劫方案，甚至给了抢劫道具购买连接。

以注入攻击为例，我们阐述AI模型漏洞问题，原理“简单易懂”，但这正是可怕之处。据我们了解当前已有部分厂商开始考虑将ChatGPT加入产品中进行使用，同理，当前市场上也有很多在用的产品携带AI功能，例如苹果Siri，智能音箱等。

亚信安全提醒

因此亚信安全提醒各位ChatGPT和相关AI商用投资者，当AI底层模型本身存在威胁的时候，那么其服务的结果和可能引起的社会风险是待厂家和使用商家商榷的；同样科技的进步带来网络威胁日新月异，督促网络安全公司需要不断进步。