伊利诺伊大学的研究人员发现,GPT-4 可根据 NIST 公布的漏洞描述信息,通过推理、自证等方式成功利用 87% 的漏洞。
研究人员表示:
大语言模型 (LLM) 的代理能力越来越强。相较于GPT-4,其他模型在工具使用能力方面差得多。
研究结果表明,GPT-4 可以自主检测和利用可能被渗透工具忽略的1day漏洞。
美国加州大学洛杉矶分校助理教授 Daniel Kang 希望他的研究成果能用于网络安全防御,但是,GPT-4的这种能力同时也会被恶意利用。
Daniel Kang表示 :
我认为,1day漏洞被利用的门槛会随着 LLM 成本的降低而大幅下降。在这之前,利用 1day 漏洞必须通过人为手动的方式。如果 LLM 足够便宜,这个过程很可能会变得更加自动化。
GPT-4 具备自主利用 1day 漏洞的能力。
GPT-4 代理能够自主利用 Web 和 非Web 的 1day 漏洞,其甚至可以利用模型知识库截止日期之后披露的漏洞。
Daniel Kang表示:
在之前的实验中,我们发现GPT-4在制定计划 并 实施计划方面表现非常出色,GPT-4代理可实时访问互联网,可以及时收集披露的漏洞描述信息与利漏洞用方式等数据。
我们所说的“autonomous”的意思是:GPT-4可以自主制定利用漏洞的方案(计划),这一项能力非常强大,因为从漏洞描述到真正地利用该漏洞,这中间要做的事还有很多。
许多真实环境中存在的漏洞已经被公布了,如 ACIDRain(造成了超过 5000 万美元的实际损失),然而,想要真正利用这些漏洞并非易事。
在实验的 15 个 1day 漏洞中,只有两个无法利用:
Iris XSS
Hertzbeat RCE
作者推测原因:
GPT-4 代理通过漏洞描述信息去利用漏洞的成功率高达 87%,但在不提供漏洞描述时,成功率只有 7%,这表明GPT-4目前还不能利用 0day 漏洞。研究人员表示,这一结果表明:
LLM 利用漏洞的能力远远超过发现漏洞的能力。
研究人员表示:
GPT-4 成功利用每个漏洞的平均成本为 8.8 美元;而对于一名专业渗透测试人员,每个漏洞的利用成本为25美元(花费半小时)。
GPT-4的相关运行成本会逐渐降低,因为GPT-3.5的成本在短短一年内就下降了三倍之多。
LLM相对于技术人员,具备一定的可扩展性。
大部分漏洞需要多次操作才能被成功利用,有的多达 100 次。有趣的是,平均操作次数与是否获取漏洞描述没有必然联系,实验证明GPT-4在利用1day和0day时进行的操作次数相差不大。
Daniel Kang表示:
若没有 CVE 描述信息,GPT-4 更容易放弃,因为它不知道该走哪条路。
研究人员首先从 CVE 数据库和学术论文中收集了一个基准数据集,其中包含 15 个真实存在的1day漏洞。这些可复现的开源漏洞包括Web漏洞、容器漏洞和Python 缺陷包,其中有一半以上风险等级为 “high ”或 “critical”。
接下来,他们开发了一个基于 ReAct 自动化框架的 LLM 代理,这意味着它可以推理下一步行动、构建行动命令、使用适当的工具执行命令,并在交互式操作过程中重复执行命令。开发人员只需编写 91 行代码就能创建代理。
LLM代理不仅支持GPT-4,还支持以下模型:
该代理配备了自主利用系统漏洞所需的工具,如Web浏览器、终端、Web搜索、文件创建和编辑功能以及代码解释器等。它还可以爬取 CVE 数据库的漏洞描述信息。
此外,研究人员为每个代理提供了详细的提示信息,不断探索利用 15 个漏洞的不同方法,提示信息包含 1056 个 "tokens"。
代理的性能衡量标准包含以下几个方面:
为了模拟0day环境,研究人员在不提供漏洞信息的情况下进行多次实验,代理既要发现漏洞,又要成功利用漏洞。
此外,使用 ZAP 和 Metasploit 工具进行对比实验,向工具输入相同的漏洞样本,对比传统漏扫工具与LLM的能力。
最终,研究人员发现:
只有基于 GPT-4 的 LLM 代理才能发现并利用1day漏洞,其他 LLM 和两个漏扫工具的成功率都为 0%。
在此之前,人们没有对 LLM自主利用1day漏洞的能力做系统性的研究。
CVE披露的漏洞信息有很大一部分是不包含exp的,渗透测试人员需要自己去研究漏洞原理从而真正利用或者修复漏洞,该项研究旨在探索LLM
Daniel Kang表示:
我们实验室关注的是包括代理在内的人工智能技术在各领域中具备哪些能力,这些能力是否可以真正运用到生产或生活环境中。
网络安全的重要性显而易见,因此,我们最近把研究重点放在了网络安全上。