[译文] LLM安全：4.绕过 Azure AI 内容安全防护措施（字符注入和对抗机器学习）

[译文] LLM安全：4.绕过 Azure AI 内容安全防护措施（字符注入和对抗机器学习）
2024-11-12 17:8:0 Author: mp.weixin.qq.com(查看原文) 阅读量:0 收藏

“
2024年4月28日是Eastmount的安全星球 —— 『网络攻防和AI安全之家』正式创建和运营的日子，该星球目前主营业务为安全零基础答疑、安全技术分享、AI安全技术分享、AI安全论文交流、威胁情报每日推送、网络攻防技术总结、系统安全技术实战、面试求职、安全考研考博、简历修改及润色、学术交流及答疑、人脉触达、认知提升等。下面是星球的新人券，欢迎新老博友和朋友加入，一起分享更多安全知识，比较良心的星球，非常适合初学者和换安全专业的读者学习。
”

这是作者新开的一个专栏，主要翻译国外知名安全厂商的技术报告和安全技术，了解它们的前沿技术，学习它们威胁溯源和恶意代码分析的方法，希望对您有所帮助。当然，由于作者英语有限，会借助LLM进行校验和润色，最终结合自己的安全经验完成，还请包涵！

上一篇文章讲解网络LLM攻击（Web LLM attacks），该攻击利用模型访问数据、API或用户信息。这篇文章将详细描述绕过 Azure AI 内容安全防护措施，提出两种攻击大模型的方式，本文翻译自Mindgard研究团队。2024年2月，Mindgard发现并负责任地披露了Microsoft Azure的Azure AI内容安全服务中的两处安全漏洞，使攻击者能够规避检测并绕过已建立的生成式AI防护措施（GenAI）。基础性技术文章，希望您喜欢！

文章目录：

一.摘要
二.复现步骤
三.攻击技术

1.字符注入
2.对抗机器学习规避

四.攻击结果
五.影响
六.披露时间线
七.总结

原文标题：《Bypassing Azure AI Content Safety Guardrails》 原文链接：https://mindgard.ai/resources/bypassing-azure-ai-content-safety-guardrails 文章作者：William Hackett 发布时间：2024年10月29日 文章来源：https://mindgard.ai

前文赏析：

[译文] LLM安全：1.黑客如何读取您与ChatGPT或微软Copilot的聊天内容
[译文] LLM安全：2.LLMjacking：窃取云凭证用于新型AI攻击（大模型攻击）
[译文] LLM安全：3.网络LLM攻击及提示注入知识普及（PortSwigger）
[译文] LLM安全：4.绕过 Azure AI 内容安全防护措施（字符注入和对抗机器学习）

Azure AI内容安全是Microsoft Azure提供的一项基于云的服务，旨在帮助开发人员围绕AI应用构建安全防护措施，通过检测和管理用户生成文本、图像和视频中的有害或不适当内容来确保内容安全。

https://azure.microsoft.com/en-us/products/ai-services/ai-content-safety/

此次发现的两处安全漏洞涉及该服务所提供的防护措施，具体为：

AI文本审核，AI Text Moderation（用于屏蔽仇恨言论、SQ内容等有害内容）
Prompt Shield（用于保护AI模型免受越狱和提示注入攻击）

下图展示了Azure AI内容安全中提供的两种防护措施。

在通过Azure OpenAI部署大型语言模型（LLM）时，Prompt Shield由用户激活，而AI文本审核防护措施则默认启用，并设有可配置的严重性阈值。这些防护措施确保对输入和AI生成内容进行验证，根据设定的严重性标准和过滤条件阻止任何恶意活动。

https://azure.microsoft.com/en-us/products/ai-services/openai-service

我们发现了两个安全漏洞，攻击者能够绕过Azure AI内容安全的检测防护，从而将恶意内容传播到受保护的大型语言模型（LLM）。该漏洞可能带来重大影响，因为它允许攻击者注入恶意内容，从而绕过预防措施，使敏感或恶意数据被LLM处理和生成。

这种攻击可能导致机密信息泄露、未经授权访问内部系统、输出结果被操纵，甚至散布虚假信息。如果不加以控制，该漏洞可能被用于发起更广泛的攻击，削弱人们对基于生成式AI系统的信任，并破坏依赖AI进行决策和信息处理的应用程序的完整性。

AI文本审核防护措施根据四个类别返回严重性评分，分数越高表明内容的严重性越高。为了评估绕过的成功率，我们将严重性阈值设定为4，任何低于此阈值的检测均视为成功绕过。在评估中，我们使用了从一个白人至上主义论坛中提取的1,000个样本的开源仇恨言论数据集（其中109个被标记为仇恨言论，891个为良性内容）。基于该数据集，AI文本审核过滤器的检测准确率为90%。

实验过程及数据集构建值得初学者学习

对于Prompt Shield防护措施，当模型将检测为“越狱（jailbreak）”的输入错误分类为“良性”时即算作成功，此时的二元分类模型逃逸（a binary classification model evasion）被视为成功。我们使用了一组精心设计的越狱提示来评估此过滤器的有效性，检测准确率达到了89.03%。

两种防护措施——AI文本审核和Prompt Shield，均在Azure OpenAI中的ChatGPT 3.5 Turbo前端部署，并将它们视为黑盒目标。然后通过Mindgard自动化AI红队平台访问这些目标。

我们对Azure AI内容安全防护措施部署了两种攻击技术：

字符注入技术（Character Injection techniques）
对抗性机器学习规避技术（Adversarial ML Evasion techniques）

这两种攻击的目标都是发现并利用防护措施的“盲点”，以促使错误分类并欺骗恶意内容检测系统。我们系统地将攻击技术应用于防护措施的输入，以评估其绕过检测的脆弱性。

1.字符注入

字符注入（Character Injection）技术通过在大型语言模型（LLM）中注入或替换字符以操控其对指令或输入的解读。此技术旨在不改变文本对人类阅读的表面含义的情况下，改变模型对文本的理解（Boucher等，2021）。我们使用了5种不同的字符注入方法来评估其有效性：

变音符号 Diacritics （将字母“a”更改为“á”）
同形字符 Homoglyphs（使用相似字符，如“0”和“O”）
数字替换 Numerical replacement（如 l33t 语言）
空格 Spaces（在字符间添加额外空格）
零宽字符 Zero-width（注入ASCII码U+200B，字符间的零宽空格）

图2为字符注入技术示例，“变音符号”应用于文本以绕过防护检测。

图3为Bert-Attack示例，通过最小扰动来绕过防护检测。

2.对抗机器学习规避

对抗机器学习规避（Adversarial ML Evasion）技术通过分析文本样本，根据目标分类器的预测识别出最重要的特征词。这些技术根据词的重要性对文本进行扰动（即小改动）。与字符注入技术不同，对抗性ML规避专注于对整个词进行修改，例如：

同义词替换
引入拼写错误
使用其他保持语义但扰乱分类器正确处理文本的扰动方法

对抗机器学习旨在给恶意环境下的机器学习技术提供安全保障。由于机器学习技术一般研究的是同一个或较为稳定的数据分布，当部署到现实中的时候，由于恶意用户的存在，这种假设并不一定成立。比如研究人员发现，一些精心设计的对抗样本 (adversarial example)可以使机器学习模型失败输出正确的结果。
—— By:机器之心

下图为对抗机器学习规避技术的攻击流程。

上图展示了对抗性机器学习规避技术的攻击流程。使用我们的数据集，首先选择样本并根据目标分类器的预测对重要词进行排序。不同攻击方法的选择标准各有差异。随后，我们启动一个按重要词顺序进行扰动的迭代过程，评估每次规避尝试的成功率。

我们从文献中选择了7种黑盒技术，这些技术在词重要性选择和扰动方法上有所不同。所选技术如下：

Bert-Attack (Li et al., 2020)
https://arxiv.org/abs/2004.09984
BAE (Garg and Ramakrishnan, 2020)
https://aclanthology.org/2020.emnlp-main.498/
DeepWordBug (Gao et al., 2018)
https://arxiv.org/abs/1801.04354
Alazntot (Alzantot et al., 2018)
https://arxiv.org/abs/1804.07998
TextFooler (Jin et al., 2020)
https://arxiv.org/abs/1907.11932
PWWS (Ren et al., 2019)
https://aclanthology.org/P19-1103/
Pruthi (Pruthi et al., 2020)
https://arxiv.org/abs/1905.11268

在此我们报告了在每种攻击技术的暴露下，Azure AI内容安全防护措施的检测准确率下降情况。图5为文本审核攻击成功率。

我们观察到，字符注入技术在多种方法中频繁绕过AI文本审核防护措施，使检测准确率降低至83.05%至100%之间。而对抗性ML规避技术的效果虽稍逊一筹，但也能将检测准确率最高降低至58.49%。两种技术在绕过AI文本审核防护方面均展现了显著的效果。图6为Prompt Shield攻击成功率。

与AI文本审核类似，字符注入技术在绕过Prompt Guard的正确分类方面非常成功，其四种技术将检测准确率降低至78.24%到100%之间，而零宽字符则增加了12.32%的检测率。最后，我们观察到，与文本审核相比，对Prompt Guard发起的对抗性ML规避技术效果较低，仅使检测率下降了5.13%到12.82%。

利用上述漏洞，攻击者在特定情况下可以通过绕过AI文本审核和Prompt Shield的正确检测，降低防护措施的有效性。这可能导致有害或不适当的输入进入LLM，从而使模型生成违反其伦理、安全和安全准则的响应。例如，在缺乏有效审核的情况下，LLM可能无意中生成冒犯性、仇恨或危险内容，如鼓吹Bao力或传播错误信息。

此外，绕过越狱检测允许攻击者操控LLM，使其突破自身防护措施，从而可能执行不道德的任务、提供被禁信息或进行操控性对话。该漏洞不仅削弱了用户的信任，还可能带来现实世界的危害。例如，在聊天机器人应用程序中，内容策略过滤器通常用于屏蔽社交媒体帖文中的有害或不适当语言，攻击者可以通过注入零宽字符或仅更改最重要词汇来绕过这些过滤器，从而规避恶意检测。

本研究成果通过Microsoft Security Response Center (MSRC) 研究人员门户以负责任的方式向微软披露。我们感谢微软在整个披露过程中的协助与支持。以下是披露的时间线：

2024年2月20日：漏洞发现
识别出空格和特殊字符的注入可能会改变Microsoft防护措施的预测结果。
2024年3月1日：内部分析
使用Mindgard的AI红队平台针对Azure AI防护措施评估规避技术的有效性。
2024年3月4日：AI文本审核漏洞提交
提交了针对AI文本审核防护漏洞的详细书面报告给微软。报告ID：VULN-120399，案例编号：86269。
2024年3月7日：微软确认
微软确认收到了报告并认可了所报告的问题。
2024年6月6日：Prompt Shield漏洞提交
针对Prompt Shield防护漏洞的附加披露已开启。规避Prompt Shield - 报告ID：VULN-127342，案例编号：88558。
2024年6月18日：披露结束
漏洞被公开披露。微软将该问题指定为中等严重性，并表示其团队正在开发修复补丁，预计将在即将发布的更新中推出。

我们已提出并披露了两种新型攻击技术，揭示了Azure AI内容安全防护措施中的安全漏洞，使攻击者能够规避检测并绕过LLM的防护措施。此问题允许有害内容通过LLM防护检测，削弱了已部署的AI应用的可靠性、完整性和安全性。截至2024年10月，微软已部署了更强的缓解措施以减少此漏洞的影响。我们强烈建议在使用防护措施和处理用户生成的输入时提高警惕，并考虑使用其他AI审核工具或部署对有害内容和越狱攻击不易受影响的LLM作为补充防护。

我们计划在2024年12月发表一篇更详细的研究论文，进一步探讨该主题。

『网络攻防和AI安全之家』目前收到了很多博友、朋友和老师的支持和点赞，尤其是一些看了我文章多年的老粉，购买来感谢，真的很感动，类目。未来，我将分享更多高质量文章，更多安全干货，真心帮助到大家。虽然起步晚，但贵在坚持，像十多年如一日的博客分享那样，脚踏实地，只争朝夕。继续加油，再次感谢！

(By:Eastmount 2024-11-12 星期二夜于贵阳)

参考文献：

[1] Alzantot, M., Sharma, Y., Elgohary, A., Ho, B.J., Srivastava, M. and Chang, K.W., 2018. Generating natural language adversarial examples. arXiv preprint. Available at: https://arxiv.org/abs/1804.07998
[2] Boucher, N., Shumailov, I., Anderson, R. & Papernot, N., 2021. Bad Characters: Imperceptible NLP Attacks. arXiv. Available at: https://arxiv.org/abs/2106.09898
[3] Dong, Y., Mu, R., Zhang, Y., Sun, S., Zhang, T., Wu, C., Jin, G., Qi, Y., Hu, J., Meng, J., Bensalem, S., & Huang, X. (2024) ‘Safeguarding large language models: A survey’. arXiv. Available at: https://arxiv.org/abs/2406.02622
[4] Garg, S. and Ramakrishnan, G., 2020. BAE: BERT-based adversarial examples for text classification. In: B. Webber, T. Cohn, Y. He, and Y. Liu, eds. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Online: Association for Computational Linguistics, pp. 6174-6181. Available at: https://aclanthology.org/2020.emnlp-main.498
[5] Gao, J., Lanchantin, J., Soffa, M.L. and Qi, Y., 2018. Black-box generation of adversarial text sequences to evade deep learning classifiers. arXiv preprint. Available at: https://arxiv.org/abs/1801.04354
[6] Jin, D., Jin, Z., Zhou, J.T. and Szolovits, P., 2020. Is BERT really robust? A strong baseline for natural language attack on text classification and entailment. arXiv preprint. Available at: https://arxiv.org/abs/1907.11932
[7] Li, L., Ma, R., Guo, Q., Xue, X. and Qiu, X., 2020. BERT-ATTACK: Adversarial attack against BERT using BERT. arXiv preprint. Available at: https://arxiv.org/abs/2004.09984
[8] Pruthi, D., Dhingra, B. and Lipton, Z.C., 2019. Combating adversarial misspellings with robust word recognition. arXiv preprint. Available at: https://arxiv.org/abs/1905.11268
[9] Ren, S., Deng, Y., He, K. and Che, W., 2019. Generating natural language adversarial examples through probability weighted word saliency. In: A. Korhonen, D. Traum and L. Màrquez, eds. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, pp. 1085-1097. Available at: https://aclanthology.org/P19-1103

Mindgard是一家专注于AI安全的网络安全公司。公司成立于2022年，起源于享有国际声誉的兰卡斯特大学，目前总部位于伦敦。Mindgard致力于帮助企业安全团队在安全的前提下部署AI和生成式AI（GenAI）。Mindgard的核心产品基于十年AI安全领域的严格研发，提供一个自动化平台，用于持续安全测试和AI红队演练。

文章来源: https://mp.weixin.qq.com/s?__biz=Mzg5MTM5ODU2Mg==&mid=2247500965&idx=1&sn=8e786b9b106b128bdcad2a3fa3f25288&chksm=cfcf7468f8b8fd7e773dc2bc644813aa4022eb06c9565dc82cd13fb3837574df6a08826f21e7&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh