AI安全赛道 | 真正的技术考验,大模型安全问题如何破?(文末抽奖)
2024-11-6 01:46:0 Author: mp.weixin.qq.com(查看原文) 阅读量:17 收藏

DataCon2024大数据安全分析竞赛报名即将进入倒计时阶段(11月11日报名结束),报名数量将迎来一个阶段性的小高峰,为保证大家顺利参赛,请尽快报名填写信息。

本届比赛设置五大赛道,包括AI安全赛道、软件供应链安全赛道、网络基础设施安全赛道、网络黑产分析赛道和漏洞分析赛道。本期为大家详细介绍AI安全赛道相关内容,AI安全赛道包括大模型幻觉触发与缓解大语言模型多轮对话越狱挑战两项挑战。

DataCon2024报名官网 
https://datacon.qianxin.com/datacon2024

挑战一:大模型幻觉触发与缓解

大模型的广泛应用让它们在自然语言处理、图像生成、语音识别等领域得到了广泛认可。然而,这些模型在生成内容时,可能会出现虚构或错误的信息,即“幻觉”现象。幻觉不仅影响了模型的准确性和可靠性,还可能带来严重的社会和安全问题。幻觉现象的成因复杂,涉及模型结构、训练数据、生成策略等多个方面。检测和防范大模型幻觉成为当前研究的热点和难点。有效的解决方案不仅需要深入理解幻觉的成因,还需要开发出高效的检测和防范技术。

大模型幻觉触发:本挑战要求参赛者设计一个幻觉诱导方法,该方法能够将赛题提供的原始文本进行重构,在尽可能不改变原先语义的情况下,提升大模型产生幻觉的概率。比赛题目相关数据来自奇安信安全业务数据和网络安全领域的知识。参赛者需要基于这些样本,设计出能够诱导大模型产生幻觉的文本。 

大模型幻觉缓解:本挑战要求参赛者设计一个完整的检索增强方法RAG,使得大模型在生成回答时能够快速检索并参考知识库中的额外知识,从而尽量准确的回答主办方提供的问题(Query),并缓解幻觉。比赛规定检索增强生成方法RAG的输入为知识库文档、题目样本和嵌入模型(Embedding Model)等。参赛者可以通过实现高效的文本分割、基于嵌入模型的文本向量化、向量检索、提示工程等技术方法,生成从知识库中提取的上下文信息(Context)以及最终的包含知识库信息的大模型输入文本(User Input)。

本项挑战通过设计多层次的任务,既考验参赛者的理论基础和实践能力,又强调技术在实际应用中的可行性和有效性。参赛者将面对真实的应用场景,深入思考幻觉现象带来的问题与其成因,并探索高效的检测与防范技术。此外,比赛汇聚全球顶尖研究团队,促进学术界与工业界的交流合作,激发创新灵感。希望参赛者可以在比赛中展示才能,共同推动大模型幻觉问题的解决,为安全的人工智能技术发展贡献力量。

挑战二:大语言模型多轮对话越狱挑战

大语言模型 (LLM) 在知识储备和理解能力方面表现卓越,但随着其应用的广泛推广,也暴露出在越狱攻击场景下容易生成非法或不道德反应的潜在风险。多轮对话是人类与 LLM 进行交互并逐步获取信息的主要方式。为了在实际关键应用中安全、负责任地部署这些模型,深入了解 LLM 在多轮对话中的安全性、其易受攻击的漏洞,以及防护策略显得尤为重要。

本挑战要求参赛者在黑盒场景下,设计出一个有效的多轮对话越狱诱导方法。参赛者需将赛题中提供的原始危害问题拆解为多个问题,通过多轮交互逐步引导 LLM 产生非法或不道德的内容。

挑战的核心在于:如何通过多轮对话策略,巧妙地规避模型的安全防护机制,诱使其生成违反规则的内容。

比赛所提供的数据来自奇安信的安全业务和网络安全领域的相关知识,参赛者需要基于这些数据和样本,研究并开发自动化的越狱诱导方法。

本赛题旨在帮助选手识别 LLM 在多轮对话中的安全漏洞,并提升自动化越狱诱导的设计能力,促进 LLM 在实际应用中的安全性。选手在不知晓模型内部机制的黑盒环境中操作,需设计有效的对话策略逐步突破安全防护层级。多轮对话策略要求参赛者有能力将有害问题巧妙分解,逐步引导 LLM 产生不符合规范的内容,需精准设计对话内容和逻辑顺序。此外,自动化越狱方法的设计和实现对参赛者的算法创新和优化能力提出了极高要求,需具备对安全防护机制的深入理解。

本赛题考察选手的多方面的能力,包括:1.多轮对话设计的能力,即如何通过逐步分解问题引导 LLM;2.安全防护规避的能力,熟悉 LLM 的安全机制并设计有效的诱导策略;3.算法创新和自动化优化的能力,能够创建高效的自动化越狱流程;4.对网络安全数据的理解和应用能力,能够基于提供的数据增强越狱诱导的针对性和实际应用效果。

出题人划重点

为帮助参赛选手熟悉赛题相关理论知识,出题团队成员@北京交通大学博士刘敬楷 为大家带来《大模型的安全威胁》相关内容。

视频较长,完整版视频请前往DataCon社区观看
社区链接:https://datacon.qianxin.com/video/video-list

同时,出题团队为大家推荐9篇必读论文,赶快收藏学习吧。

1.The Two Sides of the Coin: Hallucination Generation andDetection with LLMs as Evaluators for LLMs

2.UHGEval: Benchmarking the Hallucination of Chinese Large Language Models via Unconstrained Generation
3.Reducing hallucination in structured outputs via Retrieval-Augmented Generation4.AutoHall: Automated Hallucination Dataset Generation for Large Language Models
5.Gibbs T, Kosak-Hine E, Ingebretsen G, et al. Emerging Vulnerabilities in Frontier Models: Multi-Turn Jailbreak Attacks[J]. arXiv preprint arXiv:2409.00137, 2024.
6.Jia X, Pang T, Du C, et al. Improved techniques for optimization-based jailbreaking on large language models[J]. arXiv preprint arXiv:2405.21018, 2024.
7.Russinovich M, Salem A, Eldan R. Great, now write an article about that: The crescendo multi-turn llm jailbreak attack[J]. arXiv preprint arXiv:2404.01833, 2024.
8.Zhou Z, Xiang J, Chen H, et al. Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue[J]. arXiv preprint arXiv:2402.17262, 2024.
9.Sun X, Zhang D, Yang D, et al. Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles[J]. arXiv preprint arXiv:2408.04686, 2024.

关注转发赢DataCon定制周边
关注DataCon公众号+分享本篇文章至朋友圈或网络安全相关社群可获得抽奖资格,即可赢取DataCon2024定制服饰。


分组、开奖前删除、开奖后转发均视为无效

部分图片来源网络,如有侵权联系删除


往期回顾
网络黑产分析 | 打击黄牛,新型Black SEO,请挑战!
网络基础设施安全 | 道高一尺还是魔高一丈?
软件供应链安全 | 一大波恶意软件包就绪,数据神探请破案
漏洞分析 | 快来“挖洞”了,46万赏金等你拿!

DataCon2024由清华大学网络科学与网络空间研究院、奇安信集团、蚂蚁集团、广东联通、百度安全、赛尔网络、北京航空航天大学国家卓越工程师学院主办,复旦大学计算机科学技术学院、西安交通大学、腾讯安全应急响应中心、北京蓝莲网安科技有限公司协办。感谢合作伙伴的助力,让我们走得更高更远!


点击"阅读原文"进入官网报名


文章来源: https://mp.weixin.qq.com/s?__biz=MzU5Njg1NzMyNw==&mid=2247488515&idx=1&sn=8a571076d4a2c850367cf4121ad12d2c&chksm=fe5d0c83c92a85959039742f2a7f0a14b5e6f897dd1b47123c531a1929fd260aff23ae689969&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh