11月15日,第八届云安全联盟大中华区大会在北京成功举办,大会以“云安全·AI,迎接未来”为主题,聚焦数字化时代的技术与安全变革。京东安全在会上介绍了“京东大模型安全攻防实践”,并荣获“CSA2024安全磐石奖”。
京东安全相关负责人受邀参加“生成式AI在云安全的应用与风险管理”圆桌对话,分享了大模型带来的安全风险和技术挑战,以及大模型安全攻防在京东内部落地的实践经验。
01
大模型安全风险
在人工智能技术迅猛发展的今天,大模型因其强大的语义理解能力和生成能力广受关注。京东积极拥抱大模型技术,将其应用于各个业务领域。然而,众所周知大模型在带来效率提升的同时也引入了四大类安全风险,即训练数据风险、算法风险、框架平台风险和业务应用风险。
02
京东大模型安全解决方案
为防范大模型在业务落地过程中的安全风险,京东安全基于大模型全生命周期,制定了全面的风险管理策略和防御措施,满足大模型生成内容合规性的同时,防御大模型数据泄露和提示词注入攻击等信息安全风险。该方案基于AI对抗AI的思路,构建了“训练数据安全、上线前安全测评、用户Prompt识别、生成内容识别”四道安全防线:
此外,京东还在大模型安全训练平台集成了安全对齐样本,支持大模型训练阶段的安全对齐,利用强化学习等技术,在不影响业务能力的同时让大模型自身具备安全性。
03
京东大模型安全产品
基于以上解决方案,京东安全研发了大模型安全评测系统用于大模型上线前的安全评估,大模型安全防御系统用于大模型上线后的实时防御。整套方案从恶意样本生成到业务策略配置已实现了全自动化运营,同时支持云端和私有化环境部署,目前已服务于京东内部30+个大模型应用场景的安全检测,提升大模型的安全性。
大模型安全测评系统
大模型安全评测系统旨在大模型训练过程中或上线前进行安全评估,满足安全水位的大模型才可以上线。系统目前可支持文本、图像等多模态模型的安全评测,构建了多维评测体系,包含9大类、100+子类、200+越狱模板,以及超过30万的测试集库。同时我们建立了日常化的对抗演练和迭代检测能力,实现了分钟级接入和自动评估。
该系统运转机制如下:通过从各种渠道收集生成恶意种子数据,然后通过语法解析、攻击特征泛化等手段衍生内容安全、信息安全、业务安全类恶意样本库,对大模型及应用进行模拟攻击,并利用“启发式算法+向量库+安全大模型”构成的检测引擎对大模型生成内容进行评估,最后出具评估报告及整改建议。
大模型安全防御系统
大模型安全防御系统是对用户提问内容和大模型生成内容进行实时安全检测,及时发现内容安全、信息安全、业务安全等风险。大模型安全防御是最重要的一道安全防线,既要识别安全风险又不能误拦,还不能对业务的体验有影响。
京东安全采用了漏斗式机制,通过大小模型结合的方式,在确保检测准确率的同时尽可能减少平均检测时长。同时与各业务部门建立了紧密的协同处置机制,提供了不上屏、拒答、代答、纠偏回复等多种方式,支持基于会话的同步检测、异步检测以及大模型生成内容的流式检测。目前京东大模型安全防御体系已接入京东内部30+个大模型应用场景,检测准召率均95%以上,单次检测耗时在100ms以内。
04
展望
京东安全除了在大模型自身安全方面的投入外,还在积极探索大模型赋能安全领域,并在钓鱼邮件识别、威胁情报检测、供应链投毒、商密识别等场景取得了一定的效果。未来,京东安全将继续围绕大模型自身安全和大模型赋能安全两个维度,研发更加贴近业务场景的技术产品,为广大用户提供更加安全、可靠的购物和服务体验!
---EDN---