VDC安全与隐私会场专题解读四：AIGC安全挑战与对策

VDC安全与隐私会场专题解读四：AIGC安全挑战与对策
2024-10-25 20:3:0 Author: mp.weixin.qq.com(查看原文) 阅读量:7 收藏

vivo安全合规高级经理-吴佳颖

AIGC风险场景包含有由其特性衍生的数据风险和模型风险，以及由产品特性所决定内容风险和运营风险，这四类风险在系统&应用联动效应和用户多元使用需求下相互影响、相互制约，共同构成了完整的风险矩阵。

积极应对风险挑战，构建业务安全体系

想要解决风险就必须要摸清风险，vivo开展治理的第一步是构建风险度量模型。通过解读、融合相关政策法规和技术指导文件，vivo内部制定了《大模型安全风险评估基准》，从数据安全、模型安全、内容安全、运营安全四个板块来度量大模型全生命周期的安全水位。

在《基准》的方法论指导下，vivo从最初的训练语料环节，到最终的产品上线环节，通过一条流水线把所有关键环节和关键角色都串联在一起，组成AIGC业务的安全架构，上下游各司其职，共同保障产品安全质量和用户体验。

在安全架构的实践层面，vivo内部通过一套流程和两个平台进行实现。

产品安全开发流程通过将安全管控节点融入其中，从需求策划到设计开发阶段，针对风险场景做成因倒推，提出各阶段相应的安全需求，以内部的成熟规范引导、约束，严格把关各个环节的交付质量。

同时，vivo构建了大模型管理平台来隔离上层业务与底层大模型的直接通路，所有产品接入AIGC能力都需要通过大模型管理平台来验证其安全措施的落实程度，以此保障整个上下游的产品安全。此外，位于大模型管理平台下游的内容安全策略平台集成了内容审核、用户管理和策略运营模块，为AIGC产品提供统一的内容管理策略，既能守住最底线的通用标准，又能根据实际场景和用户反馈进行尺度微调。

在内容风险方面，vivo构建了合适的内容标签体系，以监管层面的正常应答、红线必达、红线拒答三类要求，以及业务层面的文本、图片、音频等多模态场景的实践需求来组成整个标签体系，共18类400多个细管控场景。

基于内容标签体系，vivo安全团队针对管控场景结合变异攻击手法又构建了内容质量评测集，并开展内容安全质量评估。评估从原始问题维度、绕过率维度和高级攻击手法维度，输出大模型内容安全质量评估报告，而这份报告也将成为vivo所有大模型是否准入的金标准。

加强外部合作，共同推进大模型健康发展

尽管针对大模型下游的内容进行了一系列管控，但大模型效果提升的原动力，始终是高标准高质量的训练语料。对此，vivo和百度深度合作，针对数据及数据源的不同问题进行专项处理，形成了一套全面的训练语料清洗与质量监测体系，对大模型训练语料进行提质纠偏。

整个处理会分为两个阶段，首先进行数据源的质量确认，当授权合法性和质量可靠性都满足管控要求后，才会进行具体的数据清洗，而在清洗过程中会不断进行质量监测，及时识别不可靠数据源，最终输出满足质量标准的训练语料。

百度安全技术委员会主席-包沉浮

除了不断夯实内部能力，vivo还在行业内持续开展广泛合作。

在信通院成立AIIA安全治理委员会构建人工智能安全评测体系的过程中，vivo积极参与各项工作并贡献了实践经验。2024年，中国信通院联合vivo等30余家单位发起大模型安全基准测试，从底线红线、社会伦理、信息泄露的角度对大语言模型、多模态大模型进行安全测试分析。

中国信息通信研究院人工智能研究所安全部主任-石霖

今年7月，vivo率先通过了信通院首轮AIIA大模型安全测评。在测评中vivo以AIIA为抓手，提升了AI全链治理水平，并不断吸收经验、优化内部安全架构。

同时，vivo也不断积极推动行业标准制定，目前已牵头立项团体标准《移动智能终端端侧大模型安全实施指南》，将我们在端侧大模型安全实践和研究积累与行业分享，以期望与行业伙伴一起协作，共同提升端侧大模型的安全水位，助力终端AI行业的发展。

vivo始终期待与更多的开发者和行业合作伙伴一起，为AI产业的蓬勃发展添砖加瓦。

往期推荐:

VDC安全与隐私会场专题解读三：AI 赋能千镜可信生态

VDC安全与隐私会场专题解读二：强化可信底座，护航智慧服务

VDC安全与隐私会场专题解读一：全面拥抱AI，共建可信透明的安全体验

关注我们，了解更多安全内容！

文章来源: https://mp.weixin.qq.com/s?__biz=MzI0Njg4NzE3MQ==&mid=2247491949&idx=1&sn=77e8b5fb0f8f8c033a63a91f0e1274d3&chksm=e9bac701decd4e170cb3cef31d751177c87795e5ef30acfffb30b78da5480a67457eea45d077&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh