前沿 | AIGC数据训练中的个人信息保护

前沿 | AIGC数据训练中的个人信息保护
2024-7-19 17:37:8 Author: mp.weixin.qq.com(查看原文) 阅读量:5 收藏

扫码订阅《中国信息安全》

邮发代号 2-786

征订热线：010-82341063

文 | 宁波大学法学院副教授金耀

AIGC是一种基于深度学习技术的人工智能模型，能够模拟人类思维，创作出具有一定逻辑性和连贯性的语言文本、图像、音频等内容，数据训练是生成式人工智能“创作”的前提。科技公司的训练数据中包含大量个人信息，主要有两个获取途径。其一，爬取网络公共数据中的个人信息，如根据Meta公司介绍，其语料库的主要组成部分是爬取的网络公共数据；其二，与社交网站签订协议继而获取相关信息，如Reddit公司与谷歌达成协议，允许谷歌使用其用户数据进行人工智能训练。上述途径均突破了现有信息自决权框架下的个人信息保护机制，亟待从平衡信息保护与流通利用的视角重塑个人信息特殊保护规则。

个人信息保护面临困境

一方面，已公开个人信息保护规则失灵。我国《个人信息保护法》第27条规定：“个人信息处理者可以在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息；个人明确拒绝的除外。个人信息处理者处理已公开的个人信息，对个人权益有重大影响的，应当依照本法规定取得个人同意。”然而，上述法律规则并不能有效规制科技公司为训练人工智能而实施的信息爬取行为。首先，“合理的范围”具有模糊性。已公开个人信息的处理应当符合目的限制原则和最小必要原则。AIGC的处理目的过于泛化，即通过数据训练搭建推理能力和思维链，以解决跨领域多场景问题为目的，这导致目的限制原则难以准确适用。而且，AIGC技术效能的发挥建立在对海量数据进行学习的基础上，这与最小必要原则的立法初衷背道而驰。其次，“拒绝权”形同虚设。在大规模数据训练中，个人很难知晓其公开的个人信息已被用于算法模型训练，个人拒绝信息处理的权利很难实现。最后，“重大影响”判断标准不明。当前，对于数据训练是否会对个人权益产生重大影响缺少判断标准，而且取得个人同意的成本过高，难以实现。

另一方面，信息主体单独同意规则被架空。个人信息合法有序流通不仅是信息再利用的前提，也是合法进行数据训练的基础。《个人信息保护法》中的个人信息流通规则主要为该法第23条，即信息处理者向他人提供个人信息应当获取个人的单独同意。应当注意的是，信息处理者对外交易、共享个人信息，原则上不属于《个人信息保护法》第13条中“不需取得个人同意”的情形。但在实践中，信息处理者往往以信息收集阶段中信息主体的一揽子概括同意作为后续处理个人信息的基础，从而使信息主体单独同意规则有被架空之嫌。其原因或许在于，当前的大规模算法模型对于训练数据的数量、质量、实时性等方面提出更高要求，导致在个人信息流通中适用单独同意规则的操作难度增加。

平衡个人信息保护与利用

当今社会，个人信息治理应从个人信息自决理论下的信息保护，转向个人信息保护与利用兼容发展的平衡之道。如何在保护个人信息的同时促进信息资源流通利用，是AIGC场景下个人信息治理的关键所在。根据信息处理的风险大小，存在着“敏感个人信息”“已公开个人信息”“去标识化信息”“匿名化信息”的类型划分，不同类型信息进入数据训练的法律风险不同，因而有必要构建一套差异化、体系化的信息处理规则。

第一，严守敏感个人信息的特殊保护规则。敏感个人信息是指一旦被泄露或非法使用，自然人的人身权、财产权或人格尊严就会面临受侵害风险的个人信息。《个人信息保护法》第29条规定，处理敏感个人信息应当取得个人的单独同意，或依据法律、行政法规规定应当取得书面同意。尽管以AIGC为代表的人工智能应用带来了显著的数据红利，但敏感个人信息在任何商业场景下均应成为个人信息保护的底线。大规模数据训练中最大的风险，就是对于个人敏感信息与隐私权的侵害。面对强势的信息处理者，处于弱势地位的信息主体往往会因为技术能力的欠缺和知识结构的偏差，难以得知数据训练中的具体法律风险。因而，在生成式人工智能中的数据训练中，处理敏感个人信息应当严格适用当前立法规定的单独同意规则。信息处理者只有在符合目的特定前提下，采用技术措施降低数据训练侵害人身、财产安全的风险，并进行全方位的风险评估，才能进一步处理敏感个人信息。

第二，调整已公开个人信息的处理规则。总体来看，《个人信息保护法》为已公开个人信息配置了较为完备的保护规则，即要求信息处理者在“合理范围”内处理信息，赋予个人拒绝权，并且规定在对个人权益产生“重大影响”时需要获取个人的同意。但上述规则一方面缺乏明确的适用标准，另一方面不利于数据的汇集与再利用。因此，有必要进一步扩大“合理范围”，并限缩“重大影响”的认定标准。只要数据训练者不将已公开的个人信息用于非法目的，并保证在后续训练过程中以可视化的正当手段和方式处理已公开的个人信息，不对个人权益造成实质性损害的，就可以认定为是在“合理范围”内，且不会对个人权益产生“重大影响”。至于公开个人信息处理的拒绝权，应当限定在个人自愿公开个人信息的场景下，而不应当扩展至法定公开个人信息的情形中。

第三，重构去标识化信息的特殊流通规范。《个人信息保护法》第73条对个人信息“去标识化”进行了定义，是指个人信息经过处理，使其在不借助额外信息的情况下无法识别特定自然人的过程。个人信息经过去标识化处理后转化为去标识化信息，此时只能结合额外信息间接识别特定自然人身份，因此再识别个人的法律风险是可控的。为丰富数据流通利用方式、破解数据流通困境，可以为去标识化信息创设特殊的流通规则，而不宜僵化地适用单独同意规则。采用“选择退出”规则或许是一个相对妥当的方案，即信息处理事先不需要个人同意，但个人事后有权选择退出，并可以通过这一选择让信息处理丧失合法性基础。这有助于去标识化信息的价值实现，也有助于数据训练中对于此类信息的再利用。

第四，实现匿名化信息的数据资源价值。《个人信息保护法》第73条界定了“匿名化”，是指个人信息经过处理无法识别特定自然人且不能复原的过程。个人信息经过匿名化处理可以形成匿名化形象，由此构成了一类特殊的数据信息资源。根据《个人信息保护法》第4条规定，匿名化信息不属于个人信息范畴，因而不适用个人信息保护的相关规定。匿名化信息资源已经成为算法数据模型训练的主要素材，其数据资源价值有待继续开发。当然，也有学者对匿名化信息利用心存担忧，并认为实践中并不存在绝对的匿名化，匿名化技术只是人们美好的愿景。但是，来自于技术层面的假定和质疑，并不影响立法者在规范层面明确匿名化信息是“无法识别个人且不存在复原”的信息类型。除法律性质不同之外，匿名化信息与去标识化信息的最大区别在于重新识别个人的法律风险不同，前者风险明显更小。因而，可以在法律规范中鼓励匿名化信息的开发利用，将其作为大数据算法模型的训练“养料”，以最大限度地实现其数据资源价值。【本文系国家社科基金青年项目“民法典中隐私权与个人信息的协同保护研究”（21CFX034）阶段性成果】

（来源：中国社会科学网）

分享网络安全知识强化网络安全意识

欢迎关注《中国信息安全》杂志官方抖音号

《中国信息安全》杂志倾力推荐

“企业成长计划”

点击下图了解详情

文章来源: https://mp.weixin.qq.com/s?__biz=MzA5MzE5MDAzOA==&mid=2664220358&idx=7&sn=b74d271abb6280c19ce31cc03748f13e&chksm=8b59c43fbc2e4d2952e42d0fafdaa7aab391022b80291a19c2379091f49d2486572317bb3bb7&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh