数据安全系列文章(二):降低敏感数据风险——数据脱敏与风险评估
2024-12-11 08:0:0 Author: mp.weixin.qq.com(查看原文) 阅读量:3 收藏

一. “假名化”、“匿名化”、“去标识化” 分不清?

在个人信息保护领域,数据脱敏、“去标识化”(de-identification)、“匿名化”(anonymization)与“假名化”(pseudonymization)这些概念常常交替使用,给读者造成了不少的混淆。简单来说,脱敏偏向于数据安全,它的范围更大;而“去标识化”、“匿名化”与“假名化”都是数据脱敏的重要手段,这三者更偏向于隐私保护。“去标识化”、“匿名化”与“假名化”没有本质的区别,但各国的法律法规对它们的定义却有细微的区分。接下来我们从法律法规的定义进行分析。

假名化是通过使用假名或代码(如编号、别名)来替代真实的个人身份信息。这种技术仍然允许数据和个人之间的关联,但这种关联只能通过额外的信息(如加密密钥)来恢复,且只有被授权人员或系统才能访问这些额外信息。图 1 展示了各个国家的法律对假名化的定义。

图 1 法律法规对假名化的定义

假名化可以通过加密、令牌化、带密钥的hash函数等方式来实现,注意:假名化的一个显著特点是可逆性,即可以通过特定的额外信息(如加密密钥或映射表)来还原。经过假名化的数据仍然被视为个人数据,数据的存储仍然需要满足相关的法律法规。

去标识化技术的要求则更高,根据《个人信息安全规范》第3.15条规定[1],去标识化是指通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别或者关联个人信息主体的过程。去标识化可以是部分可逆或不可逆,取决于具体方法和实施细节。如果结合足够的外部信息或数据,部分去标识化的数据仍然有可能重新识别个体。图 2 给出了不同法律法规对去标识化的说明,我们可以发现,中国限定了重识别时“不借助额外信息”, 而CCPA需要考虑到结合其他额外可能获得的信息综合评估重识别的可能性。

图2 不同法律法规对去标识化的说明

匿名化的要求则更高,是指修改或删除数据集中的敏感信息,以确保个人无法被识别,即使结合其他数据源,也无法还原个人身份。一旦数据被匿名化,理论上无法再通过任何手段将其还原为可以识别特定个体的信息。在GDPR里,匿名化后的数据不再被视为个人数据,因为它已经无法与特定个人相关联。图 3 给出了不同法律法规中对匿名化的定义。

图 3 法律法规中对匿名化的定义

在匿名化的实现上,主要包括数泛化、抑制、置换等操作。其中泛化最为广泛应用,泛化是指用模糊/抽象/概括的值代替精确值,使得多个数据是相同的。例如年龄26,29被泛化为“25-30”,地址朝阳区、海淀区被泛化为北京市,那么攻击者无法精确地获得数据主体精确信息;抑制操作一般将数据使用“*”代替,隐藏和遮蔽数据值,使得攻击者无法获得该部分的信息;置换是对数据表中的属性值进行位置打乱操作,使得数据主体与该属性信息不对应。

表1给出了三种主流脱敏技术的对比,我们不难发现,假名化、去标识化和匿名化在隐私保护的力度上逐步增强。

表1 三种主流脱敏技术的对比

二. 数据脱敏风险及效果评估

前一小节介绍了数据脱敏相关技术,然而随着一些攻击案例和研究发现,这种处理方法的“匿名”处理是不充分的,仍然存在个体隐私泄露的风险。由于数据开放和共享范围不同,潜在的攻击者不同,他们的背景知识、攻击能力和攻击动机也是不同的。通常,脱敏数据集仍然存在信息泄露的相关风险。攻击者通过一种攻击或者攻击组合从脱敏数据集中分析和推断一些相关的隐私和敏感信息。接下来我们通过两个案例来说明这种风险。

如图 4所示,第一个案例是美国马萨诸塞州发布了医疗患者信息数据库(DB1),去掉患者的姓名和地址信息,仅保留患者的{邮编、生日、性别…}信息。此外另有一个可获得的数据库(DB2),是州选民的登记表,包括选民的{邮编, 生日, 性别, 姓名, 地址,…}详细个人信息。攻击者将这两个数据库的同属性段{ 邮编, 生日, 性别}进行链接和匹配操作,可以恢复出大部分选民的医疗健康信息,从而导致选民的医疗隐私数据被泄露。匿名化技术可以实现个人信息记录的匿名,理想情况下无法识别到具体的“自然人”。

图4 马萨诸塞州 匿名化例子

第二个案例是2006年8月,AOL(美国在线)公司公布了2006年3月1号到5月31号这3个月用户的真实搜索记录日志,包括1900万搜索,1080多万不一样的搜索词,以及65万余多个经过匿名化处理的用户ID(即将用户注册信息删除,随机ID代替用户真实ID)。虽然用户搜索的日志信息是匿名处理的,然而根据从某个用户ID(随机ID)所做的一系列历史搜索行为和包含信息,仍然有较大可能性分析和关联出用户的真实身份。约时报记者根据搜索数据的地址和姓名等信息找到编号4417749了一位62岁的老太太,家里养了三条狗,患有某种疾病。后面经过老太太本人证实确实是她搜索的关键词。记者曝光该事件后,引起美国公民对AOL公司隐私保护措施的诸多顾虑,并最终导致AOL首席技术官引咎辞职。

根据攻击者的目的和攻击能力可以定义三类常见的隐私攻击场景,形象化地被称为检察官攻击(Prosecutor attack)、记者攻击(Journalist attack)和营销者攻击(Marketer attack)。其中检察官攻击具有背景知识,了解攻击目标一定在公开数据集中,比如攻击者了解自己的朋友在发布展示的数据集中,他的目的是挑选出他的朋友,并获得敏感属性信息(比如财产消费、医疗健康等信息);记者攻击场景是达到曝光的目的,他需要尽量寻找公开数据库(比如选举身份登记表),进行匹配关联并多次向媒体炫耀,使得牵扯其中的企业名誉扫地和难堪;进行营销者攻击的目的是营销,也就是对自己的用户进行多维度的关联与画像,攻击者只需要保持较高识别概率的匹配关联即可,而不需要证明是唯一识别出的与脱敏数据集对应的数据主体。

目前,数据脱敏的效果评估技术主要分为三类:基于人工抽查的定性判定方法、基于模型参数的评估技术和通用的评估技术。其中,基于人工抽查的定性判定方法指的是按照标准流程和表格进行专家检查和判定,然而,这种方法成本十分昂贵;基于模型参数的评估技术通常与隐私保护模型有关,包括K-匿名(K-Anonymity)、L-多样性(L-Diversity)和差分隐私(Differential Privacy)模型等。通用的评估技术与数据脱敏方法与模型无关,在学术上通常称为“重标识攻击风险的度量”。对于重识别攻击风险度量,最为简单的评估方法是使用唯一性指标进行度量:如果单个属性或者多个属性组合的值在表中是唯一的,那么就可以识别目标个人的身份。据Latanya Sweeney的研究,在美国,使用邮编、性别、出生日期信息,有81%的概率可以唯一识别出对应的美国公民。

三. 总结

在本文中,我们介绍了数据脱敏相关技术,并对容易混淆的几个概念“假名化”、“去标识化”与匿名化进行了澄清。尽管经过脱敏的数据,一定程度上保护了用户的隐私,但仍可能被重标识出。对于数据脱敏,第一步就是要识别出敏感数据,近年来兴起的机器学习与大模型技术,可以帮助快速、准确的识别出敏感数据。在接下来的系列文章中,我们将介绍大模型赋能敏敏感数据的识别与分类分级,欢迎感兴趣的读者持续关注。

参考文献

[1] https://www.tc260.org.cn/piss/files/zwb.pdf

[2] Latanya Sweeney. Simple demographics often identify people uniquely. URL: https://dataprivacylab.org/projects/ identifiability/

数据安全系列文章(一):聚焦法律法规,洞察数据安全内涵

内容编辑:创新研究院 高翔
    责任编辑:创新研究院 陈佛忠

本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。

长按上方二维码,即可关注我


文章来源: https://mp.weixin.qq.com/s?__biz=MzIyODYzNTU2OA==&mid=2247498113&idx=1&sn=0ccb10bd3e767b79bfefe3e6b4f7c27c&chksm=e84c5f5edf3bd648214c3ba8f1aa4f54373d36c818055b592dd0197fe20e4d5a5f18b3fe5d58&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh