引用
臧帅, 朱友文. 匿名数据集隐私保护效果度量机制[J]. 网络空间安全科学学报, 2024, 2(3): 67-78 https://doi.org/10.20172/j.issn.2097-3136.240306
ZANG Shuai, ZHU Youwen. Measurement the effect of anonymization techniques over databases[J]. Journal of Cybersecurity, 2024, 2(3): 67-78 https://doi.org/10.20172/j.issn.2097-3136.240306
背 景
当前,政府和企业需要统计分析个人数据以便更加准确地做出决策,而这些数据在收集整理后,不仅有可能会在各组织之间传播,还有可能直接在公共领域发布。数据收集和发布的过程很容易泄露用户的隐私。因此,在发布数据前,需要为这些数据提供足够的隐私保证。
如发布人口普查数据、医院的患者治疗数据时,对这些数据进行有效的分析可以帮助政府进行政策的制定,还可以帮助医疗科研人员找到更好的疾病治疗方法。但是,这些数据往往含有大量的个人隐私信息,如家庭住址、疾病信息等。直接将数据给予研究组织会侵犯个人隐私。尽管直接能明确识别用户的属性往往会在发布前被删除,但在实际应用中,通过剩余的信息仍然有可能对应到个人数据。
创新点与贡献
为了防止用户隐私信息的泄露,在发布或共享数据前,往往需要对数据进行匿名处理,达到一定隐私保护程度后才可安全发布。因此衡量发布数据的隐私保护水平是一项重要的研究内容。由于在以往的研究中,缺少足够通用的方案,不能对发布数据的隐私保护水平进行精确度量。因此本文提出了一种度量发布数据隐私保护程度方法,该方法主要通过条件熵与互信息,度量出数据处理前后的差异值,在此基础上基于互信息和联合熵融合得到具体的隐私保护效果,最终输出一个0~1范围的数值精确表示发布数据的隐私保护水平。
对发布数据的隐私度量可分为两方面:整体数据的隐私保护度量与局部数据的隐私保护度量。整体数据的隐私保护度量核心是通过分析数据中的准标识符,计算推导所有潜在隐私信息的难度。这种方法以全局视角衡量数据集在保护隐私方面的综合能力,是数据隐私保障的宏观层面评估。局部数据隐私泄露的度量则重点关注数据中各属性的隐私风险。这种分析旨在评估发布数据的局部特性,识别并量化关键隐私信息的泄露程度。局部隐私度量强调对关键隐私属性的独立评估,旨在为数据发布中隐私保护的精细化提供指导。
实验方案
我们使用成人数据集进行实验,该数据集是从1994年美国人口普查数据库中提取的,它由15个数字和分类属性组成,共32561行。但是,在删除包含丢失信息和没有特定作用的属性之后,选择了该数据集的一个子集。
选择k={2,3,4,5,6,7}进行实验。其中教育程度、母国国籍为隐私属性,索引为识别符,其余属性为准识别符。发布时满足k-匿名的隐私属性PL值如图1所示,将删除索引列,因此在计算时忽略该列的信息。由图1可以看出,随着k值的不断增加,整体的PL值与两个隐私属性的PL值都在不断减少,而在k-匿名中,数据的隐私保护程度会随着k值的增加而增加,这完全符合k-匿名的规则。
图1 满足 k-匿名的隐私属性 PL 值
选择l={2,3,4,5,6,7}进行实验,且教育程度与国籍两个隐私属性都要满足l-多样性,即一个准识别符至少要对应出l种不同的教育程度与国籍。图2为满足l-多样性的隐私属性PL值,图2从整体上看,两个隐私属性与整体的隐私保护程度都随着l值的增加而增加。
图2 满足 l-多样性的隐私属性 PL 值
选择t={0.05,0.1,0.15,0.2,0.25,0.3}进行实验。两个隐私属性的值相同,其隐私保护程度随着t值的增加而减少。与前两个匿名方式不同,t-closeness的理论隐私保护程度随着t值的增加而增加,因此如图3所示,最终得到的曲线是单调递增的。
图3 满足 t-closeness 的隐私属性 PL 值
总结展望
本文提出了一个相对通用的隐私度量框架,用于度量数据匿名前后的隐私保护程度,从而保证将要发布的数据不会发生较严重的隐私泄露。本文提出的隐私水平的度量仅仅需要对比数据匿名前后的差异,并不需要知道整体的匿名化过程,因此保证了方法的通用性。并且使用了一个开源的数据集对我们的方法进行验证,并得出了参数与隐私保护程度的关系,确保度量结果的真实性。目前,本文所提出的度量方法还无法适用于对熵增数据的隐私度量。在未来的工作中,我们将会着重于对熵增数据隐私的度量,归纳得出一个同时满足于熵增与熵减的度量方法。
来源:《网络空间安全科学学报》2024年第三期
(点击文末左下角“阅读原文”可查看本篇文章)
电话:010-89061756/ 89061778