GDPR和云隐私政策的语义相似性
2021-09-25 09:00:00 Author: mp.weixin.qq.com(查看原文) 阅读量:26 收藏

原文作者:Lavanya Elluri,Karuna Pande Joshi,Anantaa Kotal
原文标题:Measuring Semantic Similarity across EU GDPR Regulation and Cloud Privacy Policies
原文链接:https://ieeexplore.ieee.org/abstract/document/9377864
原文来源:2020 IEEE International Conference on Big Data (Big Data)
笔记作者:CJRTnT@SecQuan
文章小编:cherry@SecQuan

摘要

数据保护机构制定了服务提供商在使用用户个人识别信息(Personally Identifiable Information,PII)进行大数据分析时必须遵守的政策和规则,数据法规和隐私政策通常以HTML和PDF格式的非结构化文本进行展示,因此需要一种自动化的方法来确定隐私政策中所指向的具体规则。本文实现了一个基于语义的框架,提取和比较短文本策略的上下文以提取语义相似的关键词,同时创建了一个知识图谱存储语义相似的比较结果。

提出的方法

图1

A.预处理阶段

首先从GDPR中提取语义相似的关键字,取top100,如图2所示;再将原HTML/PDF格式的隐私政策转换为文本文件后,对其使用tokenization,stemming,lemmatization NLP word processing和stop words进行处理,提取出合适的关键词,见B。

图2

B.从隐私政策中确定相似度得分和关键术语提取

将隐私政策与GDPR作比较,使用文本相似度方法(Doc2Vec)确定其相似度分数(以弧度为单位),分数较小代表该隐私政策更符合GDPR法规

根据从GDPR中提取出的关键术语,再从隐私政策中提取出与其相关的关键字,如图3所示。

图3

C.Permission & Obligations

本文还提取了某些模式关键字,如“will”、“should”、“could”、“shall”、“must”、“can”等,这些情态动词可以确定这个句子是属于许可(permission)还是义务(obligation)。例如,“could”对应的是“许可”,而“must”对应的是“义务”。

D.Knowledge Graph/Ontology Development

使用Protégé创建知识图谱,对本体的构建如图4所示,该本体捕获了法律法规与隐私政策之间的相似性细节。Regulators代表保护用户数据的法律法规制定者;Consumers代表用户;Providers代表有责任保护消费者隐私的组织。

图4

结果

隐私政策中出现类似关键术语的次数与得分成反比——即隐私政策中所含有的语义相似关键字越多,则其相似度得分越低,说明其越符合GDPR法规,如图5所示。这些隐私政策被填充为知识图谱的实例。

通过知识图谱,可以快速检查隐私政策合规性分数,开发者可以据此更新其隐私政策。

图5

安全学术圈招募队友-ing, 有兴趣加入学术圈的请联系secdr#qq.com


文章来源: http://mp.weixin.qq.com/s?__biz=MzU5MTM5MTQ2MA==&mid=2247486526&idx=1&sn=a82a16e3b258291ce6666bc3cb8798fc&chksm=fe2ef3b5c9597aa34ced56ae51e6ae026e9ccdef94783c8ac70a375f278236feacf00ae6ab3b#rd
如有侵权请联系:admin#unsafe.sh