随着网络技术的快速发展,大量数据在各种业务活动中产生,数据价值越来越凸显,在商业策略、社会治理和国家战略制定过程中,数据都起到了重要的决策支撑作用。
为了保证企业、组织和国家机关数据安全性,应该对数据进行有效发现和分类,避免一刀切的控制方式,而应采用更加精细的管理措施,使数据资产在共享使用和安全使用之间获得平衡。敏感数据,或者叫做敏感信息就是一类特殊的数据类型,需要采用特殊的手段进行管理。
2019 年 1 月,一桩被称为 “Collection#1” 的 “史上规模最大公共数据泄露事件” 遭到了曝光,包含将近 7.73 亿个独立电子邮件地址、2122 万多个独立密码。据调查,此次曝光的内容仅是冰山一角,Collection #1 的文件大小约为 87GB,而整个信息合集的总量是这个数字的十倍之多。2018 年 1 月,印度 10 亿公民身份数据库 Aadhaar 被曝遭网络攻击,该数据库除了名字、电话号码、邮箱地址等之外还有指纹、虹膜纪录等极度敏感的信息。
除了隐私和商业秘密之外,一些 “公开” 数据开始展现出新的面貌和价值,越来越多的计算资源被用于从非涉密数据中提炼敏感信息,获取涉密内容和重要情报,这更应引起高度警惕:2017 年 11 月,美国一款记录健身者运动轨迹的软件——Strava,用两年时间积累的用户数据,制作发布了一幅 “全球运动热力地图”。2018 年 1 月 28 日,一名 20 岁的澳大利亚学生纳森·鲁泽研究这份热力图后,通过分析特定区域的一些运动轨迹,找到了美俄等国设在叙利亚、伊拉克和阿富汗等国的基地,有的从未向外界公布过。纳森·鲁泽公布他的 “发现” 后,越来越多的基地通过这种途径被 “挖掘” 出来,其中包括美国中情局在索马里摩加迪沙的基地、俄罗斯在叙利亚的赫梅米姆空军基地等。而且,从热力图的轨迹中,能看到的不仅仅是基地的位置,基地内部的人员轨迹也清晰可见,专业人士可以从中研究出这些军事设施的运转方式。
电子政务、互联网、物联网等领域已经产生海量数据,并且在国家大数据战略下流转,但目前这些数据基本处于 “裸奔” 状态,面临数据泄露的威胁。大量非密、敏感的信息碎片在高技术深窃密的帮助下可以聚合、叠加形成影响国家安全的涉密信息。对数据进行有选择性地保护是政府控制信息的传统方法,大数据时代此法可能不再奏效,这就要求重新审视需要保守的国家秘密范围,对一些通过大数据分析有可能被准确预测,且确实关系国家安全的敏感信息,要研究如何识别和管理,并切断获取、分析和预测的途径。
大数据时代,所有数据都具有了一定的价值。企业在获得了大量的个人数据之后,他们会利用人工智能等技术来处理、分析数据,并且挖掘出有价值的信息,然后根据这些信息来促进业务的发展。随着组织规模的不断扩大和敏感信息(如信用卡号和个人财务数据)传播到多个位置,发现和分类过程变得非常重要。这通常发生在以下几个场景中:
因此,敏感数据可能存在于当前拥有该数据的人员所不知道的范围内。 这是一个常见但极易受攻击的场景,因为除非您知道敏感数据存在,否则无法对其进行保护。
敏感数据发现场景涉及企业安全性的三个关键方面:
保护个人的人身权利。
于大部分的企业对数据的管理方式五花八门,数据定义混乱,导致数据分散成信息孤岛,而过期失效的数据又占用了大量的资源,企业想要统一、有效地管理分散在各业务的数据,合理有效地分配存储数据的资源,更是难上加难。而企业对数据资产管理混乱,没有清楚地梳理,对于敏感数据分布在哪些数据资产中,关联了哪些业务,暴露在哪些人员面前等情况了解得不够清晰全面。这无疑又增加了数据泄露的风险,极有可能在不经意间就将内部的敏感信息泄露了出去。
而传统数据安全主要着力于数据作为资产的保密、完整和可靠性性,更多的停留在硬件和边界保护层面。但随着信息化的高速发展,传统的边界防护方法已经无法满足当下的需求,各种数据安全事件层出不穷。
根据Risk Based Security的最新报告,2020年第一季度数据泄露的数据量猛增至84亿,与2019年第一季度相比增长了273%,创下至少自2005年详细报告开始以来的同期记录。同时,IBM 的年度数据泄露成本报告显示,数据泄露的平均总成本接近 400 万美元。
为此,数据安全已经成为企业、消费者、监管机构的头等大事。这就要求新数据安全需要更加关注数据在采集、传输、存储、处理、交换、销毁方面对外部可能造成的危害。对数据进行更精细化的管理。
同时国家也相继出台了各种数据保护法规:《中华人民共和国国家安全法》、《中华人民共和国网络安全法》、《信息安全技术网络安全等级保护基本要求》、《信息安全技术网络安全等级保护测评要求》及《信息安全技术网络安全等级保护安全设计技术要求》等国家标准。
数据分类分级作为数据安全的“桥头堡”,在数据安全治理过程中至关重要,一般企业的数据可以分为公开数据、非公开数据(敏感数据)。为此我们需要把主要精力放在敏感数据的管控上,制定精细化的管控原则。根据不同数据级别,实现不同的安全防护,避免敏感数据泄露给公司造成重大损失。
工业和信息化部办公厅在20年2月27日发布《工业数据分类分级指南(试行)》,国内地方和行业上也有相应的指南发出,例如贵州省的《政府数据 数据分类分级指南》、金融行业的《金融数据安全 数据安全分级指南(送审稿)》和《证券期货业数据分类分级指引》等。
从以往实施的分类分级案例来看,有分类分级需求的企事业单位主要是基于以下几种情况:
满足合规需求。大部分的企业对于数据分类分级管理,首先就是要满足合规的要求。在法律法规的框架下,根据行业法规制定行业内的数据分类分级标准。
数据安全需求。有一部分企业由于数据资产建立初期管理比较粗放,随着企业信息化的发展,管理难度也随之加大。想通过对数据全面梳理,建立敏感数据的分类分级管控策略,减少企业数据安全风险。
数据使用价值需求。少数企业希望基于业务的分类可以更好地将数据资产化,充分了解数据资产中敏感数据的情况,使管理者能够通过分级分类来有效管控,持续为企业提供精准的数据服务。
原则上,数据分类分级自身是一个统一、规范地体系,笔者之所以要带读者朋友辨析看待数据分类分级的不同角度,主要目的是想说明,虽然都是叫敏感数据分类分级,但是在不同的行业、不同的部署场景、不同的需求侧重点,对敏感数据分类分级产品的要求侧重点也会不同。
对于企业或一个组织来说,敏感信息包括
这些数据以不同形式存在于企业资产中。
个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,如姓名、出生日期、身份证件号码、个人生物识别信息、住址、通信通讯联系方式、通信记录和内容、账号密码、财产信息、征信信息、行踪轨迹、住宿信息、健康生理信息、交易信息等。
判定某项信息是否属于个人信息,应考虑以下两条路径:
以《GBT 35273-2017 信息安全技术个人信息安全规范》为例,个人信息有:
个人敏感信息是指一旦泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息。通常情况下,14岁以下(含)儿童的个人信息和自然人的隐私信息属于个人敏感信息。
可从以下角度判定是否属于个人敏感信息:
下面列出个人敏感信息的示例:
对于国家政府部门来讲,敏感信息是介于保密信息与公开信息之间的特殊信息,这类信息不符合定密标准,不能按照国家秘密的形式进行保护,但是如果公开,却有可能造成某种损害或潜在损害,因此需要限制公开或控制其传播。
2017 年 5 月 24 日,全国信息安全标准化技术委员会秘书处发布了国家标准《信息安全技术 大数据安全管理指南》征求意见稿中提到:“组织应对已有数据或新收集的数据进行分级,数据分级时需要组织的业务部门领导、业务专家、安全专家等共同确定。政府数据分级参照 GB/T 31167-2014 中6.3执行,将非涉密数据分为公开、敏感数据”。
本质上说,数据只有在流动中才能产生价值,同时也只有在流动中才会产生风险。因此,根据流动方向和流动原因的不同,敏感数据识别的侧重点也不同,
实际上关于如何鉴定和分类 “敏感数据” 这一核心问题,不同国家、区域在界定过程中存在很多差异。
综上不难看出,对于敏感数据,企业和组织、甚至国家层面都要针对自身性质以及业务情况,制定更符合实际情况的分类。
大数据时代中常见的三类数据类型,
这三类数据的最主要区别在于是否存在预先定义好数据模型,更确切的说是概念数据模型。
参考链接:
https://cloud.google.com/dlp/docs/sensitivity-risk-calculation?hl=zh-cn https://help.aliyun.com/document_detail/322244.html https://www.tc260.org.cn/upload/2018-01-24/1516799764389090333.pdf
参考链接:
https://support.huaweicloud.com/usermanual-dataartsstudio/dataartsstudio_01_1009.html
在实际分类分级落地过程中有以下几点关键处则尤为重要。
要想推动分类分级落地,需要将数据分类分级作为制度流程工作落实到组织管理制度中,确定分类分级中涉及的部门、职责,以及需要梳理的数据资产、敏感类型、分类分级方式、管控原则等,确保分类分级落地。
数据安全成熟度模型(DSMM)中对此也有相关的说明,组织应设立负责数据安全分类分级工作的管理岗位和人员,主要负责定义组织整体的数据分类分级的安全原则,应定期评审数据分类分级的规范和细则,考虑其内容是否完全覆盖了当前的业务,并执行持续的改进优化工作。
现在企业对哪些数据是敏感数据,需要保护的数据分布在哪?敏感数据是否都得到了保护并不清楚。传统做法是对企业数据进行打标签,存在人工整理跨部门沟通难、导入数据湖的数据不全、有未知数据源、人工整理时间人力成本高等问题和难处。
针对数据安全的风险,应以数据为中心,向外对业务、网络、设备、用户采取“零信任”的态度,既然每个环节都不可信,那么管控手段就要覆盖全部环节,任意环节失信后都能实现熔断保护。
都要做好安全防护措施。
最关键的是,要对全部纵深防护环节进行整体控制,实现环境感知,可信控制和全面审计。
比较推荐的方式是借助敏感数据发现工具进行数据梳理发现,基于IP段或流量对数据资产进行自动扫描,包括未知的暗数据资产,自动化发现减少人工成本。全方位发现数据资产,增强资产梳理效率与发现能力,减少人工整理成本。清晰各数据库类型、文件类型等数据资产的分布情况。
对于企业来讲,敏感数据主要集中在商业秘密和个人隐私部分。为达到精细化管控的要求,需制定一份完整且恰当的数据分类分级方案。而一份适合企业自身需求的数据分类分级方案需要满足以下基本要求:
除此之外,还需考虑
数据分类分级的目的是通过对数据全盘梳理,分类分级后对不同级别的敏感数据采用不同的管控策略,实现精细化管控。例如:
所以,这就要求我们选用的数据安全产品应具有系统结合的能力,根据分类分级制定不同的管控策略进行下发其他安全产品,例如:
企业的信息化建设是不断更新发展的,传统情况下依靠人工进行数据梳理已经跟不上如今的发展需求,一是效率慢、成本高,二是数据变化快,无法长期维护更新。
这就要求企业需要选择分类分级的安全产品来替代人工定时/周期的敏感数据发现,自动化更新企业敏感数据目录,且能根据用户选择的数据资产及合规组,自动生成安全风险评估报告。可以通过报告知道有哪些非合规数据以及数据的位置,对数据资产进行脱敏或加密等安全整改,以推进数据安全建设工作。
很多时候,企业没有专职的CRO,甚至即使有专职CRO,由于企业数据分布零散、缺少历史观测数据等原因,导致企业安全人员很难提前编写出准确的识别规则,也很难保证覆盖率的完整。
针对这个问题,有以下几个思路进行缓解:
这个问题对商业产品来说是一个比较大的挑战,本质上属于非标需求定制,商业化产品往往只能按照一定的数据安全规范圈出一个范围,对范围外的非标敏感数据,有以下几个思路进行缓解:
针对这个问题,有以下几个思路进行缓解:
这个问题本质上是说如何用一个相对统一的商业化产品,去满足不同行业、不同发展阶段,不同需求侧重的企业需求。针对这个问题,有以下几个思路进行缓解:
按照敏感性程度由高到低,分别是:
对于会接触到敏感数据的人群,也需要进行明确的分组,分别是数据所有者/受托人 (Data Owners / Trustees),数据保管人 (Data Custodians),以及数据用户 (Data Users)。不同组人群接触到的分类数据也不同。
前面提到,对于任何企业或者机构而言,数据安全策略的执行取决于对数据的准确分类。公司应该构建一个金字塔型的数据应用生态系统,分别制定了数据所有者指南、组织级指南和企业级指南来实施数据管理 (Data Stewardship),一旦实施分类准则出现冲突或者难以界定的情况时,将按所遵从指南的等级高低进行评判。
以程序源代码的敏感级别判别过程为例:
一般说来,程序源代码判别应遵循企业级指南,默认情况下,工程源代码会被归类为高度机密。但是在组织级指南中有规定,关键或新兴项目源代码要被归类为受限,也就是说拥有更高的敏感程度。同时,数据所有者指南指出,Skyjet 项目源代码应归类为高度机密,但 I/O board FPGA 项目源代码实际上归类为机密。
因此,虽然都是源代码,但是按照指南的等级,Skyjet 项目源代码和 I/O board FPGA 项目源代码分别会被分类为高度机密和机密。
可以确定的是,数据的敏感性识别绝对不是孤立的一环。实际上,数据发现、数据图谱、数据分类等众多领域在识别数据敏感程度方面都可能发挥着重要作用,我们需要将这些方法协同起来形成一致性推断结果。
Cisco 提出了一种基于用例方法的数据应用场景分类模型,这种模型能够有效地将用户分类判断和自动化分类判断联合起来。
基于用例的数据应用场景分类模型
在不同层级上识别正确的处理和数据保护单元
比如公司的收入数据,可能会以非常多的形式存在,比如 Word,Excel,TCP包,数据库文件等等,这些数据都是以非常具体的形式存在的,但这种具体化无形中会增加分类的复杂性,在这种情况下,需要对其进行抽象,所有与收入相关的数据,无论其形式、存储位置和表达方式,都应该归为收入类数据。
从不同数据场景提取数据对象
可以根据以下业务相关性(业务定义的属性),识别适合场景分类的数据对象,
并非所有数据对象都适用于场景分类,比如静态数据分类和错误的数据处理或保护单元。
数据分类时依据的问题
为了更好的提取场景,需要明确一些问题,包括数据的特殊属性、数据使用和产生的相关修改、存储库/实例属性、聚集和时间敏感度、数据类别的含义、个人信息的适用性、风险和影响分析等等。
在做好了所有的准备之后,和数据所有者一起按照如下的流程构建模型,将数据分为低敏感性、中等敏感性和高度敏感三类。
数据分类模型构建流程
需要提出一个全面的业务解决方案来支持 “使用前分类”模式。
有三个关键活动定义了分类解决方案:
参考链接:
https://www.freebuf.com/articles/database/254780.html https://www.alibabacloud.com/help/zh/dataworks/latest/manage-sensitive-field-types https://www.ibm.com/docs/zh/guardium/11.5?topic=discover-sensitive-data https://blog.csdn.net/m0_73803866/article/details/127238102 https://www.secrss.com/articles/11810 https://www.dsmm.org.cn/skin/files/2021-09-15/%E6%95%B0%E6%8D%AE%E5%AE%89%E5%85%A8%E8%83%BD%E5%8A%9B%E5%BB%BA%E8%AE%BE%E5%AE%9E%E6%96%BD%E6%8C%87%E5%8D%97%20V1.0.pdf https://www.esafenet.com/sysjaq https://docs.aws.amazon.com/zh_cn/wellarchitected/latest/framework/sec_data_classification_identify_data.html https://www.leagsoft.com/plan-detail/66
在我国国家政策的大力支持下,大数据应用正在引领各垂直化领域变革,这种趋势下,数据流动将产生越来越多的价值。然而数据的使用也是一把双刃剑,只要数据处于流动的过程中会存在敏感数据泄露的风险。要提高数据的使用价值,避免敏感信息泄露产生的不良后果,这就需要规范和建立敏感信息分级保护机制,并搭建高效的敏感数据安全管理体系。
目前国内敏感信息监控产品大多还将功能定位在特定信息的检查和流通渠道的管控上,尚未形成一套支撑大数据环境下敏感信息综合监管的有效体系。为了更好的保护国家、企业和个人的数据资产,国内的敏感信息监管产品厂商需要对数据状况进行深入研究,特别是数据的类型化、层级化研究,同时应树立起一种意识,那就是敏感信息管理不是简单依靠一套产品就能够解决的,而应该通过产品引导客户建立敏感数据安全管理的理念,形成适用于自身组织特点的数据分级和管控体系,这才是国产敏感信息监管产品今后一个阶段的发展方向。
具体来说,整个敏感信息监管体系应该遵循以下流程建立:
客户所需要管控的敏感信息类型很多,可能涉及个人隐私、企业商业秘密、政府部门甚至国家数据资产,应该在不同客户数据资产类型对数据进行梳理,定义不同敏感信息的类别和级别,进行数据标签化。
以网络运营商此类企业管理的数据类型为例,可能包括网络用户身份相关数据、用户服务内容数据、用户服务衍生数据和运营管理数据等,这些数据根据对第三方价值和泄露后产生的后果可以进行分级,下表是运营商客户数据敏感性分级定义。
针对不同敏感级的数据应该计划采用不同的管控措施。
识别过程:对被监控端所有文档的编辑工作进行监控,根据策略自动分析文档的敏感性,在发现文档高敏感级甚至是可能涉密的情况下,完成识别。
分级分类过程:对所有检测出的敏感数据,根据之前数据分级分类方法进行级别和类别的归类。
可视化展示:对客户敏感数据进行分类分级的基础上,通过地理分布图或者是网络分布图等方式实现敏感数据分布情况的可视化展示。
参考链接:
https://www.aqniu.com/tools-tech/52080.html