报告节选 | 实现数据分类分级自动化的5大核心能力

报告节选 | 实现数据分类分级自动化的5大核心能力
2023-11-21 13:18:23 Author: mp.weixin.qq.com(查看原文) 阅读量:9 收藏

数据分类分级是现代企业组织做好数据安全防护工作的基础，应优先使用效率高、周期性强且具有广泛适用性的先进技术和方法，提高分类分级工作中的自动化和智能化程度，从而实现对于数据的更好管理与运用。数据分类分级流程通常可分为三个阶段：准备阶段、实施阶段及持续运营阶段。自动化工作主要作用于实施阶段和持续运营阶段。基于数据分类分级自动化的整体流程，实现数据分类分级自动化需要具备以下5种核心能力。

1、数据资产发现能力

数据资产发现是数据分类分级自动化工作的基础，需要为整个数据分类分级系统化工具提供充分的数据输入。在数据分类分级项目中，数据资产发现是必要的项目。而对于持续的数据安全运营，数据资产发现能力也是一个可选项，组织可选择定期开展发现扫描工作。

实现目标
数据资产发现需要识别出规定范围内的数据资产，通过主被动的方式进行数据资产的发现。数据资产能力发现不仅要识别出用户所管控的数据资产，还需要识别出脱离用户管理的数据资产。在进行数据资产扫描时，需要识别结构化数据服务器，也需要识别出非结构化数据存储服务器，以保证能够对各类数据资产均进行后续的数据分类分级工作。
实现方式
数据资产发现能力需要通过人工与自动化结合共同实现，其中人工的工作主要包括圈定数据识别范围、整理数据资产清单等，自动化工作则包括数据资产的主被动扫描。
当前阶段，数据分类分级中的数据资产发现能力通常是以人工为主、自动化识别为辅的工作模式。在数据分类分级项目前期调研阶段，需要通过调研访谈和问卷的方式，将数据分类分级项目实施的系统范围确定好，并根据已有的数据资产管理清单，形成列表。在做完可管理的数据资产接入的同时，还需要以主被动扫描的方式，识别出暗数据或者冷数据。
实现现状
调研发现，在进行数据资产发现时，现有的服务商选择了多种不同的技术路线，但都是按照手动、自动结合的方式。
通过手动的方式进行数据资产发现的第一步，有助于提升数据资产发现的实施效率和实施准确性。而这依赖于甲方用户对自身数据资产的管理程度。对于做过数据治理，对自身数据资产管理较高的企业，可以将重心放在通过调研统计识别数据资产上。而对于一些不了解自身数据资产情况的甲方用户，还是需要更多结合自动化的数据资产发现能力。
在进行数据资产发现自动化扫描时，有的厂商选择以被动扫描为主，这适用于无法进行主动扫描的数据存储环境。而主动探测数据资产，通过协议、接口、语言的识别，可识别出所有网络可达环境的数据资产，能够更全面的识别出数据资产。

2、分类分级规则模板生成能力

数据分类分级自动化的实现依赖于分类分级规则模板，生成规则模板也是执行数据分类分级自动化的第一步。

实现目标
分类分级规则模板生成需要通过人工、机器学习等方式，生成可用于后续打标工作的模板。数据分类分级规则模板需要为后续工作提供两个支撑：1、能够依据模板中的数据标签，有效识别出目标资产数据特征，并用于后续的分类分级工作；2、依据分类分级规则模板中的分类分级规则，能够标注出数据的类别、级别。
由于企业自身业务特点、数据资产状态等原因，数据分类分级规则模板需要对每个企业形成专有模板。所生成的模板需要能够提供准确、精细的规则，提高数据特征识别率和分类分级准确度。
实现方式
数据分类分级规则模板生成方式通常包括手工方式和自动生成方式。
手工模板生成方式依赖于项目实施者的专业能力，通过分类分级标准、用户需求、专业研判等方式，建立用户所需要的模板。这种方式适合小规模数据量的分类分级工作。
主流的模板生成方式采用人工和自动化结合的方式，通过已有的数据分类分级标准、项目积累的经验等，大部分厂商都有自己的一套分类分级模板库，基于基础模板构建适用于用户的特定模板。

图分类分级模板自动流程

根据用户的基本信息、需求等调研结果，组织可以选择更适合自己的基础模板。基于基础模板，通过人工智能生成的方式，整合出涉及此次分类分级项目的条目。生成的模板要对测试数据进行分类分级自动化工作，对形成的打标结果进行评估。对于产生的结果，如果存在不准确的地方，通过人工调整的方式，对模板标签进行修改。通过反复地校验修改，最终生成可用模板。

实现现状
数据分类分级模板主要用于结构化数据的打标工作，非结构化数据的分类分级工作相对简单，且涉及人工工作较多，因此数据分类分级模板生成工作集中在对结构化数据应用上。
目前，基于基础模板使用自动化手段生成的模板，针对测试数据的分类分级识别，其准确率能够达到70%左右，对于结构化数据的分类分级，这一准确率通常无法满足用户需求，因此在这一阶段无法离开人工的调整工作。手动调整依赖于项目实施者的经验，通过手动调整后的模板通常需要达到90%以上的准确率才能进入下一步工作。

3、敏感数据识别能力

在规则模板生成后，需要对敏感数据进行识别打标，并用于后续的数据分类和定级工作。

实现目标
识别出敏感数据是对后续数据打标的基础，需要能够识别出数据是否为敏感数据，并且需要能够精确地进行打标，例如从文字中识别出是否为姓名，或者将一串数字识别为电话号码或者身份证号码等。数据识别能力包括对非结构化数据敏感数据识别能力，以及对结构化数据中的敏感数据识别能力。
实现方式
结构化数据和非结构化数据对数据识别的实现方式差异化较大。对于结构化数据，通常通过识别列标签将就能够较容易完成，且准确率较高。而对于非结构化数据，需要使用人工智能的方式，识别出区中的文本，并根据文本特征、上下文等方式，判断数据的标签。
实现现状
对于结构化数据的敏感数据识别是易于实现的，且识别率精度可达到90%以上。
对于非结构化数据中的敏感数据识别是现阶段研究的重点。现阶段对于有明确的特征关键词，或者半结构化数据，识别难度较低。对于没有特征的非结构化文本，只能通过内容识别算法，其准确率依赖于规则。例如对于人名只能通过人名库，因此对于不在库内人名，识别率较低。
对于非结构化数据，目前只能做到对图片中的文本中的敏感数据进行识别并打标，对于视频文件、文件中的图形文件所涉及的敏感数据，还无法做到识别工作。

4、分类打标能力

数据分类自动打标能力是数据分类分级自动化的核心，在这一阶段，需要基于模板识别数据，并对数据进行分类。

实现目标
通过数据分类分级模板，以自动化的手段对扫描出的数据资产进行分类打标工作，标注出数据属于哪类数据。通常情况下，数据分类工作先于数据分级工作实施。进行数据分类后，分好类的数据改动的情况较少，因此通常是在数据安全治理前期就做好数据分类工作。
数据分类工作不仅可以用于数据安全，成为数据安全治理防护的支撑。另一方面，数据分类也可以提升数据治理中数据应用的效率。数据分类的难点在于如何从多维视角出发，为数据找到合适的分类，该分类能支持后续的数据使用、数据安全防护。这就要求数据分类定类准确、边界清晰，因此需要有一定的数据分类的处置经验。
实现方式
数据分类可采取面分法、线分法和混合分法。在实际数据分类分级工作中较多时候是采用了混合分法。通过业务特征，进行基本的面分类，例如个人数据、公共管理数据等。然后再通过线分法，对数据进一步打标，如基于经营数据，进一步打标为用户数据、业务数据、系统运行数据等。
非结构化数据的分类需要依托于更多数据上下文信息、数据的元数据信息，因此需要使用更加智能化的手段。

图数据分类示例

实现现状
数据分类实现的效果受制约于敏感数据识别中的准确率，结构化数据的分类自动化工作相对较成熟，非结构化数据的分类还需要更多的人工工作。目前，业界对数据分类的关注点还集中于结构化数据的打标当中，非结构化数据的分类需要依赖于隶属的业务系统进行。

5、分级打标能力

数据分级自动打标能力也是数据分类分级自动化的核心，是指基于模板对已经完成分类的数据进行定级打标处理。

实现目标
通过数据分类分级模板，以自动化的手段，对已进行分类的数据进行定级打标工作。数据分级通常根据国家标准或者行业标准，基于影响范围和影响程度分为三至五级。数据分级基于就高从严原则进行，以确保数据能够得到有效保护。
数据分级需要坚持动态原则，即要定期根据时间、场景、数量等特征的变化，对数据的级别进行改变。对数据的定级是持续性的过程。
实现方式
数据分级工作依赖于对数据类别的判断、对数据条数的统计等。
大部分情况下，数据只需要以匹配的方式就可以直接定级，例如身份证号、生物特征等具有明确要求的敏感数据，这种情况下，仅需要匹配识别即可。而在某些情况下，由于数据在不同场景的使用情况不同，还需要以词向量的方式，基于上下文其它数据标签，判断数据的级别。
数据量也是定级的一个依据。少量数据条目和大量数据条目产生的影响通常存在差异，因此还需要根据数据资产的大小，通过设定阈值的方式，对数据进行定级。
实现现状
目前数据分级自动化已经相对成熟，特别是通过预制模板等方式，已能实现数据分级90%以上的准确性。但数据分级智能化水平还较差，还很难全面考虑更多的因素，例如上下文、场景等方式，实现数据级别的动态调整。

本文节选自安全牛最新发布的《数据分类分级自动化建设指南》研究报告，目前报告已经在安全牛商城上架，获取完整版本报告，请点击识别下方二维码：

文章来源: https://mp.weixin.qq.com/s?__biz=MjM5Njc3NjM4MA==&mid=2651126533&idx=2&sn=9a7ffc8cfc3aa215e41b190c935b9111&chksm=bd144bd68a63c2c070a3d3b557f56bece34cfe01d6a460876e420bea39609eff726dbab6f24e&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh