报告节选 | 实现数据分类分级自动化的5大核心能力
2023-11-21 13:18:23 Author: mp.weixin.qq.com(查看原文) 阅读量:6 收藏

数据分类分级是现代企业组织做好数据安全防护工作的基础,应优先使用效率高、周期性强且具有广泛适用性的先进技术和方法,提高分类分级工作中的自动化和智能化程度,从而实现对于数据的更好管理与运用。数据分类分级流程通常可分为三个阶段:准备阶段、实施阶段及持续运营阶段。自动化工作主要作用于实施阶段和持续运营阶段。基于数据分类分级自动化的整体流程,实现数据分类分级自动化需要具备以下5种核心能力。

1、数据资产发现能力

数据资产发现是数据分类分级自动化工作的基础,需要为整个数据分类分级系统化工具提供充分的数据输入。在数据分类分级项目中,数据资产发现是必要的项目。而对于持续的数据安全运营,数据资产发现能力也是一个可选项,组织可选择定期开展发现扫描工作。

  • 实现目标

    数据资产发现需要识别出规定范围内的数据资产,通过主被动的方式进行数据资产的发现。数据资产能力发现不仅要识别出用户所管控的数据资产,还需要识别出脱离用户管理的数据资产。在进行数据资产扫描时,需要识别结构化数据服务器,也需要识别出非结构化数据存储服务器,以保证能够对各类数据资产均进行后续的数据分类分级工作。

  • 实现方式

    数据资产发现能力需要通过人工与自动化结合共同实现,其中人工的工作主要包括圈定数据识别范围、整理数据资产清单等,自动化工作则包括数据资产的主被动扫描。

    当前阶段,数据分类分级中的数据资产发现能力通常是以人工为主、自动化识别为辅的工作模式。在数据分类分级项目前期调研阶段,需要通过调研访谈和问卷的方式,将数据分类分级项目实施的系统范围确定好,并根据已有的数据资产管理清单,形成列表。在做完可管理的数据资产接入的同时,还需要以主被动扫描的方式,识别出暗数据或者冷数据。

  • 实现现状

    调研发现,在进行数据资产发现时,现有的服务商选择了多种不同的技术路线,但都是按照手动、自动结合的方式。

    通过手动的方式进行数据资产发现的第一步,有助于提升数据资产发现的实施效率和实施准确性。而这依赖于甲方用户对自身数据资产的管理程度。对于做过数据治理,对自身数据资产管理较高的企业,可以将重心放在通过调研统计识别数据资产上。而对于一些不了解自身数据资产情况的甲方用户,还是需要更多结合自动化的数据资产发现能力。

    在进行数据资产发现自动化扫描时,有的厂商选择以被动扫描为主,这适用于无法进行主动扫描的数据存储环境。而主动探测数据资产,通过协议、接口、语言的识别,可识别出所有网络可达环境的数据资产,能够更全面的识别出数据资产。

2、分类分级规则模板生成能力

数据分类分级自动化的实现依赖于分类分级规则模板,生成规则模板也是执行数据分类分级自动化的第一步。

  • 实现目标

    分类分级规则模板生成需要通过人工、机器学习等方式,生成可用于后续打标工作的模板。数据分类分级规则模板需要为后续工作提供两个支撑:1、能够依据模板中的数据标签,有效识别出目标资产数据特征,并用于后续的分类分级工作;2、依据分类分级规则模板中的分类分级规则,能够标注出数据的类别、级别。

    由于企业自身业务特点、数据资产状态等原因,数据分类分级规则模板需要对每个企业形成专有模板。所生成的模板需要能够提供准确、精细的规则,提高数据特征识别率和分类分级准确度。

  • 实现方式

    数据分类分级规则模板生成方式通常包括手工方式和自动生成方式。

    手工模板生成方式依赖于项目实施者的专业能力,通过分类分级标准、用户需求、专业研判等方式,建立用户所需要的模板。这种方式适合小规模数据量的分类分级工作。

    主流的模板生成方式采用人工和自动化结合的方式,通过已有的数据分类分级标准、项目积累的经验等,大部分厂商都有自己的一套分类分级模板库,基于基础模板构建适用于用户的特定模板。

图 分类分级模板自动流程

根据用户的基本信息、需求等调研结果,组织可以选择更适合自己的基础模板。基于基础模板,通过人工智能生成的方式,整合出涉及此次分类分级项目的条目。生成的模板要对测试数据进行分类分级自动化工作,对形成的打标结果进行评估。对于产生的结果,如果存在不准确的地方,通过人工调整的方式,对模板标签进行修改。通过反复地校验修改,最终生成可用模板。

  • 实现现状

    数据分类分级模板主要用于结构化数据的打标工作,非结构化数据的分类分级工作相对简单,且涉及人工工作较多,因此数据分类分级模板生成工作集中在对结构化数据应用上。

    目前,基于基础模板使用自动化手段生成的模板,针对测试数据的分类分级识别,其准确率能够达到70%左右,对于结构化数据的分类分级,这一准确率通常无法满足用户需求,因此在这一阶段无法离开人工的调整工作。手动调整依赖于项目实施者的经验,通过手动调整后的模板通常需要达到90%以上的准确率才能进入下一步工作。

3、敏感数据识别能力

在规则模板生成后,需要对敏感数据进行识别打标,并用于后续的数据分类和定级工作。

  • 实现目标

    识别出敏感数据是对后续数据打标的基础,需要能够识别出数据是否为敏感数据,并且需要能够精确地进行打标,例如从文字中识别出是否为姓名,或者将一串数字识别为电话号码或者身份证号码等。数据识别能力包括对非结构化数据敏感数据识别能力,以及对结构化数据中的敏感数据识别能力。

  • 实现方式

    结构化数据和非结构化数据对数据识别的实现方式差异化较大。对于结构化数据,通常通过识别列标签将就能够较容易完成,且准确率较高。而对于非结构化数据,需要使用人工智能的方式,识别出区中的文本,并根据文本特征、上下文等方式,判断数据的标签。

  • 实现现状

    对于结构化数据的敏感数据识别是易于实现的,且识别率精度可达到90%以上。

    对于非结构化数据中的敏感数据识别是现阶段研究的重点。现阶段对于有明确的特征关键词,或者半结构化数据,识别难度较低。对于没有特征的非结构化文本,只能通过内容识别算法,其准确率依赖于规则。例如对于人名只能通过人名库,因此对于不在库内人名,识别率较低。

    对于非结构化数据,目前只能做到对图片中的文本中的敏感数据进行识别并打标,对于视频文件、文件中的图形文件所涉及的敏感数据,还无法做到识别工作。

4、分类打标能力

数据分类自动打标能力是数据分类分级自动化的核心,在这一阶段,需要基于模板识别数据,并对数据进行分类。

  • 实现目标

    通过数据分类分级模板,以自动化的手段对扫描出的数据资产进行分类打标工作,标注出数据属于哪类数据。通常情况下,数据分类工作先于数据分级工作实施。进行数据分类后,分好类的数据改动的情况较少,因此通常是在数据安全治理前期就做好数据分类工作。

    数据分类工作不仅可以用于数据安全,成为数据安全治理防护的支撑。另一方面,数据分类也可以提升数据治理中数据应用的效率。数据分类的难点在于如何从多维视角出发,为数据找到合适的分类,该分类能支持后续的数据使用、数据安全防护。这就要求数据分类定类准确、边界清晰,因此需要有一定的数据分类的处置经验。

  • 实现方式

    数据分类可采取面分法、线分法和混合分法。在实际数据分类分级工作中较多时候是采用了混合分法。通过业务特征,进行基本的面分类,例如个人数据、公共管理数据等。然后再通过线分法,对数据进一步打标,如基于经营数据,进一步打标为用户数据、业务数据、系统运行数据等。

    非结构化数据的分类需要依托于更多数据上下文信息、数据的元数据信息,因此需要使用更加智能化的手段。

图 数据分类示例

  • 实现现状

    数据分类实现的效果受制约于敏感数据识别中的准确率,结构化数据的分类自动化工作相对较成熟,非结构化数据的分类还需要更多的人工工作。目前,业界对数据分类的关注点还集中于结构化数据的打标当中,非结构化数据的分类需要依赖于隶属的业务系统进行。

5、分级打标能力

数据分级自动打标能力也是数据分类分级自动化的核心,是指基于模板对已经完成分类的数据进行定级打标处理。

  • 实现目标

    通过数据分类分级模板,以自动化的手段,对已进行分类的数据进行定级打标工作。数据分级通常根据国家标准或者行业标准,基于影响范围和影响程度分为三至五级。数据分级基于就高从严原则进行,以确保数据能够得到有效保护。

    数据分级需要坚持动态原则,即要定期根据时间、场景、数量等特征的变化,对数据的级别进行改变。对数据的定级是持续性的过程。

  • 实现方式

    数据分级工作依赖于对数据类别的判断、对数据条数的统计等。

    大部分情况下,数据只需要以匹配的方式就可以直接定级,例如身份证号、生物特征等具有明确要求的敏感数据,这种情况下,仅需要匹配识别即可。而在某些情况下,由于数据在不同场景的使用情况不同,还需要以词向量的方式,基于上下文其它数据标签,判断数据的级别。

    数据量也是定级的一个依据。少量数据条目和大量数据条目产生的影响通常存在差异,因此还需要根据数据资产的大小,通过设定阈值的方式,对数据进行定级。

  • 实现现状

    目前数据分级自动化已经相对成熟,特别是通过预制模板等方式,已能实现数据分级90%以上的准确性。但数据分级智能化水平还较差,还很难全面考虑更多的因素,例如上下文、场景等方式,实现数据级别的动态调整。

本文节选自安全牛最新发布的《数据分类分级自动化建设指南》研究报告,目前报告已经在安全牛商城上架,获取完整版本报告,请点击识别下方二维码:


文章来源: https://mp.weixin.qq.com/s?__biz=MjM5Njc3NjM4MA==&mid=2651126533&idx=2&sn=9a7ffc8cfc3aa215e41b190c935b9111&chksm=bd144bd68a63c2c070a3d3b557f56bece34cfe01d6a460876e420bea39609eff726dbab6f24e&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh