今年互联网这个圈,最热的词是什么,我觉得大概是“数据”吧。最起码这是我这一年下来感觉和自己以及工作关系最大的一个词。
2020年4月9日,中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》(以下简称《意见》),提出土地、劳动力、资本、技术、数据五个要素领域的改革方向和具体举措。数据作为一种新型生产要素写入中央文件中,体现了互联网大数据时代的新特征。
2020年10月,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》(以下简称“十四五”规划纲要)提出“加快迎接数字时代,激活数据要素潜能,推进网络强国建设,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革”,强调以数字化转型驱动生产方式、生活方式和治理方式的变革,以此来实现加快数字化发展、建设数字中国的远景目标。
2021年9月1日,《中华人民共和国数据安全法》正式实施。
2021年11月1日,《中华人民共和国个人信息保护法》正式实施。
还有一些正在路上的数据相关规定包括明年即将施行的《深圳经济特区数据条例》,刚刚通过的《上海市数据条例》,以及正在征求意见阶段的《网络数据安全管理条例》(征求意见稿)。
其实,如果是从90年代初的过来人,尤其是指IT圈的人,应该并不会感到陌生。当年互联网刚刚兴起之时,和现在差不多,很多人不敢或者不愿过度到新的环境下,记得国内开始转变应该是2000年初的时候,很多国内企业开始信息化建设,无纸化办公。
但是,这已经是互联网发展的成熟期,这时云计算已经开始出现在我们的眼前,同样的,大家还是不想迈出自己的舒适区,继续选择观望。甚至,不少企业直到今天,还在考虑要不要上云这个问题。
目前,云计算已经发展成熟,是一种常见而且,便捷、低成本的服务,比如公有云(IaaS、PaaS、SaaS)、分布式云(区域云、边缘云)、私有云等等。
这一波数据热潮,不亚于之前的互联网和云计算。对于IT领域,尤其是安全相关的,这次安全终于不再是滞后事项,其与数据治理一起被提上日程,数据安全时代降临了。
本文将侧重数据安全相关的讨论和技术发展,聊聊自己看到的和理解的数据安全以及已有的数据安全技术。
首先,要明确一点,就是数据安全和网络安全虽然是两条线,但这两条线是拧在一起的,无法分割。也就是说,做好网络安全也是未来保护数据安全,只不过网络安全旨在做好外部防护,相当于给房子加了一套安保系统,降低被盗的风险。
再者,是去年红得发紫的零信任,因为数据也要遵循同样的思路来做。零信任的思路是替换传统门式安全控制(即一次认证,无限制访问),以身份/设备为核心,一种无边界的单次授权访问控制设计。
零信任是一种以资源保护为核心的网络安全范式,其前提是信任从来不是隐式授予的,而是必须进行持续评估。零信任体系架构是一种端到端的企业资源和数据安全方法,包括身份(人和非人的实体)、凭证、访问管理、操作、端点、宿主环境和互联基础设施。初始关注重点应该是将资源仅限于“需要访问和仅授予执行任务所需的最小权限(如读取、修改、删除)”的人。
NIST对其定义是:零信任(Zero trust,ZT)提供了一系列概念和思想,旨在面对被视为受损的网络时,减少在信息系统和服务中执行准确的、权限最小的按请求访问决策时的不确定性。零信任架构(ZTA)是一种企业网络安全规划,它利用零信任概念,并囊括其组件关系、工作流规划与访问策略。(出自NIST-SP-800-207 Zero Trust Architecture)
如果用一张图来描述,大概可能是这样的:
用户请求到达的时候,对信息是不可见的,获得授权后,会打开指定的门,获取你想访问的数据,访问结束退回到开始的地方,连接中断。如果想要访问其他数据,需要再次建立连接,确认身份和权限(当然认证的因素会很多,如位置、时段、设备ID等),获得授权。
本文不讨论零信任相关技术和应用细节,只是简单提一下这种理念,让大家理解如何在数据安全中应用。
数据安全也是如此,我们将把关注的重点从边界、设备、身份等要素转移到数据本身上,将安全直接赋能到数据。例如,DLP、安全多方计算、差分隐私、同态加密等数据加密技术。但目前阶段的难点在于分类分级。不同于人和设备,因为经过长期社会实践,人的身份,各种电子设备已经有了明确的分类标准,但数据对于我们来说,还是一个很新的东西,即使它一致存在于我们身边,但是我们一直没有去关注它。
这个起点确实难度过高,2019年全球产生的数据总量约为41ZB,2021年预计这个数据可能会超过80ZB,但要知道,这是一年产生的量,不是累计的总量。对这种海量数据进行分类分级,绝对不是短时间内可以办到的,因此,可能需要多年时间来落地或者寻找可行的方法解决这个问题。否则,之后的各种治理和管理都是空谈。就好比,一个法治健全的社会,但是没有为每个人分配姓名和角色,那这套司法体系毫无用处。
这也是为什么,越大的企业,数据分类分级落地越难的原因,反而一些小微企业却很容易。
好的,那么下面开始进入正题部分,介绍现有的数据安全技术。有人可能会问,不是说数据分类分级没有做,其他都是空谈么?解释一下,并不是没做,而是没做好。企业多多少少都有落地数据分类分级,只是成熟度和细化程度存在一定差距,举例理想中的目标还有距离。
数据安全即服务(DSaaS)作为一种服务提供数据安全和保护功能。企业将其数据移交给服务提供商,以存储、保护、转换和共享给提供商或第三方,同时实现所需的合规与保密目的。
除交易处理外,数据安全控制通常在客户层面。DSaaS将获取源数据,并为客户保护和存储数据,与其共享。基于云服务提供的数据安全和保护是一种转型,以经济和快速的方式对多个场景、生态系统合作伙伴或司法管辖区进行适当的管控。
DSaaS将数据安全大众化,它使客户能够将数据安全的部署时间从几个月缩短到几天,使他们能够匹配云计算和DevOps计划的速度。例如,通过持续满足客户和监管机构的控制目标,而不需要客户关心实施。
数据安全管理和数据安全体系通常非常复杂,客户要管理各种软件和硬件,这使得大多数企业无法实现全面、可扩展和敏捷性的数据安全。与此同时,企业不得不加强其数据安全控制,以满足监管要求,或是为不断变化的生态系统合作伙伴做准备。
成熟的客户相信,如果数据能够在个人、企业和政府之间安全地流动,就可以做出更好的决策,并可以为企业和整个社会提供更好的收益。但越来越多的数据相关法律法规、监管政策以及隐私风险阻碍数据共享的实现。DSaaS也许会有助于解决这一挑战。
这种模式和最初推广的云服务很像,以前是要企业上云,现在是数据上云,同样是利用云服务提供商的规模化和技术能力,以及标准化的统一管理,简化企业运维难度,节约成本。这也是为什么一直在说我们要云原生,同样的道理,出于利益最大化考虑,有人可以通过更少的钱实现企业的运营目标,这很吸引人。
但现在重点是数据共享,这是一个敏感的问题。有人会说,隐私保护计算技术不是可以保护数据么?这就说到了本质问题,如果企业和云采用安全多方计算或差分隐私之类的技术,数据在本地,加密后上云共享,那么,数据安全是可以得到保障,但上云的意义就没有了。如果是数据上云后,在云上采用加密技术进行共享,由云服务提供商进行管理,那怎么保证云厂商不会看或看不到源数据,最起码目前是一个无解的状态。要想建立起像银行一样的信任体系(把钱存放在银行里),这可能需要很长一段时间,最起码,当前没有人愿意把自己的数据完全托管给某机构。
虽然有部分头部企业试探性的在尝试这种模式,但依旧缺乏信任。企业可根据实际情况选择是否采用DSaaS产品,起步阶段可能会需要对数据进行转换后上传到云,以保证源数据安全,但也势必会影响业务,增加处理时间和成本。不过这也是一个好的开头,起码看到了一种新的趋势。