安全知识图谱｜知识图谱视角下的威胁评估

阅读： 29

本文为安全知识图谱技术白皮书《践行安全知识图谱，携手迈进认知智能》精华解读系列第三篇——利用知识图谱助力攻击画像与威胁评估。主要利用知识图谱表示学习技术，对攻击源或攻击行为进行威胁评估。

一、攻击画像的痛点

攻击画像及风险评估是针对复杂的企业环境，利用采集到的日志或设备告警构建相关的威胁图谱，以图的形式来刻画攻击和攻击源，然后利用图的相关方法对攻击源和企业运行环境进行风险与威胁评估。

企业为了应对网络威胁，通常会部署多个检测设备（如网络入侵检测系统IDS/IPS、全流量检测和网络应用防护系统WAF等）。由于检测设备规则的敏感性，企业安全运营每天需要面临大量威胁告警关联分析，海量告警远远超出了运营人员的事件排查能力。当前的攻击检测设备缺少对这种事件关联的分析能力，从而导致高误报问题，检测设备产生的告警日志通常是低级的、孤立的，安全运营人员需要丰富的安全知识和经验才能针对告警做出相关地研判，这进一步增加了企业安全运营的挑战。

因此，在安全大数据涌现与高级威胁对抗的大背景下，将安全知识图谱应用到企业智能安全运营中，对提升安全运营的自动化水平，减少对人力投入与专家经验的依赖，降低威胁分析与响应的周期等方面具有至关重要的作用。

二、知识图谱表示学习

在安全知识图谱的应用中，知识图谱表示学习具有关键作用。知识图谱表示学习通过让机器尽可能全面地学习知识，从而表现出类似于人类的行为，同时采用知识图谱表示方法来表示知识。知识图谱表示方法是研究计算机表示知识的可行性、有效性的一般方法，是把人类知识表示成机器能处理的数据结构和系统控制结构的策略。

安全知识图谱借鉴通用知识图谱的高效知识图谱表示方法，充分利用安全知识图谱中的知识，提升安全知识获取、融合和推理的性能。近年来，基于知识图谱表示学习方法主要分为两种：基于结构的知识图谱表示学习方法和基于语义的表示学习方法。基于结构的知识图谱表示学习方法大多采用三元组（head，relation，tail可简写为h，r，t）表示方法，具有一定的稀疏性，且无法进行语义层面的计算，主要方法有TransE[1]模型以及变体模型TransH[2]，TransD[3]，TransA[4]和KG2E[5]等。基于语义的表示学习方法往往存在参数多，处理大型知识图谱效率较差的问题，相对降低复杂度后仅能在部分场景中应用。基于语义的表示学习主要研究工作有RESCAL[6]以及其变体[7-9]。

随着知识图谱表示学习技术的不断发展，如何有效地获取全面的知识特征，更好地融合空间时间维度的知识图谱表示，同时避免知识的表示学习导致语义缺失的问题，成为此类研究的关键。

三、知识图谱助力企业威胁评估

在企业环境中，安全设备每日产生海量告警，这给安全分析带来了巨大挑战。为此，针对企业环境存在的问题，需要通过构建安全属性图模型来从不同维度对攻击源的威胁度进行评估。

威胁建模选用属性图对整个企业运行环境进行建模。这里以IP地址、端口、网段、告警、文件、日志等实体为图模型的节点，边则表示实体之间的关系，关系通常分为显式关系与隐式关系。显式关系是通过对日志解析直接可以得到的关系，而隐式关系是通过数据挖掘方法得到的节点之间暗含的关联关系。

企业环境中，安全运营人员通常是基于告警信息识别攻击者与攻击行为。针对单一告警，很难做出预判，这就需要一种有效的关联告警上下文的评估方法来辅助安全分析和运维。为了挖掘告警之间的因果依赖关系，需要构建告警因果关联图，并利用图表示学习方法DeepWalk学习告警的向量表示，详细过程如图 2所示。

针对属性知识图谱模型，可以参考深度图神经网络的一些方法，如图自编码器等来实现威胁评估。图自编码器就是在编码过程中使用了图表示学习技术，这里采用TransE模型来学习图谱中节点与边的向量表示。TransE模型属于翻译模型：直观上，将每个三元组实例（head，relation，tail 简写为 h，r，t）中的关系relation看作从实体head到实体tail的transform，通过不断调整head、relation和tail的向量，使（h + r）尽可能与 tail 相等，即 h + r = t，如图3所示。

在当前场景中，head通常表示攻击源IP，tail表示dip，relation是告警序列的向量表示。通过图自编码器的不断学习，直到满足目标要求，最终学习到了攻击源，攻击行为序列与受害者之间的向量表示，通过对比分析实现对攻击源和攻击行为的威胁评估。

四、总结

本文提出了一种基于安全知识图谱的攻击源威胁评估方法，该方法通过提取攻击者的相关特征，构建描述攻击者行为的属性图，通过关联知识图谱获取更丰富的安全语义。并利用图表示学习方法实现攻击者威胁评估，为安全运营人员提供更准确的结果，减少了企业安全运营中人力的投入。

参考文献

1. Bordes A, U.N., Garcia-Duran A, et al. . Translating embeddings for modeling multirelational data. in Advances in neural information processing systems. 2013.

2. Feng, J. Knowledge Graph Embedding by Translating on Hyperplanes. in AAAI. 2014.

3. Ji, G., et al. Knowledge Graph Embedding via Dynamic Mapping Matrix. in Meeting of the Association for Computational Linguistics & the International Joint Conference on Natural Language Processing. 2015.

4. Xiao, H., et al., TransA: An Adaptive Approach for Knowledge Graph Embedding. computer science, 2015.

5. He, S., et al. Learning to Represent Knowledge Graphs with Gaussian Embedding. in Acm International. 2015.

6. Nickel, M., V. Tresp, and H.P. Kriegel. A Three-Way Model for Collective Learning on Multi-Relational Data. in International Conference on International Conference on Machine Learning. 2011.

7. Nickel, M., L. Rosasco, and T. Poggio, Holographic Embeddings of Knowledge Graphs. AAAI Press, 2015.

8. Yang, B., et al., Embedding Entities and Relations for Learning and Inference in Knowledge Bases. 2014.

9. Trouillon, T., et al., Complex Embeddings for Simple Link Prediction. JMLR.org, 2016.

本站“技术博客”所有内容的版权持有者为绿盟科技集团股份有限公司（“绿盟科技”）。作为分享技术资讯的平台，绿盟科技期待与广大用户互动交流，并欢迎在标明出处（绿盟科技-技术博客）及网址的情形下，全文转发。
上述情形之外的任何使用形式，均需提前向绿盟科技（010-68438880-5462）申请版权授权。如擅自使用，绿盟科技保留追责权利。同时，如因擅自使用博客内容引发法律纠纷，由使用者自行承担全部法律责任，与绿盟科技无关。