卡耐基梅隆大学 | 基于语义信息提取和领域特定语言模型的CVE攻击技术预测

卡耐基梅隆大学 | 基于语义信息提取和领域特定语言模型的CVE攻击技术预测
原文标题：CVE-DRIVEN ATTACK TECHNIQUE PREDICTION WITH SEMANTIC INFORMATION EXTRACTION AND A DOMAIN-SPECIF 2023-12-22 19:11:15 Author: 安全学术圈(查看原文) 阅读量:15 收藏

原文标题：CVE-DRIVEN ATTACK TECHNIQUE PREDICTION WITH SEMANTIC INFORMATION EXTRACTION AND A DOMAIN-SPECIFIC LANGUAGE MODEL
原文作者：Ehsan Aghaei, Ehab Al-Shaer
发表会议：arxiv预发表
原文链接：https://arxiv.org/abs/2309.02785
主题类型：漏洞、情报
笔记作者：ALKA
主编：实习@安全学术圈

文章在TTP（Tactics, Techniques, and Procedures 战术技术程序攻击）预测器工具中实现的新技术来分析CVE的描述，并推断出利用该CVE引起的TTP攻击，最终集成了一个精确和可靠的TTP预测器。简单来说就是实现了CVE到TTP之间的预测。

论文主要贡献有三点：

语义角色标注技术：论文使用语义角色标注（Semantic Role Labeling, SRL）技术，从大量的非结构化网络威胁报告中提取了大量的威胁行为。这些行为与其上下文属性相关联，然后与MITRE定义的攻击功能类别进行匹配
威胁情报关联：该模型使用了一个专门针对网络安全领域的领域特定语言模型（SecureBERT）进行了微调，实现了威胁行为、上下文和攻击技术之间的精确关联。
威胁情报原型系统：集成了TTP预测器，完成CVE和TTP之间的映射。-

SecureBERT：是BERT的一个衍生品，已经在大量的网络安全文档上进行了再训练

CVE中的语义提取

svo和上下文结合的集成策略

文章使用主-谓-宾（Subject-Verb-Object，SVO）结构和语义角色标注（Semantic Role Labeling，SRL）来识别CVE中威胁信息。但由于一个简单的主谓宾无法准确的表达威胁的内容，比如
在“攻击者读取内存并导致拒绝服务”的上下文中，它表示内存读取是对攻击者的影响。然而，在“攻击者阅读内存以发现用户名和密码”的语境下，它表示了导致凭证盗窃的行为。

所以作者将SVO和上下文作为输入集成。

svo具体实现

作者使用了AllenNLP语义角色标记（SRL）工具，这是一个专门为对文本数据执行语义角色标记而设计的预训练模型。该工具将一个句子作为输入，并为句子中的每个单词或短语生成相应的语义角色。

在经过模型后，作者又将其捕获到的语义分为了行为和影响。在定义了一系列判断语句之后模型的效果如下。

在经历过以上的步骤后，作者拿到了经过SVO后的威胁语句和威胁语句的上下文，接下来的工作得以继续开展。

威胁情报之间的关系

作者也考虑到了入侵行为之间关系的继承性等关系，比如读取文件必定会读取内存，安装APP必定会修改设置。所以作者构建了一个共有16种威胁情报的模型

并给出了他们之间的关系例如因果和遗传特性。

基于SecureBERT的文本分类

在拿到了经过SVO后的威胁语句和威胁语句的上下文后，作者将这个东西放入了SecureBERT中，并输出一个对应的威胁情报类型。并根据因果和遗传特性图衍生出全部的威胁情报。

作者严格评估证明了其有效性，产生了约98%的显著准确率，同时在精确的组中F1分数从95%到98%，良好的性能证实了CVE语言在数据集创建中得到了有效的评估，并且模型适当地捕获了文本和功能之间的文本特征和语义关系。在最后作者还与当今火热的chatgpt进行对比，凸显其优越性。

本文的简单来说就是利用SRL和BERT实现了一个文本的多分类模型，并将模型应用于CVE的分类领域。看起来确实取得了不错的成果，当然将其识别的文字由CVE报告更改为医学诊断书或者事故描述报告，说不定能够再出几篇类似的论文。

其中值得注意的是作者并不是简单的将CVE语句输入进BERT中，而是将其威胁实体和上下文结合并输入。在一定程度上也提高了模型的准确率和上下文之间的关联性，是文章比较创新的地方。

从最后的评估也可以看出当今的很多模型也都笼罩在ChatGPT的阴影之下。大语言模型未来很长一段时间都要与其进行对比。

安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com

文章来源: http://mp.weixin.qq.com/s?__biz=MzU5MTM5MTQ2MA==&mid=2247490055&idx=1&sn=c3d9a13d46238b0d136b2c4d234beca2&chksm=ff421b287532866da117a44c12c1c9fc376043bdbb32bfa505c1b2abdb1297f61670cd960ba3&scene=0&xtrack=1#rd
如有侵权请联系:admin#unsafe.sh