6000次引擎迭代，长亭雷池开启语义分析2.0时代

6000次引擎迭代，长亭雷池开启语义分析2.0时代
2023-10-20 19:32:31 Author: mp.weixin.qq.com(查看原文) 阅读量:9 收藏

6000次

这是语义分析引擎迭代的次数

3260次

这是检测模型调整的次数

106783行

这是累计优化的代码数量

6406次

这是累计的commit次数

以上这组数字，是截至2023年9月，长亭雷池（SafeLine）下一代Web应用防火墙核心引擎做出的更新。

2014年，公司成立之初，长亭科技就尝试将语义分析应用于流量检测上，落地SQLChop，并迅速集成多种语法检测，推出首个基于智能语义分析的下一代WAF。

发布至今，雷池（SafeLine）已累计服务数百家企业级用户，在不同行业、不同网络架构场景的打磨下，其核心安全检测能力也在不断更迭，进一步提升检测精准程度。

-Number-

HTTP协议解析算法

100+次解析逻辑调整

从引擎发布至今，雷池（SafeLine）持续优化HTTP解析及语义识别准确性，完善对rfc标准支持，适配常见HTTP解析库与rfc实现不一致的特性。

-Number-

解码器30次解码逻辑调优

长亭发明了智能推测嵌套编码专利，目前可支持解析十层嵌套编码的攻击载荷，百倍提升检测效率。

解码模型

-Number-

安全检测模块持续调优

单点极致

常规漏洞检测精准度稳步提升，脆弱性分析引擎加强。

以下列举6个核心安全检测模块新增核心能力。

今天，雷池（SafeLine）已经可以做到：

百万请求检出率99.9956%，百万请求误报率0.0076%，误拦率始终小于0.0001%。

天然防护高危漏洞数量月均10+个。在2023年的国家攻防演练中，雷池（SafeLine）防护0day漏洞23个，天然防护率大于50%。

最快0.5小时内提供虚拟补丁，6小时内完成应急响应。2012年12月，Apache Log4j2远程代码执行漏洞突然爆发，雷池（SafeLine）在120分钟内发布虚拟补丁，并在24小时内完善检测引擎。

在OWASP 2021首届WAF攻防大师赛中，以低于0.1%的优异表现在误报检测单项能力测试中摘得冠军。

一直以来，雷池（SafeLine）的检测都是黑盒形式，在这些指标提升的背后，都有长亭研发团队在不懈努力。

今天我们邀请其核心研发人员来揭开背后的故事。

one

融合更多维度技术

综合提升WAF的能力天花板

WAF是一种比较成熟的防护手段，在应对Web应用攻击上“亲测”好用，但是受限于早期技术水平，部分遗留下的不能解决的问题，随着技术栈的变化升级成为了“硬伤”。

“大包绕过”就是个典型问题。因为其普遍性，甚至被称为绕过WAF的通杀方案。

Q: 何谓“大包绕过”？

大包绕过，指WAF遇到大请求时，不能完整检测请求被迫直接放行，或者检测耗时很长中断业务。

产生的主要原因，是WAF 对请求的检测通常要经过 HTTP 协议解析、解码和模式匹配三个主要环节，而每一个环节通常都需要前一个环节完整输出。这些限制让 WAF 不得不等到请求接收完整后，再对其进行检测。当遇到大请求时，内存就成为了最大的瓶颈，限制了 WAF 对完整请求做检测。同时，由于WAF需要接收完整请求后再一次性检测，也给请求的转发带来了较高的延迟。

长亭科技综合利用语义分析引擎可重入技术、数据分片流式接收技术和深度解码栈快照技术，并取得实质性突破，将协议解析、解码和模式匹配三个阶段彻底改造为“流式”，真正实现了“边接收、边检测、边转发”的流式检测模式，全球首创流式语义分析技术，预计可将攻击绕过率降低95%以上。

至此，WAF将不再依赖完整的 HTTP 请求数据，而是可以“流式”地、一个片段一个片段地进行检测+转发，在解决大包绕过问题的同时，不牺牲任何检测效果，同时极大地降低了请求的检测延迟，不影响业务。

two

与大模型结合

让安全检测能力自然语言化和自动化

语义分析引擎的原理是，首先查找可能存在的载荷，然后提取载荷的语义特征，最后识别并输出攻击类型和威胁等级。

这运用到WAF上已经质变的提升了检测精准度，但是对于安全研判和运营仍然不够。

对于安全运营来说，至少要知道攻击者打算做什么，才能知道哪里是短板，进而针对性改善。

大模型可以对攻击载荷进行自然语言解释，和实际攻击意图的分析和联想，而语义分析引擎则为大模型提供语义特征，大幅提升攻击意图识别效率和准确度。不同类型的攻击载荷对应的语义特征不同，所以当大模型同时接收到攻击载荷和语义特征时，分析和联想的准确率更高，幻视率更低。同时语义分析引擎的持续迭代，以及语义特征的进一步丰富，会让大模型的安全能力进一步提升。

基于多年安全能力积累，长亭训练出安全大模型，在语义分析引擎的加持下，可自动解释攻击原理，并分析出可能受影响的资产和留下的攻击痕迹，生成自然语言的描述信息。这些信息可以辅助安全人员或人工智能进行有效研判和处置，让整个安全检测更加智能。

彩蛋

文章来源: https://mp.weixin.qq.com/s?__biz=MzIwNDA2NDk5OQ==&mid=2651385787&idx=1&sn=0c61d23289aa40070943875cbf98d04c&chksm=8d399e33ba4e17258b62fb4541b593b5d566f7505f7c046c7d3870622b41293ba59965c58632&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh