ChatGPT革新开源情报工作:大语言模型人工智能在OSINT领域的优势详解
2023-5-24 18:2:39 Author: M01N Team(查看原文) 阅读量:72 收藏

01 概述

OSINT是Open Source Intelligence的缩写,中文名为公开来源情报,是指从公开可用的信息中收集、分析和利用的情报。OSINT的历史可以追溯到第一次世界大战,当时美国和英国利用报纸、电台和电报等公开来源收集敌方的军事、政治和经济信息。在第二次世界大战期间,OSINT在情报工作中占据了重要地位,例如美国海军情报局通过收听日本广播获取了珍珠港袭击的预警。冷战时期,OSINT在对抗苏联方面也发挥了作用,例如美国中央情报局通过分析苏联的科技刊物、航空展览和卫星照片等公开来源评估了苏联的导弹能力。

在互联网出现后,开放数据有了全新的含义,而OSINT也具备了新的生命力,对OSINT情报分析师来说,开放数据的爆炸式增长带来了无限的机遇,同时也带来了巨大的挑战。互联网使得公开来源信息呈现爆炸式增长,包括各种媒体、社交网络、博客、论坛、数据库、地图、视频等。这些信息不仅涵盖了各个领域和层面,而且具有多语言、多媒体和多格式的特点。据IDC研究显示,过去十年中在线数据激增近20倍,到2025年预计将达181 ZB,从海量数据中提取挖掘可用信息和情报成为一个难题。在此背景下人工智能技术发展对开源情报工作会有哪些帮助?本文将围绕此问题展开探讨。

02 搜索引擎在OSINT领域的应用

互联网时代,搜索引擎能够帮助我们在海量数据中检索我们感兴趣的知识和信息,但同时也因此成为了一种良好的OSINT手段,常见的搜索引擎报告Google、Bing、Duckduckgo等。搜索引擎用于OSINT有以下几种场景:

  • ⽹站或络设备的信息收集:通过搜索引擎,可以获取目标网站或网络设备的基本信息,如域名、IP地址、服务器、操作系统、开放端口、漏洞、敏感文件等。

  • ⼈物或组织的信息收集: 通过搜索引擎,可以获取目标人物或组织的基本信息,如姓名、年龄、性别、职业、教育、联系方式、社交账号、兴趣爱好等。

  • 事件或话题的信息收集: 通过搜索引擎,可以获取目标事件或话题的基本信息,如时间、地点、原因、影响、参与者、评论、观点等。

  • 数据库或⽬录的信息收集:通过搜索引擎,可以获取目标数据库或目录的基本信息,如名称、类型、内容、结构、权限、访问方式等。

  • 图⽚或视频的信息收集: 通过搜索引擎,可以获取目标图片或视频的基本信息,如来源、作者、日期、地点、主题、元数据等,也可以通过反向搜索,找到相似或相关的图片或视频。

  • 新闻或⽂章的信息收集:通过搜索引擎,可以获取目标新闻或文章的基本信息,如标题、作者、日期、来源、摘要、关键词等,也可以通过比较和验证,判断其真实性和可信度。

  • 代码或件的信息收集 通过搜索引擎,可以获取⽬标代码或⽂件的基本信息,如语⾔、格式、功能、注释、作者、版权等,也可以通过分析和运⾏,测试其效果和安全性。

03 人工智能技术革新开源情报能力

3.1 ⼈⼯智能驱动的OSINT

随着人工智能技术的快速发展,开放数据世界的规模不再是一个不可逾越的挑战,而成为一种优势能力彻底改变信息分析的逻辑。人工智能对于OSINT有以下几方面的帮助:

  • 人工智能能够提高OSINT的效率,通过自动化的方式,从海量的开放数据中快速地筛选、抽取、整合、存储和检索相关的信息,根据计算能力具备扩展性,而不受人力和精力的限制。

  • 人工智能能够提高OSINT的质量,通过智能的方式,对开放数据进行评估、验证、分析、推理、可视化和呈现,增加了信息的准确性、可信度、价值和意义,减少了人为的干扰和误差。

  • 人工智能能够拓展OSINT的范围,通过创新的方式,利用开放数据进行预测、预警、发现、探索、建模和优化,实现了信息的深度挖掘和应用。

⼈⼯智能在OSINT中有以下⼏种应⽤场景:

  • 人工智能可以用于从开放数据中提取和分析人物、组织、事件、话题等信息,如使用自然语言处理(NLP)技术对文本进行命名实体识别、情感分析、关键词提取等。 

  • 人工智能可以用于从开放数据中发现和预测潜在的威胁、风险、趋势等信息,如使用机器学习(ML)技术对数据进行分类、聚类、回归、异常检测等。 

  • 人工智能可以用于从开放数据中建立和优化情报模型和系统,如使用深度学习(DL)技术对图像、视频、音频等进行目标检测、人脸识别、语音识别等。

由OpenAI公司在2022年11月推出的ChatGPT生成式AI具有强大的自然语言理解和生成能力,这对OSINT的帮助是非常巨大的。ChatGPT可以帮助OSINT人员快速整理出来自各种来源的结构化数据,节省时间并扩大操作范围。凭借其对公共互联网的广泛了解,通过针对性和创造性的查询可以挖掘广泛主题的情报信息。另外,ChatGPT改变了开源情报的获取模式,从原本基于搜索引擎等分散检索的方式转变为智能问答式,但如果结合搜索引擎对互联网的感知能力,ChatGPT对于开源情报挖掘的效果将会进一步放大。

3.2 利用ChatGPT进行Docking

ChatGPT等大语言模型的创新能力对传统互联网OSINT技术和工具的使用带来新的可能。自然语言理解能力的提升有助于对情报需求的准确判断,根据特定的情报需求,ChatGPT能够生成合适的搜索查询、工具参数或脚本以提高情报收集的效率和准确性。

Google Dorking是一种利用高级搜索操作符在Google搜索引擎中进行信息检索的技术,也叫Google Hacking。可以帮助OSINT调查者快速过滤和优化搜索结果,找到相关的信息和内容,例如使用“site:”、“filetype:”、“intitle:”等操作符。好的dock语法可以帮助OSINT人员更快更全面地检索、收集相关情报信息。

DockSearch是一款Google Docking辅助工具,整理了常用的dock语法,近期他也集成了ChatGPT能力,可以通过问答的形式快速生成与目的相匹配的dock语句,提高OSINT效率。

3.3 使用ChatPDF进行情报挖掘

ChatPDF是一个使用AI分析PDF文件的平台,可以让我们和PDF文件对话,快速提取文档信息或回答相关问题。它基于OpenAI公司的ChatGPT开发,只要上传PDF文件,它就会创建一个能够回答与文件内容相关的问题的AI聊天机器人。我们可以用ChatPDF来检索、搜索和总结PDF文件中的相关内容,帮助在更短的时间内了解重要信息。

3.4 使用New Bing进行OSINT

New Bing是微软推出的一款大语言模型智能搜索引擎,利用大规模的预训练语言模型作为核心技术,来提高搜索引擎对自然语言的理解和生成能力,从而提供更准确、更丰富、更智能的搜索结果。在OSINT情报领域,大语言模型的搜索引擎相比传统的基于关键词匹配的搜索引擎,可以通过自然语言与用户聊天,了解用户需要收集和分析哪些类型、主题、来源的信息,这可以提高情报结果的相关性和准确性。同时相较于ChatGPT,New Bing具备搜索引擎的基础能力,能够利用网络上最新的新闻、资讯、文章和评论等信息来补充和完善自己的知识库,通过信息聚合、处理、挖掘和再生成能力提供更具时效性的情报结果,另外,基于搜索引擎在网页爬虫等方面的基础能力,New Bing具备对网页服务指纹信息等内容的知识学习能力,能够扩大情报收集分析范围。以下将探讨使用New Bing进行OSINT情报调查的几个典型场景。

了解具备时效性的政策文件

通过简单描述目的、时间和范围,New Bing会借助搜索引擎和大语言模型能力,查找符合目的的结果,还会对结果中的重要内容进行总结、提炼和再生成,自动化高效完成了情报信息的收集、分析、挖掘和分发全流程,提升了情报结果的可读性,这在以往是不可想象的。以下提问内容为“想要了解US官方在2023年新发布的网络安全政策和文件”,这里需要注意的是搜索引擎会根据用户地理位置、语言等给出偏向性结果,因此用英文进行提问结果在这个场景下会更加准确。

查找个人信息和社交状态

社交媒体平台如推特、脸书、领英等是收集OSINT的重要来源。社交媒体上的内容可以反映用户的身份、活动、兴趣、情绪、观点等信息。基于搜索引擎和大语言模型的检索和关联能力,New Bing能够对多源社交媒体平台的信息进行关联分析,增强情报的全面性和准确性。

查找和定位组织信息

针对组织的OSINT包括公开的注册信息、组织业务动态、组织成员信息等。基于搜索引擎和大语言模型能力能够完成以前相对复杂的情报挖掘、分析和整理工作。以New Bing批量化进行简称反查组织基础信息场景为例。

分析网络资产和服务信息

搜索引擎具备基础的爬虫能力,不仅可以收集网页文本信息,也可以对域名、子域名、电子邮件地址、网站框架、SSL/TLS证书、源代码等内容进行收集,同时New Bing利用大语言模型的生成能力和推理能力,从多个数据源中发现潜在的联系、相似性和差异性,呈现出更具价值的情报结果。以针对某地区的特定行业单位资产进行提问式OSINT情报挖掘为例。

事件追踪及趋势监测

OSINT可以帮助收集和分析社交媒体上的评论、评价、反馈等,了解公众对某个话题、事件、品牌、产品等的态度和感受,适用于舆情跟踪、事件分析和趋势研判等场景。New Bing在保障信息时效性的同时,可以利用大语言模型的理解和推理能力高效完成信息聚合和态势分析工作。以查找本月推特上讨论最多的5个CVE漏洞为例。

04 总结

ChatGPT等生成式人工智能技术的出现对开源情报工作的影响是革命性的,原本通过多源收集、多步研判的复杂情报产出方式正在向具备自然语言处理、内容生成能力的智能问答式情报产出方向发展。ChatGPT的出现让开源情报工作可以更好地利用大数据时代海量数据的优势,未来随着人工智能技术的不断发展,在图片、语音、视频等信息基础上开源情报工作也将会有巨大的价值挖掘空间,人工智能技术让未来的开源情报工作更具想象力和创造力。

绿盟科技天元实验室专注于新型实战化攻防对抗技术研究。

研究目标包括:漏洞利用技术、防御绕过技术、攻击隐匿技术、攻击持久化技术等蓝军技术,以及攻击技战术、攻击框架的研究。涵盖Web安全、终端安全、AD安全、云安全等多个技术领域的攻击技术研究,以及工业互联网、车联网等业务场景的攻击技术研究。通过研究攻击对抗技术,从攻击视角提供识别风险的方法和手段,为威胁对抗提供决策支撑。

M01N Team公众号

聚焦高级攻防对抗热点技术

绿盟科技蓝军技术研究战队

官方攻防交流群

网络安全一手资讯

攻防技术答疑解惑

扫码加好友即可拉群


文章来源: http://mp.weixin.qq.com/s?__biz=MzkyMTI0NjA3OA==&mid=2247491447&idx=1&sn=9f5c6ca428591c5434d1a309386a4432&chksm=c187df66f6f05670b91b34c9ae09b4518c710bd6addaca42060b70ecb5e0bf8c0567e84215ad#rd
如有侵权请联系:admin#unsafe.sh