今天给大家推送一篇利用大语言模型进行开源情报调研的文章,文中有如何利用大模型进行开源情报调研的示例,大家可以参考。
【摘要】
本文探讨了大语言模型(LLMs)在开源情报(OSINT)中的潜在用途,重点是整合信息获取和对分析人员日益重要的提示工程。研究包括全面的文献综述,其中强调了人工智能在开源情报(OSINT)中的广泛应用以及相关挑战,如数据有效性和伦理问题。研究强调了即时工程作为一项关键技能的重要性,这项技能需要对大语言模型(LLMs)有深刻理解,才能生成经过验证的情报。本文提出了一个包含大语言模型(LLMs)的开源情报(OSINT)全生命周期模型。论文进一步讨论了为情报专业人员提供的批判性思维、搜索技术和即时工程方面的最新培训。研究结果表明,开源情报(OSINT)发生了值得注意的转变,突出了在情报收集中充分利用人工智能的持续研究和教育的重要性。
1.引言
公开信息的使用及其潜在益处已在历史上得到证明。开源情报(OSINT)的有效性在当代重大冲突中显而易见。例如,正如(吉布森和巴努瓦,1969 年)《外国广播监测服务》(FBMS)于 20 世纪 40 年代初建立。它被用来分析来自德国、日本和其他电台的宣传性无线电广播。战后,外国广播信息服务处在冷战和其他事件中发挥了至关重要的作用。它还被用作总统每日简报的来源之一,支持秘密行动,并成为核实人力情报(HUMINT)的有力工具。
开源情报是指确定并明确说明调查需求,合法收集公开可用的数据和信息,进行复杂的分析,并将分析后的信息综合为经过核实和验证的结论--情报。(北约,2001 年)指出了开源情报(OSINT)的四大类,强调了验证和核实过程的重要性:
1. 开源数据(OSD):OSD 是指原始印刷品、广播、口头汇报或来自主要来源的其他形式的信息。这类资料包括照片、磁带录音、商业卫星图像或个人信件。
2. 开源信息(OSIF):开源信息由经过编辑过程的数据组成,提供一些过滤、验证和展示管理。
3. 开源情报(OSINT): 开源情报(OSINT)是指经过有目的地发现、鉴别、提炼并传播给特定受众的信息:
4.经过验证的开源情报(OSINT-V):是指确定性非常高的信息。它可以由能够接触机密情报来源的全源情报专业人员制作。
开源情报(OSINT)并不是一门单一的学科,而是一系列相关的信息活动,为应对复杂的挑战提供独特的见解和解决方案。在许多文章、学术论文和灰色文献中,信息技术的发展往往被视为开源情报(OSINT)新方向的根本。如今,互联网全球网络中几乎无所不在的数据的可用性并不是唯一的因素,高效的数据和信息收集能力以及随之而来的先进分析能力也是人工智能快速发展的背景。本文重点探讨开源情报(OSINT)、生成式人工智能模型和相关活动(如提示工程)之间的关系,包括在人工智能背景下为开源情报(OSINT)定制模型。此外,本文还将分析个别国家在军事和战争中使用人工智能的活动。与此同时,对情报官员和分析人员分析和综合信息实体的新型教育方法的需求也在不断增加。这一要求不仅包括技术能力,还包括批判性思维能力的培养。
在过去的几个月里,学术界对人工智能主题的发表频率非常高。与我们领域相关的论文提出了人工智能(AI)与开源情报(OSINT)集成的多方面观点,强调了这一不断发展的领域的机遇和挑战。我们关注的是2022年至今的最新相关作品。(Govardhan et al., 2023;Iashvili和Iavich(2023)都强调了人工智能在通过开源情报(OSINT)增强网络安全方面的作用,分别解决了数据分析和渗透测试中的挑战。(Ranade, 2023;Yadav et al., 2023;Yaminet ., 2022),他们探索了人工智能组织碎片化开源情报(OSINT)来源的能力,并评估了网络安全场景中各种开源情报(OSINT)工具的有效性。这些工作共同强调了人工智能对网络防御目的的大量开源数据的综合和解释的关键作用。(al - dmour等,2023;Stone等人,2023)演示了人工智能在特定情况下的应用:战争条件下的放射性事件检测和自动化开源情报(OSINT)收集和管理。这两项研究都强调了人工智能在处理和分析大规模、多样化数据集方面的潜力,(Dale等人,2023)在聚合Twitter (X)数据用于网络安全情报的背景下也探讨了这一主题。正如(Arroyo等人,2023)所示,人工智能在开源情报(OSINT)中的潜力超出了网络安全范畴,他们开发了用于揭穿科学错误信息的人工智能支持工具。(Song et al., 2023)也强调了人工智能在打击错误信息方面的作用,他解决了虚假网络威胁情报的创建问题,表明人工智能在开源情报(OSINT)中的双重用途性质,(Klingberg, 2022;Ranaldi等人,2022;Riebe, 2023)探讨了人工智能在执法中的应用,特别是在监控暗网市场和反恐数字警务方面。他们的发现与(Watters, 2023)产生了共鸣,Watters概述了人工智能、数字取证和开源情报(OSINT)在网络反情报中的交集,强调了人工智能在执法和情报收集的各个方面日益增长的重要性。(熊猫和龙塔,2024;Suryotrisongko等人,2022)分别关注脆弱的社会群体和僵尸网络流量检测,使用人工智能和机器学习与开源情报(OSINT)结合来解决特定的威胁和漏洞。人工智能在开源情报(OSINT)中的定向应用强调了该技术对各种社会需求的适应性。(Kaswan et al., 2022;Katzner等人,2022)将AI和开源情报(OSINT)的应用范围分别扩大到保护生物学和智慧城市决策支持系统,突出了这些技术的跨学科潜力。(Evangelista et al., 2023;另一方面,Radoi, 2023)深入研究了开源情报(OSINT)中AI的更多技术方面,前者为谷歌HackingDorks开发AI方法,后者集成了一个GPT模型,用于在开源调查中进行有效的数据处理。最后,(Raina MacIntyre etal ., 2023)强调了人工智能在利用开源数据进行早期流行病预警方面的作用,展示了人工智能在开源情报(OSINT)中的公共卫生应用以及这种协同作用可以带来的更广泛的社会效益。
总之,这些论文共同说明了人工智能在各个领域(从网络安全和执法到公共卫生和环境保护)对信息安全的多样化和重大影响。它们还提请注意这些技术的伦理和双重用途问题,强调需要在这一充满活力的领域继续进行研究和发展。尽管在开源情报(OSINT)和人工智能(AI)的背景下进行了广泛的研究,但在理解大型语言模型如何作为独立实体在开源情报(OSINT)生命周期内实施方面仍存在巨大差距。
2. 开源情报(OSINT)和生成式人工智能视角
在本节开始之前,让我们首先定义一下 “语言模型 ”一词的含义。关于大型语言模型的工作原理、概念化和学习方法,在不同的资料中都有讨论(Kedia et al.,2024;Kojima et al.,2022;Meyer et al.,2023;Naveed et al.,2023;Ouyang et al.,2017;Zhao et al.,2023)。语言模型是一种计算机程序,可以预测句子后面的单词。这些模型采用统计和概率学习技术。统计方法和概率学习方法是人工智能领域的两种基本方法,有助于数据解释和预测。
2.1独立大语言模型的概念设计
在本文中,我们提出了开源情报(OSINT)情报周期的模型(图1),并在后面强调了提示工程及其对收集情报的重要性。这一过程始于用户(user):该类代表发起开源情报(OSINT)行动的个人或实体。名称和角色等属性使用户在操作中处于上下文环境中,而定义任务(defineTask)等操作则启动了情报周期。有必要指出的是,该模型并不对用户的资历级别进行排名,但正如后面将提到的,在该模型应用于情报周期之前,他们需要充分了解提示工程的概念或接受培训。
其次是情报主题(Intelligence Topic),它定义了具体的情报目标。任务 ID 和描述(Description)等属性赋予每个情报主题唯一的身份和细节。操作获取信息需求(get Information Needs) 将流程推进到情报收集的下一阶段。信息需求概述了需要哪些信息,而信息要求则把这些需求具体化为详细要求,从而决定了数据收集过程。这种模式尊重信息科学的观点,但也可以用一些情报部门来代替信息需求,情报问题随后反映在信息需求中。信息源(Information Sources)类确定了数据收集的潜在来源,其属性包括来源类型(ource Type)、数据类型(data Type)和信息类型(information Type)。预选(preSelection) 等操作可指导相关数据的选择,从而影响所收集情报的质量和相关性。更重要的是,该模型侧重于三种类型的外部信息环境:表层网络、深层网络和暗网以及内部知识库。数据、信息是我们的独立语言模型的燃料,必须在收集工作开始之前加以明确。
说白了,数据指的是未经处理的原始数据集,而信息指的是结构化程度较高但未经处理的数据。这两个类别对于建立全面的智能图景和推动预处理阶段都至关重要。源类型(SourceType)类的上下文对于所使用的收集方法至关重要。表层网络主要提供非结构化数据,如根据元数据元素或特定识别模式收集的社交媒体片段,而深层网络来源则提供大量隐藏数据和信息。此外,深网源需要对计划的自主抓取进行详细分析,并更新策略和频率。关于暗网,考虑到其不稳定性和变化率,尤其是.onion标识符,根据特定字符串和语言特点训练自主洋葱爬虫可能是明智之举。收集方法(CollectionMethods)类包含反映所有环境的数据收集策略。此外,我们还需要区分收集阶段的三个主要方向:
1. 全自动(从大量不同的数据源收集数据,将收集到的信号整合到预警系统中,以支持大规模调查,监测地缘政治冲突的发展、趋势,以及当地的异常情况、内乱、示威、骚乱、游行示威等,利用技术根据最初的输入或信息需求执行自主任务,进一步分析和警报系统)。
2. 半自动化(在必要的人工干预下收集数据和信息,但采用先进技术,如对特定目标的账户进行社交媒体监测,并进行额外的人工调查)。
3. 手动(调查需求需要严格的个人方法,如传统媒体研究、灰色文献检索等。其特点是高度的个人参与,通常依赖于开展调查的个人的技能和专业知识,而不广泛使用自动化工具或系统)。
收集到的数据和收集到的信息都是属性,预处理操作会导致数据细化,从而影响情报循环的准确性。 此外,预处理还负责对收集到的数据和信息进行清理、转换和规范化。清理数据、转换数据和规范化数据等操作可确保数据的可用性,直接影响情报收集的有效性。 处理包括分析和解释预处理数据。 处理的质量决定了情报的可靠性,并影响用户的后续决策。实体类代表经过提炼的、可随时处理的情报分析要素。这些实体进入模型训练阶段,影响训练后的大型语言模型(LLM)的范围和重点。模型训练数据专门为训练独立的大型语言模型(LLM)准备和构造数据。 训练模型操作定义了大型语言模型(LLM)的训练效果,影响其后续情报生成能力。
2.2 提示和提示工程
在人工智能和计算机编程领域,“提示”(prompt)是由用户发出的指令或询问,以引起系统的特定响应或反应。在使用人工智能(如 GPT-4 或其他生成模型)时,提示通常采用文本查询或指令的形式,指明所需的反应或模型的输出。提示可以是简单的,也可以是复杂的。简单提示通常以问题的形式出现,例如 "法国的首都是哪里?另一方面,复杂的提示涉及具体的指令或要求,如 “写一个科幻小说风格的太空探险短篇小说”。提示的质量和具体性会对人工智能响应或输出的质量和相关性产生重大影响。在计算机领域,“提示 ”一词指的是能引起用户或系统做出响应或行动的任何请求或指令。
3. 提示工程的现实意义
提示工程涉及创建有效的提示,如教学人工智能模型,从而为各种任务提供准确、创造性和高效的结果。尽管提示工程看似一门新学科,但其起源可以追溯到遥远的过去。这主要是由于人们能够提出相关的实质性问题,或者从图书馆学或信息科学的角度来看,人们能够在图书馆目录、大型数据库系统和其他信息资源中查询或创建语法,从而使这些系统能够返回最佳数量的信息,以满足我们的 “信息需求”。在上述科学中可以找到与 “信息需求 ”最接近的术语。
根据(Brown 等人,2020 年)的观点,提示工程是一个旨在利用人工智能模型(LLMs)的能力和容量进行上下文推理而无需微调的领域。首先,作者划分了学习这些模型的三种主要方法(Brown 等人,2020;Kojima 等人,2022;Wei 等人,2022)。这些方法包括 “零次学习”(zero-shot learning)和 “少量学习”(few-shot learning)。“零次学习 ”是指只给模型指令,要求它在没有事先示例的情况下完成任务;“少量学习 ”是指给模型示例说明任务,然后要求它通过生成自己对类似结构问题的答案来完成类似任务。让我们把 “一次性 ”方法也归入这一组。思维链模型被要求在提供多步骤问题的最终解决方案之前生成中间答案。这种方法的目的是模仿解决问题的多步骤直觉思维过程。Wei等人,2022)也对此进行了详细讨论。需要指出的是,自(Brown 等人,2020 年)发表以来,又出现了其他相关方法。promptengineer 及其特性也值得讨论。首先,让我们介绍一下及时工程师的活动,其主要特征如下:
根据(Brown 等人,2020 年)的观点,提示工程是一个旨在利用人工智能模型(LLMs)的能力和容量进行上下文推理而无需微调的领域。首先,作者划分了学习这些模型的三种主要方法(Brown 等人,2020;Kojima 等人,2022;Wei 等人,2022)。这些方法包括 “零次学习”(zero-shot learning)和 “少量学习”(few-shot learning)。“零次学习 ”是指只给模型指令,要求它在没有事先示例的情况下完成任务;“少量学习 ”是指给模型示例说明任务,然后要求它通过生成自己对类似结构问题的答案来完成类似任务。让我们把 “一次性 ”方法也归入这一组。思维链模型被要求在提供多步骤问题的最终解决方案之前生成中间答案。这种方法的目的是模仿解决问题的多步骤直觉思维过程。Wei等人,2022)也对此进行了详细讨论。需要指出的是,自(Brown 等人,2020 年)发表以来,又出现了其他相关方法。提示工程师及其特性也值得讨论。首先,让我们介绍一下提示工程师的活动,其主要特征如下:
根据情境和信息需求设计、构建、测试和优化提示。
根据信息需求实现人机交互的相关结果。
不断审查提示信息的开发、结构、概念和功能。
说到这里,我想指出人在与计算机交互过程中的基本作用。显然,人的知识、经验和直觉会影响任何模型的结果。当然,提示工程领域还需要探索和明显的发展,但我希望消除人们对人工智能取代工作角色的担忧。事实上,以人类目前的进步来看,这些角色只会发生变化,或者出现新的角色。归根结底,就人类智力活动、成果和知识产权而言,人类的创造力似乎才是未来的主要价值。所有这一切都突出表现在人的关键素质上:学习能力、适应新条件的能力和创造能力--这些都强调了开源情报(OSINT)分析人员的关键特征。根据(Bsharat 等人,2023 年;Contentify,2023 年;OpenAI,2024a;OpenAI,2024b;Park,2023 年;Saravia,2023 年;W3Schools,2023 年),包括我们在 ChatGPT 和 GPT-4 中对密码进行的大量实验,我们可以总结出以下构建有效密码的规则。
1. 直接指令:直接指令:详细说明人工智能确切任务的直接指令。
- 开源情报(OSINT)视角示例:“分析以下 URL 列表,识别潜在的网络安全威胁并报告任何可疑活动。
2. 角色扮演:为人工智能指定一个特定的角色或职业角色,让人工智能在响应中体现出来。
-开源情报(OSINT)视角示例:扮演数字取证专家。调查该用户名在各种平台上留下的数字足迹,以发现任何非法活动。
3. 创造性地讲故事:引导人工智能按照设定的参数构建叙事或故事。
- 开源情报(OSINT)视角示例:创建一个假设场景,从私人论坛泄露的信息导致重大数据泄露,并详细说明泄露的过程。
4. 探索性问题:使用开放式问题从人工智能中获取详细的信息回答。
- 开源情报(OSINT)视角示例: 在发生重大企业数据泄露事件后,暗网市场的流量突然增加会产生什么影响?
5. 比较分析: 要求人工智能比较和对比不同的项目或概念。
- 开源情报(OSINT)视角示例: 比较两个可疑账户的在线行为模式,以确定它们是否由同一人操作。
6. 创意生成: 利用人工智能集思广益,提出创意、解决方案或创造性概念。
- 开源情报(OSINT)视角示例:列出可用于追踪匿名举报者指控来源的潜在开源工具和技术。
7. 教学指南:向人工智能询问各种主题的分步说明或教程。
- 开源情报(OSINT)视角示例: 提供使用高级搜索运算符过滤社交媒体帖子中与正在进行的调查相关的特定关键字的教程。
8. 个性化推荐:根据特定偏好或标准寻求量身定制的建议。
- 开源情报(OSINT)视角示例: 根据我对欺诈性在线市场的调查,推荐跟踪加密货币交易的最有效数字工具。
9. 辩论和说服: 让人工智能参与讨论,提出不同方面的论点。
- 开源情报(OSINT)视角示例: 对在 OSINT 调查中使用黑客数据的道德考量进行正反两方面的论证。
10. 反馈和评论:要求人工智能对创意作品或想法进行评估、反馈或审查。
- 开源情报(OSINT)视角示例: 审查已汇编的高知名度网络罪犯档案,并就可能被忽视的其他调查途径提出建议。
4. 开源情报(OSINT)专家的教育需求
所提出的模型结合了传统的情报周期,反映了批判性思维、高级搜索技术和策略、实体分析方法以及理解和利用新的生成式人工智能方向的要求。这一点在积极发展的提示工程领域得到了强调。它突出了在隐性知识和终身学习的基础上创建提示的重要性,以便进行相关的、经过验证的开源智能。更新教育方法的机会显而易见。文章提出了针对情报官员、分析人员、搜索人员和其他专家的培训小组,包括批判性思维、人工智能和大语言模型(LLM)以及提示工程。
4.1 批判性思维
稍后,我们将讨论提示生成如何与基于知识提供细致指导的能力密切相关。此外,还必须避免信息过载,因为信息过载会妨碍成功和负责任的分析,从而产生经过验证的智能。这包括以下关键活动
培养信息素养
练习理性阅读(快速阅读)
研究方法
搜索战略和策略
4.2 人工智能和大型语言模型
人工智能的历史让我们深入了解了智能机器的本质,并突出了与机器学习和深度学习、生成模型和微调语言模型相关的重大机遇和风险,包括对显而易见的风险的认识。
其中包括关键活动:
人工智能的历史视角
人工智能中的统计和概率方法
大型语言模型
优化训练数据
训练语言模型
微调原则
人工智能伦理与监管机制
4.3提示工程背景下的开源情报(OSINT)
在使用我们的独立模型原型的背景下,快速工程被认为是培训安全和军事部门人员的关键领域。以下活动有助于获取未来开源情报(OSINT)能力和机会的关键能力:
1. 强调即时工程在情报收集中的重要性和应用,并全面理解开源情报(OSINT)方法。
涵盖关键概念,工具和道德考虑涉及到实践开源情报(OSINT)
先进提示工程技术
探索为开源情报(OSINT)任务量身定制的提示构建的复杂性。专注于优化查询以检索准确和相关的信息。
2. 批判性地分析和评估人工智能生成的信息
练习评估人工智能生成的输出所需的批判性思维技能。识别数据中的偏差、不准确和“幻觉”。
3. 动手应用和案例研究
参与实际项目和案例研究,需要在各种情报行动中应用所学的开源情报(OSINT)和技术技能。
5. 结论
在论文中,我们提出了一个模型,用于为各种情报任务使用独立的大语言模型。核心概念来自传统方法。它从准备阶段开始,包括信息需求和要求的定义,信息源、数据和信息收集的识别,然后进行预处理和处理操作,以获得准备好的数据集,用于训练大型语言模型。更重要的是,我们看到开源情报(OSINT)分析师作为高级提示工程师的重要作用,他们能够为独立的模型构建相关的、结构最优的提示,从而将经过验证的大语言模型见解转化为经过验证的开源情报。基于这些前提,我们提出了以开源情报(OSINT)流程为重点的军事、执法和相关安全角色的三种基本培训路径。根据当前处理数据、信息和人工智能生成内容的趋势,我们确定了批判性思维过程中的教育需求,包括信息素养和理性阅读的发展,其次是人工智能方面,包括历史、统计和概率方法、模型训练过程、微调和使用人工智能模型的道德方面。最后,我们看到了快速工程领域的关键培训需求,主要是为了提供高质量、无偏见和无幻觉的答案,以便向利益相关者提供经过验证的情报。
6. 未来的工作
在我们的独立开源情报大模型(OSINT LLM)原型的背景下,我们希望为开源情报(OSINT)数据和信息实体设计一个本体,以便为不同的情报任务持续构建相关的训练数据集,从而应用于不同的情报活动领域。此外,我们意识到人工智能世界的动荡变化,因此我们想为专注于军事和安全部队的专家研讨会准备一个可定制的教学大纲。