【论文】开源情报及其在下一代网络安全中的应用---文献综述

【论文】开源情报及其在下一代网络安全中的应用---文献综述
2022-1-5 22:15:57 Author: mp.weixin.qq.com(查看原文) 阅读量:105 收藏

今天给大家推送国际应用工程与管理杂志2021年8月的文章《开源情报及其在下一代网络安全中的应用---文献综述》。

【摘要】

目的：研究是新思想的跳板，学术研究始于文献回顾。本文综述旨在熟悉研究领域，建立工作的可信度。它还有助于主题的整合和总结。

方法：从期刊、会议记录、书籍、在各种知名出版物上发表的研究论文等多种次要数据来源收集关于所选主题的必要文献，然后列出与工作相关的文献。通过阅读每篇论文和根据需要做笔记，仔细评估入围文献。然后分析所收集的信息，以便识别在所选主题中可能存在的问题区域。

发现/结果：已经观察到，所选择的主题，OpenSourceIntelligence(开源情报)实践需要来自AI及其子领域的更有效和智能的解决方案。开源情报的情报分析能力加强了机器学习和自动推理技术的紧密结合。为了避免人为错误，在决策中对人类的依赖应该减少。为了消除任何不正确的信息，真相发现过程是强制性的。开源情报能够通过关联来自其他开源情报来源的情报来发现新的知识。尽管人工智能已经进入了开源情报领域，在开源情报（OSINT）为备受期待的Web 3.0做好准备之前，还有很长的路要走。

独创性：利用从各种在线来源收集到的次要数据进行了文献回顾，并以新知识形式衍生出来，为今后的研究构建理论框架和方法。已经确保，任何判断或决定都不是以有偏见的心态或在任何预先确定的心态的影响下作出的。已作出一致努力，确定一个研究专题，供进一步调查。

论文类型：文献综述。

关键词:开源情报，人工智能，NLP，网络安全，机器学习

1.导言：

二十一世纪，由于技术进步和大量创造性应用的发展，网络空间发生了许多变化。博客网站、社交媒体、照片共享和视频共享只是二十一世纪初启动并迅速获得广泛欢迎的创意应用程序的几个例子。使用这些平台，最终用户能够与其他用户发布和共享资料。上传的数据不限于照片和视频；习惯于在线平台上表达自己的思想、意见和感受，导致大量数据在web空间中累积。智能手机的引入和3G互联网连接的可用性极大地普及了这些平台，为这些应用提供了创纪录的用户基础。人们的生活与社交媒体有着千丝万缕的联系。与此同时，云计算的发展促使商业社区采用这种服务。这时，最传统的服务，如报纸、图书馆、账单支付、政府以及教育部门已经实现了数字化，并将他们的所有数据存储在网络空间上。

许多组织认为，网络空间由于数字转换而积累的数据是一个金矿，因为它本可以转化为知识和情报。因此，OpenSource Intelligence(开源情报)，一个半个多世纪以来用来从公开可用的数据中提取有意义的情报的做法，以前曾被国防人员使用，重新获得了广泛的流行。开源情报收集公开可用的数据，对其进行处理，然后将其转换为开源情报从业人员和其他商业部门要求的知识。可以浏览与社交网络非常类似的在线社区。开源情报评估这些论坛的帖子和主题，因为它们产生迷人的互动。

开源情报和其他任何情报系统一样，有自己的系统方法来收集数据、清理、分析和传播数据。随着公共领域开源数据数量的增加，开源情报过程中人工智能的必要性变得明显。开源情报采用的方法是为了解决广泛的问题。这些主题解释了正在解决的问题，以及求解者如何使用它们，很难发现、提取和分析人们上传的非结构化数据的所需信息。文本挖掘、模式匹配、实体提取、自然语言处理和机器学习都获得了很大的吸引力，并使开源情报从业者的生活变得更加轻松。复杂的网络、云计算和大数据都对现代开源情报做出了重大贡献。精确、可靠、及时，最重要的是，获得竞争优势是评估情报的标准，包括开源情报。

开源情报近年来已扩展到许多领域，使其在许多应用中不可或缺。对于开源情报的需求与日俱增，采用率也是如此，因为它较便宜，没有风险，并且基于公开的数据。开源情报具有产生独特和新颖的数据和见解的潜力，但也有技术、政治和伦理问题以及必须妥善解决的障碍。

企业依赖开源情报(OSINT)进行市场预测、竞争者分析和客户情绪分析等各种目的，而执法机构则负责对罪犯和极端分子进行画像、对犯罪活动进行取证分析。而在网络安全领域，开源情报(OSINT)也被用于发现信息技术基础设施中的漏洞(Azevedo)这突显了当前开源情报工艺中潜在的技术差距。

对文献的综述是基于从大量发表在《joumals》和在线来源的论文中收集的次要数据。本文涵盖的主题如下：

(i)开源情报的各个阶段，

(ii)开源情报系统的现状，

(iii)开源情报在网络安全中的应用，

(iv)相关工作概述，

(v)讨论和未来工作，

(vi)研究差距，

(vii)研究议程，

(vii)研究议程的分析，

(ix)研究提案，

(x)研究提案SLOC分析，

(xi)结论。

2.研究目标和方法：

在开源情报使用人工智能不仅提高了过程的可靠性，而且提高了过程的速度。在开源情报工具中已经使用了一些AI子工具，但是必须研究AI能力的实现程度和最佳使用。文献综述的目的是更好地了解开源情报的当前状态并识别依赖它的应用。还研究了人工智能与开源情报的整合及其在网络安全中的作用。该项目的目标是了解开源情报对于 Web 3.0 的准备情况，这将允许创建一个全球数据仓库，其中可以共享和解释任何数据格式，而不管任何网络上的任何设备。

（1）. 哪些类型的应用程序使用开源情报？

（2）. 他们依赖开源情报是什么？

（3）. 开源情报向其他部门提供哪些服务？

（4）. 人工智能在开源情报扮演什么角色？

（5）. 已经开展的众多开源情报和网络安全项目是什么？

（6）. 有什么方法可以提高开源情报框架的效率？

3.开源情报概述：

开源情报(OSINT)是从公开可用的数据来源收集的情报，如学术出版物、joumals、社交媒体网站、在线社区和报纸等。开源情报是在第二次世界大战期间为间谍目的开发的，开源情报在现代时代由于互联网革命而越来越受欢迎，这导致了互联网上大量数据的积累。社交媒体帖子、博客、joumals、发表的文章、报纸、视频音频文件、在线论坛、讨论组、公司网站、政府文档、地图，等等都是现代开源情报的数据源。政府和情报部门越来越依赖开源情报进行调查和打击网络犯罪。

开源情报不仅发现和收集信息，而且从微博站点搜索、选择和提取相关材料，然后分析该信息以提供情报报告。开源情报采用系统化的方法来提取有价值的情报虽然可信度是检索结果的一个重要属性，但它并不能保证任何归档信息的准确性。因为网络空间在不断演变，任何研究的结论都只与进行研究的时间周期相关，并且正在使用的工具的功效也起着重要的作用，这常常超出了从业者的范围。

整个开源情报采掘数据：可以从网站收集数据，使用搜索引擎，如dukduk，shodan和其他。数据处理阶段主要确保不期望的信息被移除并且原始数据被转换为有意义的数据。必须出于适当理由收集数据，以便收集更多的数据，而不是真正必要的数据。数据开发阶段，也称为分析阶段，负责验证处理的数据的真实性和可信性。在分析和解释阶段，将开源信息和数据转换为开源情报，分析旨在实现三个目标：空间意识、情境意识和一些初步预测。

用于数据分析的一些方法包括词汇分析、语义分析、地理空间分析和社交媒体分析。源自开源情报过程的情报在数据提取阶段传递。开源情报从业者使用诸如Maltego、Foca、Shodan和Spiderfoot的工具。非结构化数据是缺乏预定义数据模型并且因此不能由常规计算机程序处理的信息。开源情报可用于任何领域，包括网络安全、取证分析、风险评估等。非结构化数据、互联网上的虚假信息、以及法律问题是开源情报面临的一些挑战。网络空间的公开信息基本上是无组织的。这表明开源情报的源数据非常多样化，很难对其进行分类。多亏了能够处理如此巨大数据的大数据和云计算。开源情报具有许多优点，包括风险小、便宜且易于获得，将人工智能技术并入开源情报的各个阶段提高了其准确性和性能。

4.文献综述

自二十年以来，大量的研究人员开源情报领域发表了论文。随着科技的进步，开源情报也在不断发展。由于社交媒体平台的演变，在公共领域积累了大量数据，吸引了包括商业公司、反社会分子、政府机构、执法机构等在内的许多行为者，为了他们的利益，整合了开源情报。由于互联网无障碍性，人们现在可以很容易地找到和发布任何类型的信息。

Lee&Shon提出了一个基于开源情报对关键基础设施进行网络安全威胁检查的新框架。该框架包括四个步骤：制定开源情报计划、准备开源情报、从开源平台收集信息、以及生成安全情报。

Hayes&Cappa已经证明，开源情报可用于对该公司进行风险评估，以防止对其重要基础设施的潜在网络攻击。进行了漏洞评估和各种此类开源情报分析程序，以便提供公司的网络、应用程序、设备和关键的IT资源。

Wiradarma&Sasmita提出了探索网站漏洞的类似方法，在渗透测试的信息收集阶段，开源情报工具如Maltego和其他工具被用来获取关于受害者的数据。通过将信息与开源情报、渗透测试和ISO31000风险评估标准相结合，创建了系统改进建议。

Vacas概述了使用从开源情报免费获取的威胁情报数据来提高入侵检测系统的准确性和能力的方法。从开源情报数据的处理到数据的聚合和关联到创建LOA的整个过程都是自动化的。黑名单和IDS规则使用这些LOA创建，然后导入IDS。作者构建了IDSoSint系统，并用几个UL链路的生产流量进行了测试。研究表明，开源情报数据可用于产生描述威胁情报知识的新方法，并可用于防御系统。

Lohnsen和Franke讨论了他们关于潜在Dirichlet分配(LDA)的文本预处理需求和文档形成的研究。预评估阶段的数据清理将有助于开源情报的分析和产生可靠的结果。

Herrera-Cubides进行了一项研究，旨在研究开源情报平台研究和研究材料生产的演变。这一分析着眼于开源情报的两个物质来源，例如研究知识分布数据库和与教育资源有关的存储库。该研究为学者们提供了当前开源情报研究和教学水平的路线图，以及宝贵的元数据描述，以使资源在教育生态系统中更容易获取和可重用。

Fleisher提出了一份概念性文件，说明开源数据和信息的日益普及如何影响竞争和营销情报。这是一篇描述性的概念性文章，从对竞争和营销情报、情报处理和市场分析的三个未分类的材料集合的审查中构建论点。

本文描述了它们在利用这些数据时遇到的问题，以及某些公司在竞争和营销情报领域分析过程中引入和整合开源方面表现出的有效策略。可以看出，这项研究是从市场分析员的观点和从开源情报获得的情报对于改进市场努力的益处的观点进行的，而不是从专门收集所述数据的个人的观点进行的。

Magalhaes&Magalhaes建议使用TExtractor，这是一种开源情报工具，可以让收集细节更容易理解网络威胁。TExtractor是从公共来源的视频/音频中提取文本并搜索与有害行为者的活动相关的关键词的工具。研究揭示了这样的TExtractor工具可以实时地发现对音频/视频源的网络攻击的暗示，精确度为60％至70％。

TExtractor还可以用于跟踪品牌或自动化剪辑过程，这涉及在音频或视频频道中找到品牌或产品参考。

Kanta研究了开源情报(OSINT)用于更有效的密码破解的可能性。本文就强密码、密码破解、开源情报等相关文献，以及这些课题提出的法律问题进行了详细的综述。对影响密码选择的密码复杂性和人口统计学特征进行了研究。最后，探讨了开源情报执法对密码破解的影响。

Kang为量化网络威胁，给出了网络攻击数据库中网络威胁的评估变量，并分析了网络威胁因素的优先级。作为网络威胁的评估变量，他选择攻击的目标、攻击类型、目标、攻击方便、攻击耐用性、开源情报数据库的频率、以及每个组件的最低层的元素。每个元素的优先级在选择之后仅通过利用层次分析法来评估。

4.1 开源情报阶段：

为了给目标提供有用的情报，开源情报遵循一种精准而精确的方法。CIA的《情报循环》和《情报研究》以略微不同的方式描述了这个过程，但是两者都有共同的收集、处理、分析、生产和传播，后者增加了分类，前者增加了规划和指导，作为额外的步骤。

4.1.1 收集数据

数据是开展任何情报活动的重要资产。和其他任何情报方法一样，开源情报在很大程度上依赖于数据，这些数据是从公开的来源提取的。在这一阶段，必须确定数据源和要收集的数据类型。Gibson 介绍了从业人员可从公共来源获取信息的一些战略，以及获取信息的理由。在本章中，作者着重于收集公开可用的数据，这符合以情报为导向的战略，因为他认为自动化数据收集方法可以在此阶段带来最大的益处。然而，提交人称，对于独任调查员而言，自动化方法能够加快对他们极为有益的人工搜索，并将努力强调人工程序可以转化为自动化程序的领域。本文还讨论了用于开源情报的数据类型和数据源。结构化数据是存储在任何关系数据库中的数据，非结构化数据是网页、日志、图片、视频和音频。这两个数据表格都详细处理。

Quick 提出了一个数据量减少方法，重点是对一些重要文件和数据进行成像，包括系统注册表、数据文档、表单、电子邮件、浏览器历史、对话、日志、照片、视频和其他基本文件类型。当应用于测试场景时，实际媒体量减少了一百倍。数字取证数据减少程序可用作筛选工具，以快速理解数据，并确定媒体或机器可能包含应首先调查的可能证据。如果在子集的第一次检查期间识别基本信息，则数据缩减方法可以减少对分析的需要。

文本挖掘是从各种来源的非结构化数据中提取有用信息、情报或模式的技术。将非结构化数据的词和短语转换为数值，将数值映射到数据库中的结构化数据，并使用旧的数据挖掘技术进行了研究。由于本研究的结果，一些工具只读文本文档，并且考虑了一定数量的字符。当考虑所有因素时，Nlpdotnet令牌化器比其他工具产生最大的结果。

4.1.2 数据处理

处理步骤主要涉及从在数据收集阶段期间接收的原始数据中验证和去除噪声，以使其可用于分析。过滤无关数据，将文本从另一种语言翻译成英语，将照片、音频和视频文件转换成有用的数据等等，都是在处理阶段执行的任务。从开源获取的大量数据使得难以解释和汲取有用的见解，从而需要增加处理能力，例如云存储和大数据计算能力。Ji概述了关于云计算领域的大数据处理的有条不紊的研究流程，并讨论了云存储和计算体系结构、主要并行处理框架、关键应用和MapReduce优化等重要概念。在MPI、通用GPU(GPGPU)、MapReduce和类MapReduce等最突出的并行处理模型中，研究了MapReduce在处理大量数据时如何提高性能。文中还讨论了在处理大数据时如何采用算法和并行化技术来提高可扩展性和性能。

Milne&Witten提供了用于挖掘维基百科大量语义知识的多语言、高效工具包。这个开源工具包使开发人员和研究人员能够将维基百科的大量信息资产用于他们的项目中。除此之外，它还生成包含维基百科结构和内容的压缩版本的数据库，以及用于访问它们的JavaAPI。维基百科上的页面、类别和重定向表示为类，可以快速搜索、查看和重复。Wikipedia转储、基于XML的Web服务、注释特征和语义相关措施的并行化处理是先进的功能之一。WikipediaMiner是一个可以共享数据挖掘技能的地方。

Gong提出了一种分析数据可靠性和有效性的新模型，该模型利用对网络威胁情报数据的比较分析，并提供了一套评估提供网络威胁情报数据的馈源可靠性的标准。提出了一种利用网络开源情报威胁情报源分析数据可靠性的新模型。

4.1.3 数据的利用

利用也被称为分析阶段，负责确定在前阶段处理的材料是否是它声称的，以及它对情报界的价值。开发阶段包括三个步骤，如认证、可信度评估和上下文化。验证信息的真实性和可信性对于发展可信知识至关重要。背景化需要从任何源头将几个开源信息片段组装成输出，从而全面理解主题。最常见的分析方法是词汇分析、语义分析、地理空间分析和社交媒体分析。

(1) 词汇分析

词汇分析是一个收集和分析大量来自互联网的文本的程序。在Google上识别频繁搜索的词组是词法分析的直接应用。更先进的系统试图推断使用社交媒体的人的信息，例如人口因素。

Baldini讨论了开源情报的多语言文本挖掘平台，该平台由联合情报和电子战培训中心选定，为开源情报学科中的意大利国防军和文职人员提供装备。多语言词法分析允许自动索引、易于导航和论文分类，而不管其语言或论文的来源。这种方法允许情报分析人员对大量异质材料进行搜索、分析和分类，帮助他们破解信息迷宫。

Denecke提出了两种主要方法：基于SentiWordNet的多语言句法和基于SentiWordNet的语义分析(SentiWordNet)的语义分析(SentiWordNet)。第一个例子表明，当部署到多语言场景时，意见挖掘提出了独特的问题。这一战略是不够的。事实上，作者指出，统计技术需要以多种语言分发或甚至缺席的培训课程。事实上，词汇方法需要特定语言的词汇和语言资源。创造这些资源需要很长时间，往往需要人工劳动。后一种方法基于SentiWordNet。本文提出了一种在多语言框架下评估文本词性的方法。该方法利用英语词汇资源进行情绪分析。首先，使用常规翻译软件将用英语以外的语言编写的文本转换为英语。然后，根据译文的情绪：“积极”或“消极”，将译文分为两类。为了对情绪进行分类，文档被扫描以查找带有情绪的术语，例如形容词。SentiWordNet用于计算这些单词的正确性和负性评级。然后通过对评级的解释来确定纸张的极性。作者通过亚马逊对一部德国电影的评论，对这项策略进行了测试，发现该策略是有效的。该方法与基于n图的统计极性分类器进行对比，并使用从Amazon收集的德国电影评论进行评价。根据研究结果，结合已有的情绪分析方法和标准技术是在多语言环境中进行情绪分析的一种简便方法。

(2) 语义分析

语义学是语言学的一个子集，它研究语言的意义。在自然语言处理的语境中，语义分析评价并反映人类语言，分析用英语书写的词汇，以及带有类似人类解释的其他自然语言。

Golestan展示了一种信息融合方法，其能够将来自基于人类来源的数据与来自物理传感器的信息相结合。该模型是在作者前期工作的基础上建立的，是对多实体贝叶斯网络语言和语义分析的模糊扩展。

Hassan针对缺乏全面的语义信息用于最佳语义理解的问题。该方法需要首先确定软件需求表示的相关性，然后确定语义分析的影响。这是通过使用明确创建的语义结构来分析和解除数据的歧义来实现的。针对语义信息不可用于增强语义分析的问题，提出了相应的策略。系统的体系结构是建立在语义技术之上的，语义技术可以结合到程序的文档和执行中。研究回顾指出，通过调整当前必要的生态系统概念，并利用这些概念设计有益于对软件平台进行知识管理的实验和程序，在已用框架中结合了从现有软件基本文档收集的情报和从现有应用程序获得的知识，该框架以语义技术为中心。所提供的技术证明，现存的本体可以被调整和组合，以帮助知识管理、设计系统和进行实际软件需求的测试。

Wang提出了一种深入分析语义内容提取方法的方法。本文提出了一种利用tf-idf和词向量距离进行网站裁剪的新算法。本文还提出了一种语义云生成模型。Sleimi提供了一种语义法律元数据技术，允许用户了解和掌握法律条款。发现一致的法律要求需要使用元数据。关于如何评估元数据的完整性的信息很少，这对于正式的规范分析至关重要。关于确定元数据一致性用于形式规范分析的文献很少。此外，语义法律元数据提取过程自动化能力本身没有得到充分利用。它没有充分利用自然语言处理。

Gupta提出了构建智能查询框架的方法，该方法允许最终用户构建他们自己的初始问卷。该系统包括模块，该模块将英语短语转换为可用于响应客户请求的类似SQL的查询。其结果是，通过简化研究工作，减少了工作量。

(3) 地理空间分析

在环境研究中，地理空间分析是指利用地理数据来发现在地理上和时间上均参照的环境重要信息。地球空间分析的基本功能包括环境威胁识别、污染物随时间的扩散跟踪、海洋温度、酸化等环境因素的模式研究、不同环境特征与地点的关联等。地理空间分析尤其指取决于地理的数据转换。地理信息系统、遥感、全球定位系统、元数据、遥感和地理参考是这类分析中使用的一些技术。地理空间分析技术广泛应用于气象相关风险、城市规划与开发、隐蔽运营、自然资源开发等领域。用于地理空间分析的数据来自多种来源，诸如上传到社交媒体的图像、移动设备数据、以及详细GPS、用于构建有意义的智能的信息立体定位传感器。

Thakur介绍了Planet Sense，这是一个革命性的分布式处理系统，为地理空间情报提供端到端功能，从收集原始数据到实时提供可采取行动的见解。该设计是可扩展的，以允许渐进的信息收集和集成与不同和老化的数据源。该平台由四个关键组件组成，如GeoDataCloud(一种存储和管理不同数据集的体系结构)、实时流数据获取方法、数据与分析平台以及通过网站和RESTfulAPI进行演示和显示。

Yueet利用地理空间语义和服务，本研究提出了一种基于工作流的发现复杂地理空间特征的技术。从图片获得的基本特征存储在可以通过目录服务访问的Web特征服务中。研究结果显示，复杂特征布局可以通过定位其组成特征之一来确定，该特征遵循与其他特征的精确空间相关性。工作流方法有助于各种复杂特征的发现计算过程的形式化。透明、动态和互操作都是使用服务技术的优点。

Triglav将时空评价矩阵和时空预测矩阵的指标作为评价时空质量的工具。地理空间数据制作者可以利用这两个简单的工具来系统地分类和显示其时空数据的精确性，并且消费者可以使用商业智能概念和Web2.0策略以同样的方式传达他们的需求。本文阐述了研究的基本原理和各种实例，并展望了未来的应用研究工作。

(4) 社会媒体分析

从人们的社交媒体平台上收集最基本的信息并得出实际结论的做法被称为社会媒体分析。正在分析的信息来自人们以前的帖子，与他们的追随者的对话，以及早期的社交媒体倡议等等。社交媒体分析的目的是获取个人态度和偏好的宝贵信息。大多数用户使用社交媒体通过短信或帖子来表达他们的情绪，如快乐、愤怒、同意、不同意和烦恼等。当个人在社交媒体上提到或谈论商业或产品时，情绪分析方法可用于确定他们使用的短语背后的情绪或情绪。该词的个人用来表达自己关于场景、事件、产品、品牌、公司或其他主题的详细分析将提供关于所审议的主题的公众意见。组织可以利用社交媒体分析发现消费者偏好和投诉的共性，以及在线谈论某个个人、企业或事件，如果他们拥有正确的工具。

D'Avanzo&Pilato使用一种实用的方法来解决客户期望与产品/用户评论之间的脱节。作者使用流行的协作学习模型来实现这一点，模拟两个或两个以上个体学习或努力学习某物的场景。这样，在线购物者利用所提议的贝叶斯社会情绪分析工具在彼此的能力和才智之间占优势，并且集体地征求彼此的意见以便进行购物。新技术从特定类型的市场收集用户反馈，并在视觉上总结该反馈，以便减轻客户超负荷，加快他们的采购体验。这一策略已经在手机和时装零售商的Facebook网站上使用。

T.K 在本研究中利用强大的机器学习技术全面地概述了社交媒体分析的不同应用。作者首先在透彻地概述用于社交媒体分析的机器学习方法之后，提供了用于社交媒体分析的机器学习算法的概述。探讨了在社交媒体分析中使用机器学习的障碍和益处。最后，他们讨论了社会媒体分析中未解决的困难和隐含问题，为今后的研究作准备。

4.1.4 知识的生产-提取

开源情报的最后阶段是向消费者提供有意义的情报报告。由于报告将是全面的和高度优先的，因此可以直接与司法机构、执法机构和其他有关各方分享。在生产阶段还指定开源情报产品的分类级别。收集、分析和利用数据的细节可能需要更高的分类水平。分配是生产阶段的重要组成部分。共享开源分析的最常见方式是通过正式报告。另一方面，产品可以是口头说明或视觉表示的形式。Al-khateub&Agarwal 使用了许多社区版本工具，如Maltego工具，提供了数据收集和图形功能，使审查数据更容易。Maltego是少数几个能够从多个来源收集数据并以方便的方式呈现数据的有用的应用程序之一。其他的工具有Gephi、蜘蛛脚、Lampyre等。

4.2 用于开源情报的工具：

在本研究中，开源情报工具被用来获得关于其潜在目标的智能。当分析师使用正确的OSNIT工具时，他或她可能会给出更准确的情报报告。开源情报技术使用人工智能来定位互联网上的机密数据。OSNIT工具实现了三个功能，但是每个功能都侧重于不同的方面。首先，查找公众可见的资产，然后从组织外部收集敏感细节，最后将其转化为有意义的情报。开源情报工具被分类为那些同时查询大量搜索引擎的工具，比如社交媒体搜索引擎、域和人类搜索引擎等等，以及那些为大数据分析平台设计的工具。Chauhan&Panda讨论了许多情报相关部门的专家经常使用的一些自动化工具和在线应用程序，特别是信息安全用于进行调查。作者介绍了开源情报工具的各个方面，从部署到理解它们的接口，以及它们的功能和使用。一些被评估的程序有一个图形用户界面，而其他程序只是命令行。作者讨论了下列工具。

(1) Creepy

Creepy是一个Python程序，它使用照片中的EXIF信息来检索地理位置并将其显示在地图上。

(2) TheHarvester

开源情报应用程序，能够从公共来源提取有价值的信息，例如人的姓名、电子邮件地址、保持开放的端口、计算机和网络设备横幅、组织子域和其他重要信息。

(3) Shodan

搜索引擎允许用户在Intemet上进行设备搜索，并提供过滤器帮助用户缩小他们的结果。

(4) Search Diggity

一种为几个搜索引擎提供庞大查询数据库的工具，可用于获取与目标有关的犯罪信息，并具有广泛的选项。

(5) Recon-ng

这个框架帮助所有开源情报狂热分子以自动化的方式实施不同的侦察阶段。它主要侧重于基于网络的开源侦察，并为用户提供独特的转换模块，以执行深度和快速的侦察。

4.3 开源情报系统的现状

如果不能获得人工智能支持的工具，那么与开源情报合作将具有挑战性，因为可获得的大量数据。机器推理、自动语音识别(ASR)或语音到文本、机器感知和翻译只是AI在开源情报领域支持的一些活动。机器学习、物体识别和自然语言处理是在开源情报活动中发挥重要作用的AI子领域。我们可以看到最近在人工智能子领域的帮助下在开源情报领域所做的一些工作。Evangelista在其论文中，作者进行了一项综合研究，以探讨开源情报与人工智能结合使用。本研究揭示了开源情报在AI中应用的重要模式。分析了以AI为特征的开源情报出版物的分布情况。从2015年开始，建议使用开源情报和AI联合使用。之后，我从网上的书籍和文章中收集了信息。开源情报和AI首先应用于语言和翻译、军事应用和社交媒体领域，并取得了可喜的成果，然后才达到它的顶峰：网络安全。安全相关的开源情报论文占 Al相关的开源情报论文的 41%，或几乎占所有文章的一半。当我们认为这些媒体的扩张在2016年开始增加势头时，这似乎是一个具有吸引力的价值。近年来，网络安全领域出现了与人工智能相联系的开源情报的出版趋势，网络安全领域应用率最高。

Sagnika对英语以外语言使用的情绪分析方法进行了彻底审查。文中还讨论了所用工具、每种方法的优缺点及其效率。还讨论了相关的困难。本文讨论了翻译数据分析方法和目标语言可用数据分析方法。基于词汇的方法和机器学习技术是本文的两大主要技术。本研究审查了多语种情感分析方面的现有研究，确定了已处理或已生成语料库的主要语言，所使用的技术及其贡献及其准确率。

大数据为公共部门和企业部门以信息为重点的活动提供了巨大的潜力和困难。随着在线数据生态系统的发展，基于软件的技术已成为开源情报努力的关键组成部分。在没有自动化系统的帮助下，分析师可能无法管理大量关于网络的信息。然而，开源情报爱好者必须使用算法解决方案，但至关重要的是，他们不需要超载。受过训练的分析员拥有无法编纂的能力、知识和酌处权。我们必须结合分析人员和算法的专长，以便有效地利用开源数据，同时保持它们之间的区别。

4.4 开源情报在网络安全中的应用

由于网络犯罪的后果，情报部门和全球各地的执法团队正在努力打击网络威胁。所有行业都在努力解决同样的问题，即如何最好地打击网络犯罪，成功促进个人和公司的安全。挖掘公共记录以全面了解具体目标，获得独特和高价值的情报正在迅速成为情报机构的宝贵工具。随着开源数量的增加，打击网络犯罪越来越依赖创新软件工具和战略，以有效和有效的方式收集和处理数据。本章审查了利用开源信息开展网络犯罪调查的现有举措，并制定了开源情报网络犯罪综合调查框架。

Layton研究了使用作者分析来确定恶意文档何时由同一人创建的调查。该方法在概念证明中基本精度达到0.8400，当利用第二匹配获得成功预测时，在给定全新值时基本精度达到0.9050。通过使用这个阈值数，作者能够证明错误的猜测似乎不对。当前技术揭示了该应用程序中132个潜在恶意Twitter帐户与恶意provides之间的11次defmite匹配。还有9场可能的比赛，专家在这方面缺乏足够的证据。如果没有使用自动化方法，这个发现可能不可行，并且它证明了自动化开源情报对于间接地将profdes链接到一起有很大的前景。作者打算通过使用集成来开发更健壮的算法来改进这些功能。

Yeboah-Ofori系统地回顾了发现的令人惊讶的事实和矛盾的思想。它还暴露了影响开源情报的潜在研究问题。由于社交媒体技术的不可摧毁性，它们被用于商业、社会和情报收集目的。然而，为了确保有效和先进的缓解情况，需要进行更多的研究，以了解情况，应对威胁，并制定适当的防御措施。

Shere发表了他们的研究成果，提供了开源情报专业人士对英国引入一年后GDPR对其能力影响的观点的全面概述。根据该报告，GDPR与社交网络站点行为的改变以及开源情报工具的可用性相吻合。社交媒体公司对开源情报用于访问其社交媒体渠道的工具采取法律行动的威胁加剧了开源情报能力的窒息。

Quick有大量可通过取证评估获得的数据，大量数据可通过公开获得的数据加以增强，以便更好地了解事件或人，以及更好的决策机会。媒体面貌的扩大，以及进行搜索和评估信息所需的时间，是影响迅速和及时处理大量取证信息的挑战之一。在所建议的开源分析取证过程中，数据遍布广泛的系统和数据存储都补充开源情报。用于减少取证数据量的方法和处理取证活动的分析情报在建立处理开源情报和取证情报的框架方面发挥着重要作用。本章讨论了extemal源数据的问题。该方法允许将开源与封闭和保密的数据源合并。使用半自动数据挖掘工具和extemal源收集软件快速处理各种案件数据，提高了数字取证数据持有的数据挖掘和情报能力。

Casanovas在他的欧盟项目CAPER中创建了一个开源情报工具来处理有组织犯罪。本章介绍了如何将欧盟通用数据改革套件和道德理念纳入信息安全和监控平台。本研究报告还讨论了关于元法治的分析性建议，该建议完全符合建立全球伦理学以处理网络犯罪、网络恐怖主义和最终网络战的想法。

Quick提出了一个更好的数字取证数据分析框架。这需要将数据量减少到仅实现分析目标所需的数量。半自动计算数据以发现实体和相关信息，以及自动搜索实体信息与其他数据源，包括开源情报资源，以提高数据库的价值。

Gonzalez-Granadillo描述了强化威胁情报。ETIP是一个威胁情报平台，通过增加扩展导入、质量评估流程和信息共享能力来增强现有的威胁情报平台。该研究还包括将ETIP的组件与构建排序器的集合loc和单个loc进行比较，以及在真实世界用例场景中评估ETIP。

Derbyshire回顾了当前的风险评估材料和工业实践，发现对手对成本的理解是一个重大差距。本文建立了由对手见证的“时间、财务和风险”关联成本，该关联成本得到了与适当的安全专业人员进行的功能研究的支持。基于这些参数提出并构造一种方法，以便于对敌方成本进行概率评估。论文还利用个案研究来证明这种模式，这是对现有网络安全风险评估的重要补充。一小群用户使用两种方法之一更深入地研究威胁：威胁情报或将对手分解成其组成部分。威胁情报将提供更详细的信息，说明哪些敌人可能针对特定客户。这些数据从各种来源收集在整个参与者，包括开源情报(OSINT)，政府文件，甚至私人经营的网络安全操作中心。

Martinez Monterrubio等人在开源情报和MedOSINT领域进行了一项研究。本研究的目的是设计和制作一个工具，用于做开源情报(OSINT)，特别是在官方医疗公报上，以便侦测假消息。MedOSINT是一种可调节系统，可以被配置为处理来自各种医疗官方公报的数据。根据分析数据生成智能，用于决策，从而确认新冠肺炎新闻的准确性。在评价官方公报时，将该工具与其他可能性进行比较，并证明MedOSINT优于当前选项。它还辅之以基于案例的推理(CBR)系统，它提供了专家解释。这已证明是一个很好的补充，因为它可以定位解释性案例以举例说明。

Lande&Shnurko-Tabakova研究了在执行开源情报时评估跨全球计算机网络的信息流的基本和应用概念的建立。当今信息环境的参数和现有的理论和技术补救办法，特别是在网络安全方面，表明了这一问题的重要性。全世界都在开发和应用开源情报的软件和技术解决方案。

Mittal解释了CyberTwitter架构，该架构基于公开的Twitter数据，向终端用户提供网络安全情报信息。作者使用安全漏洞概念提取器（SVCE）提取与安全漏洞相关的术语。所提取的情报将作为资源描述框架三元组存储在网络安全知识库中。基于“用户系统配置文件”，SWRL规则将用于为安全分析人员生成警报。用户系统配置文件包含关于安装的操作系统、安装的其他软件以及版本号等的信息。为了评估网络安全事件的时间性，确保所发布的信息具有及时性和相关性，作者构建了一个“情报”分类。然后，用户可以使用这些警报来保持组织的系统更新和安全。

Ziolkowska讨论了军事情报如何从开源情报中获益，从而保障公民的生命和国家安全。军事情报严重依赖武装部队的社会支持和行动。开源情报可以用来获得这些洞察力。如今，适当使用开源数据至关重要。经过适当的处理、验证和分析，所提供的大部分数据可能是情报部门的有用信息。因此，公共信息被纳入军事侦察。北约联盟和欧洲联盟等国际组织拥有足够的情报部门，它们也利用这种信息搜索。公开互联网上的信息，如外交谈判和地缘政治计划，对业务活动至关重要，业务活动可以通过开源情报等技术获得。情报、金融、环境、科学和技术政策以及人口挑战都包括在这一领域。

Hemandez从一项对开源情报几种技术的研究中发现，这些技术如何应用于一个国家的网络情报活动。提交人提供了一套适合哥伦比亚国情的变革，这些变革适用于并捐赠给社会，使执法当局能够利用哥伦比亚公开来源建立数据收集程序。数据的真实价值是通过三个机器学习模型的实现来提供的，这三个机器学习模型对它进行情绪分析，以便确定对手对给定主题的观点、理解其动机，从而设计有效的网络防御计划。详细阐述了文本处理中的情绪分析方法，包括关键词位置、词汇亲和度、统计方法和概念层次。

Lee提出了一种测量网络威胁的方法，并推荐了一种基于人工神经网络的网络威胁预测模型。近年来，网络攻击变得越来越复杂。针对这种先进的网络威胁最有效的对策之一是提前预见网络攻击。预测网络威胁需要重大信息和努力量。如果人们使用开源情报（Open Source Intelligence），就可以很容易地确定网络威胁。为了使用开源情报表示网络威胁，必须创建开源情报的网络攻击数据库，并且必须选择能够评估来自已形成的数据库的网络威胁的元素。本文在前人研究的基础上，利用数据挖掘技术构建了网络攻击数据库，并利用层次分析法(AHP)分析了累积DG因素中核心因素的重要性。

4.5 相关工作摘要：

表：由不同作者提交的2007-2021年研究结果摘要。

编号	作者	年	发明/结果/结果
1	Baldini [41]	2007	讨论了开源情报的多语言文本挖掘系统，该系统将用于教育开源情报在意大利的军事和文职雇员。
2	Fleisher[33]	2008	一个详细的，概念性的工作，借鉴和发展从三个未分类领域的文学思想，如与营销有关的情报，竞争和处理智力，以建立一个论点。
3	Deneck[42]	2008	该方法利用英语词汇资源进行情感分析。
4	Triglav等人[72]	2010	利用时空评价矩阵作为评价时空质量的工具。
5	Ji et al. [[38]	2012	若干技术，从系统和应用的角度研究了大量的待处理数据。
6	Milne&Witten[39]	2012	Wikipedia Miner 是一个工具包，可以构建包含维基百科内容摘要版本的数据库，以及用于访问它们的Java API。WikipediaMiner是一个可以共享数据挖掘技能的地方。
7	Layton et al.[58]	2013	探索自动关联在线账户用于开源信息收集的概念。
8	Yueet ai[49]	2013	使用地理空间语义和服务来呈现基于工作流的发现复杂地理特征的方法。
9	Golestan et ai[43]	2015	将模糊多实体贝叶斯网络Fuzzy-MEBN和语义分析应用于一种新的软数据关联技术。为了找到其相关的实体类、上下文和状态，使用不同的语义分析算法来评估软数据。
10	Thakuretal[48]	2015	PlanetSense是一个独特的分布式处理系统，为地理空间情报提供端到端的功能，从收集原始数据到实时提供可操作的见解。

11	Chauhan&Panda[54]	2015	许多与情报有关的部门，特别是信息安全部门的专业人员经常使用自动化技术和网络服务进行侦察。
12	D'Avanzo&Pilato[51]	2015	介绍一种基于认知的过程，从特定类型的市场提取用户意见，并在视觉上总结这些意见，以减少买方的过载。
13	Lee&Shon[27]	2016	讨论了推荐框架的应用。该框架可用于补充和利用早期威胁检测方法，以及检查对关键基础设施的网络威胁。如何对基于特征的威胁检测方法进行补充，如何有效地利用异常检测方法，一直是争论的焦点。
14	Tabatabaei&Wells[57]	2016	本文论述了目前网络犯罪侦查利用开源数据的努力，以及集成开源情报网络犯罪侦查框架的开发。
15	Casanovas[62]	2016	讨论如何将欧洲联盟通用数据改革包提出的法律和道德设想纳入安全和监视平台。
16	Gibson[35]	2016	解释调查员如何从开源收集数据，以及如何将该数据转换为可用于未来研究的格式。在访问、检查和利用开源数据时，必须遵循一些隐私、法律和道德方面的最佳做法。
17	Quick et ai.[63]	2016	该研究提出了改进数字取证数据分析的方法。这包括将数据量降低到分析所需的最小值。
18	Quick et al.[36]	2016	本文详细介绍的数字取证数据减少技术有助于显著减少取证分析时间和存储需求。
19	Vijayarani，S.&Janani，R.[37]	2016	对七种开源令牌化技术的性能进行了比较分析。
20	Hassan et ai[44]	2016	提出了一种解决语义分析缺乏语义信息的方法

21	Mittal et ai[68]	2016	作者创建了“情报本体”来分析时间网络安全事件，并确保生成的通知是新鲜和准确的。然后，用户可以使用这些通知来更新系统并保护组织的安全。
22	Yeboah-Ofori[59]	2017	对网络情报和开源情报特征分析的现有实证研究结果进行了详细的评估和综合，以识别和减轻在线社交网络上的风险和漏洞。
23	Eldridge等人[71]	2017	本文的研究将为该领域的未来研究铺平道路，因为需要更多的研究，特别是实证研究。围绕开源情报过程模型在各种行业和组织环境中具有不同的局限性
24	Edwardset ai[26]	2017	提供一套保障措施，包括自动化社会工程漏洞扫描仪，企业可以使用该扫描仪根据开源情报评估其遭受社会工程攻击的风险。
25	wang[45]	2017	利用TF-IDF和词向量距离提出了一种新的网页去重复算法。
26	Gupta et ai[47]	2017	用于创建智能查询系统IQS的方法，其允许用户用他或她自己的自然语言发出查询。
27	Gong等人[40]	2018	首先对开源情报CTI数据进行可靠性分析。对于CTI系统的最优使用，该模型包括数据可靠性和有效性准则。
28	Quicketal.[61]	2018	研究了选择性成像数据还原过程，以及快速分析和DFINT+OSINT框架。
29	Hayes&Cappa[28]	2018	本文着重介绍了开源情报技术在进行风险评估以避免网络攻击方面的实用性。
30	Williams[34]	2018	该项目针对的是希望更多地了解开源分析和工具的情报专业人员。
31	Vacas et ai[30]	2018	涵盖从收集开源情报数据馈送到实现新规则和黑名单的整个过程。作为IDSoSint系统的一部分，用49开源情报饲料和生产流量测试了该技术。
32	Sleimi et ai[46]	2018	作者提供了与法律需求分析相关的语义元数据类型的标准化概念模型，以及基于NLP的各种元数据类型的自动提取过程。

33	Ziolkowska[69]	2018	讨论了开源情报在军事领域的各个方面
34	Hemandez等人[70]	2018	综述了开源情报的各种工具、方法、情绪分析技术等
35	Johnsen&Franke[31]	2019	根据研究，像潜在Dirichlet分配(LDA)这样的自动化算法必须遵守一套准则，以便最小化词汇量并提高质量。它提出了一系列应该重复的预处理操作。
36	Wiradarma&Sasmita[29]	2019	作者解释了如何使用ISO 31000框架进行基于OWASP方法的渗透测试的框架的IT风险评估。使用OWASP和ISO31000框架寻找最先进和最成功的技术来创建IT风险管理指南是本研究的意义和价值。
37	Magalhaes&Magalhaes[73]	2019	作者建议使用开源情报工具TExtractor使收集有关网络风险的信息更加容易。TExtractor是一种工具，它可以在开源中提取文本的视频/音频，并搜索与有害演员的活动相关的关键字。
38	Al-khateeb&Agarwal[53]	2019	SCF是一个已经定义的术语。我们介绍了Maltego，一个可用于执行SCF的工具。采用了上述方法的两个案例研究。
39	Lande和Shnurko-Tabakova[67]	2019	本文对开源情报开展时评估全球计算机网络信息流的基本概念和应用概念的建立进行了研究。
40	Evangelista et ai[55]	2020	为了研究开源情报与AI的应用，进行了文献综述。对所发现的244份出版物进行分析，发现哪些是最与OSINT相关的文章库。
41	Shere[60]	2020	论文讨论了新法律对英国监控国家的影响和公众对开源情报调查的看法？
42	Herrera-Cubides et ai[32]	2020	检查开源情报研究和教材的创建是如何随时间变化的。这项研究为学者们提供了当前开源情报研究和教学水平的路线图，以及宝贵的元数据描述，以使资源在教育环境中更容易获取和可重用。

43	Sagnikaetal.[56]	2020	用英语以外的语言进行情绪分析的方法所使用的工具，它们的优缺点，所有技术的有效性，以及它们提出的问题
44	Kanta et ai[74]	2020	本文详细介绍了有关强密码、密码破解和开源情报的文献，以及与这些主题相关的执法挑战。
45	Kang[75]	2020	为了量化网络威胁，作者从网络攻击数据库中提供网络威胁评估变量，并分析这些因素的优先级。
46	Lee et ai[50]	2020	提出了一种基于人工神经网络的网络威胁预测模型。
47	Gonzalez-Granadillo et ai[64]	2021	与现有的TIP相比，本研究表明ETIP在可视化、导入、质量评估过程和信息交换方面具有扩展能力。
48	T.Ketal[52]	2021	本文探讨了利用机器学习算法进行社交媒体分析的多种应用。讨论了用于社交媒体分析的机器学习算法。
49	Derbyshire et ai[65]	2021	提出并建立了一种有助于对敌方成本进行概率估计的方法。
50	Martinez Monterrubio等人[66]	2021	关于设计和原型化工具，在开源上执行情报，为决策生成情报，并验证了新冠肺炎新闻的准确性。

5. 讨论和未来工作：

本文综述了开源情报及其在网络安全中的应用。开源情报的每个阶段都使用市场上一些最广泛使用的方法和工具进行描述。通过使用适当的技术、技巧和用户的分析能力，已经证明开源情报能够在事件发生之前很早地预测事件。它不仅可以用于早期预测，而且可以用于对已经发生的诸如内乱的事件的根本原因分析或取证调查。开源情报已被广泛用于各种日常应用，包括风险评估、情绪分析、营销活动、社交媒体分析、调查工作，最重要的是，网络安全。根据同行评议的论文和Joumal的出版物，在开源情报领域正在开展大量创新性研究，但大量不断增长的非结构化数据，以及假新闻、数据可靠性，以及开源情报的法律方面，仍然是开源情报社区的挑战。随着互联网的可访问性和使用的增加，添加到web空间的数据量急剧增加。同时，高速计算能力的可用性极大地改善了数据处理和分析工作。人工智能及其子领域提高了整个开源情报活动的处理和分析能力，加强了数据收集，以清理、分析和传播所获得的信息。基于人工智能、分散数据网络和边缘计算等关键技术创新的Web3.0将极大地改变开源情报。Web3.0中对机器学习与自动推理的依赖将使开源情报受益。

同时，公众广泛采用加密将妨碍数据收集，并引起一些基于当地法律的法律问题。

6. 研究差距：

在文献回顾之后，人们注意到，目前的方法、模式和出版物似乎在解决备受期待的 Web 3.0 时代的好处和挑战方面滞后。人工智能，泛在性和语义网络将重新创造如何收集，处理和分布数据的开源情报活动。当然，开源情报技术充分利用了人工智能的能力，如自然语言处理、机器学习以及网络分析等等。需要提高分类和操作数据的能力，以使机器能够理解用于描述数据的含义和短语，以及从更大和更多样化的源集获取数据的能力，以及创建和分发所有网络类型的所有类型的数据的能力。

在审查期间，发现开源情报(OSINT)的一些领域没有广泛使用AI及其子集。

发现的一些研究空白如下：

研究差距1：开源情报缺乏智能分析机制。

开源情报分析目前不使用智能机制。所使用的工具是填充收集的数据及其清晰和直接的连接。

将语义分析、模式分析和与其他事件的相关性结合到分析阶段将减少对人的依赖。

研究差距2：开源情报将需要机器学习与自动推理技能。

采用自动推理的主要动机是创建开源情报使用逻辑推理来解决广泛的问题，包括开放性问题。

研究差距3：

由于从许多来源获得的大量数据，结果将是混乱和矛盾的。通过自动真相发现程序可以减少此类案件。

研究差距4：识别误导性信息或错误过程应该通过一个自动化过程来完成，而不是依靠人的干预。

互联网开放供自然解释，大多数内容无法保证准确和正式，这将污染结果。

7. 研究议程：

(1). 可以推荐什么模型来使开源情报系统Web3.0准备好？

(2). 为了改善网络安全，可以提出什么新的框架来集成开源情报和人工智能子集？

(3). 什么机器学习技术可以帮助改进开源情报工艺？

(4). 哪些是增强开源情报智能分析机制的最佳机器学习算法？

(5). 什么AI子集可用于增强开源情报过程的推理能力？

(6). 哪些算法能够有效地自动化真相发现过程？

8. 分析研究议程：

深入理解 Web 3.0 及其特性将有助于开发开源情报概念模型，该模型与下一代技术兼容。目前用于开源情报的算法被开发出来解决广泛的问题。这篇评论文章解释了正在解决的问题，以及解决者如何处理这些问题。自然语言处理和自适应共振理论是半监督学习主题的例子，涵盖了广泛的算法和学习方法。K-均值、期望、BIRCH、最大化和分级是无监督学习的例子。决策树和集成方法，如套袋，增强和随机森林，以及K意味着最近的邻居，都是监督引种的例子。有许多聚类算法与用于聚类数据的度量不同。在开源情报中，这些被很好地表示。

9. 研究建议：

不管它们是由执法机构、安全专业人员还是犯罪黑客使用，开源情报操作都使用高级技术挖掘大量可见数据，以获得实现目标所需的知识。发现面向公众的资产、评估获取的数据以及从所研究的数据中提取知识都是作为开源情报实践的一部分必须完成的关键任务。用于完成这些任务的工具必须能够满足要求并确保精度、可靠性和速度。为了满足现代世界的需要，并使它们将来准备好，在开源情报活动的每个阶段使用人工智能及其子集是不可避免的，而不管它们用于什么应用。首先将根据文献回顾、查明的差距和未来要求开发初步模型，然后针对开源情报技术的更广泛领域改进模型。第三，最后进行产品测试，以确保进化模型的有效性。

10. 研究计划的Sloc分析:

SLOC分析的主要目的是系统地探索优势、局限、机会和挑战。我们进行了开源情报领域的SLOC分析，以评估其有效性。

优势	时效
•开源数据的提供	•数据处理复杂性
•技术进步	•数据的可靠性
•工具的提供	•人工智能能力的使用有限
•计算能力	•对人的因素的依赖性
机会	挑战
•企业的广泛需求	•数据保护等法律问题，
营销和销售公司	隐私法等。
目的	•非结构化数据将是困难的
•数据驱动方法	有效分析
•其他企业的新商机	•假新闻等错误信息，
网络安全等领域，	偏见意见
政治分析等。	•信息过载

11.结论 :

进化是自然的规律；开源情报的世界不会停滞不前；由于数据性质和累积方式的变化，其他技术的进步将对开源情报实践构成挑战；同样的技术进步将提高开源情报实践有效应对这些挑战的能力。

自20世纪80年代后期美国军方建立开源情报以来，随着科技的进步，发生了很大的变化。互联网技术的革命导致了范式的转变。社交媒体的广泛普及，丰富了网上开源内容的积累，开源情报正被应用于营销、网络安全、政治策略分析等多个领域。这一时期的大量数据不仅有利于执法机构和专业从业人员，也有利于威胁行为者。基于开源情报的网络安全开始流行，企业企业开始使用它进行自我评估，以发现任何潜在的安全漏洞。通过采用AI技术，开源情报已经变得更加强大和精确。随着3G互联网服务在智能手机上推出，用户可以通过世界其他地区可自由访问的社交媒体应用程序，向世界其他地区表达自己的意见，分享与周边地区和各自国家有关的大量时事信息。这加速了开源数据的增长。

本文回顾了开源情报的现状，以及开源情报产生的各个阶段。此外，还介绍了一些用于基本搜索的开源情报技术，以及今天可用于高级调查的最先进的开源情报工具。研究显示，AI的实施程度仍有待提高，以便在决策阶段不进行人为干预的情况下实现完全自动化的解决方案。目标是在开源情报实践中有效地实施 AI，以便改进总体性能，尽量减少由于我们回顾的局限性而可能发生的误解。我们未来的工作应该侧重于通过使用开源情报来实现下一代网络安全中的AI。

完整原文PDF及百分点机器翻译文档已上传小编知识星球

长按识别下面的二维码可加入星球

里面已有近千篇资料可供下载

越早加入越便宜哦

文章来源: http://mp.weixin.qq.com/s?__biz=MzI2MTE0NTE3Mw==&mid=2651126267&idx=1&sn=83d363b67723416931ec63c17c2b637e&chksm=f1ae8ec1c6d907d76f5abb6726f5a5ea2053875999cb10d4b1ef6d094b58cf72273464231510#rd
如有侵权请联系:admin#unsafe.sh