【论文】美国情报部门处理海量数据的方法路径研究
2022-4-2 07:0:0 Author: mp.weixin.qq.com(查看原文) 阅读量:21 收藏

摘要:

[研究目的]基于开源情报分析美国情报部门对全球海量情报数据进行处理的方法和路径,该分析结果对我国如何在海量的信息迷雾中开展情报工作具有重要的启示作用。

[研究方法]以为美国司法部、国土安全部等情报部门提供服务的Palantir等科技公司申请专利的情况为研究对象,利用自然语言处理技术和可视化情报分析工具,深入分析美国情报部门收集和分析情报的方法和路径。

[研究结论]研究表明,美国情报部门以国家发布的《信息共享国家战略》《全球司法信息共享计划》等一系列文件为指导,建立开源情报数据融合中心,广泛收集和整合全球各种来源数据,利用大数据、人工智能、机器学习、自动建模、自动监测等先进技术,实时自动发现潜在威胁并且产生预警信息,批量挖掘出有价值的情报线索。最后,对我国开展相关情报工作提出几点启示。

关键词:信息共享;情报融合;开源情报;情报数据;情报工作;数据分析;美国

中图分类号:G354

0.引言

在当前高科技主导下的数字时代,人工智能具有快速反应、储存容量大、响应主动且不受体力限制等优势,可以极大地提高情报收集、分析、传递过程的效率,也能够优化情报工作全流程,确保情报工作成果更加精准。近年来,美国情报部门高度重视加强与私营科技公司的联系和合作,开发创新技术用于应对国土安全方面的挑战,并且这种公私合作形式的规模还呈现出日益扩大的趋势。

学界对情报融合、人工智能、地理信息等新技术在美国情报工作中的应用进行了广泛研究。路威等分析了美国地理空间情报(GEOINT)技术的发展趋势,重点剖析了美国国家地理空间情报局新规划的情报获取、情报分析和机器增强3个方面的关键技术和应用模式。江焕辉分析了美国反恐情报融合机构的设立与运作,通过研究认为美国反恐情报融合机构对我国反恐情报机构改革提供了经验借鉴。赵柯然等以美国融合中心网络为例,对面向情报融合循环的赋能进行了分析,根据NNFC年度评估报告剖析了美国情报融合的赋能效果评估方法。胡荟等提出人工智能技术在美国军事情报工作中已经有了一定的应用,研究其在军事情报工作中的当前运用及发展趋势,可为我国军事情报领域人工智能技术快速发展提供借鉴与参考。石磊以美国打击华为公司为例,指出美国科技情报活动具有结构化信息采集与分析、跨部门协同作战等特点,研究了美国科技情报行动规律,为我国制定符合国情和当前迫切需要的科技治理政策提供了一定的参考依据。

但是,学界对美国情报部门处理全球海量情报数据方法和路径方面的研究还比较少。因此,本文基于开源情报分析技术,在归纳总结美国政府为了促进情报共享出台的一系列法律文件和建设实体机构的基础上,进一步深度剖析与美国情报部门密切合作的Palantir公司申请专利的情况,掌握美国情报部门目前具备的智能化情报分析能力,最后提出对我国开展情报工作带来的启示。

1.美国情报部门制定情报共享计划

在吸取“9.11”恐怖事件惨痛的教训后,美国政府、国会和情报界陆续出台了一系列相关的指令、战略、法案和指导方针,重新整合了情报机构,建立司法部、国土安全部、国家反恐中心等国家级情报机构,创建情报融合中心和开源情报中心,这些举措为美国情报部门处理海量情报数据打下了坚实的基础。

1.1出台情报共享指引文件

2003,美国司法部成立了全面司法信息共享倡议小组”(Global Justice Information SharingInitiative,缩写:Global),并制定国家刑事情报共享计划(NationalCriminal Intelligence Sharing Plan,缩写:NCISP),NCISP为情报融合中心规范的制定提供了国家层面的框架。200712,美国制定了《信息共享国家战略提高与恐怖主义有关的信息共享的成功与挑战》,美国情报部门认为能否成功预防未来的恐怖袭击取决于情报收集、分析和共享与要攻击美国的人有关的信息和情报的能力。200844,美国国家情报总监办公室宣布了《情报界信息共享战略》报告,这是美国情报界关于信息共享出台的第一份战略报告。2012美国为了继续完善信息共享与信息安全保障流程,提高信息共享与信息安全保障的能力,制定了《国家信息共享与保护战略》(NSISS)

1.2创建情报共享组织机构

1.2.1创建情报融合中心

2004年和2005,美国许多州初步创建用于部门之间进行信息共享的情报融合中心(Fusion Centers)。情报融合中心是一种有效且高效的机制,可以通过合并执法部门,公共安全和私人伙伴等各种来源的数据来交换信息和情报,最大化资源,构建集体化作业机制,简化运营环节并且提高打击犯罪和恐怖主义的能力。2006,司法部的Global小组和国土部的安全顾问委员会(Security Advisory Council)协同制定并发布了融合中心规范(fusioncenter guidelines),从而为联邦、州、地方和部落层级的融合中心的建立和合作提供了指导。截至20182,美国国土安全部认可的融合中心共计有79,几乎每个州和主要城市都建有情报融合中心。

1. 2.2创建开源情报(OSINT)中心

“9·11“总统委员会在发布其2004年7月的报告时,建议创建一个开源情报机构。同年,在《美国情报与打击恐怖主义改革法》的“其他的侦察活动完善方向”一章中首次出现了开源情报这一规范概念。随后,大规模杀伤性武器委员会(WMD Commission)在2005年3月的报告中建议在CIA设立一个开源局。根据这些建议,2005年11月国家情报总监开源中心(Open Source Center,缩写:OSC)成立,由中情局进行行政管理,隶属于国家情报总监。该中心的建立是为了收集“互联网、数据库、新闻界、广播、电视、视频、地理空间数据、照片和商业图像“中可用的信息。通过开源中心,美国力图实现“在任何国家、从任何语言”获取开源情报的能力,其中互联网是其主要的开源情报源。2012年,美国正式发布“大数据研发计划”,目的是提高从海量复杂的开源数据中及时掌握情报并获取知识的能力,美国开源情报工作正式进入“大数据”时代。

2.美国情报部门处理海量数据的工作变革

2019年1月22日,美国国家情报总监办公室发布《美国国家情报战略》,重点关注人工智能、自动化和高性能计算等新兴技术给情报界带来的机遇和挑战。美国战略与国际研究中心(CSIS)与情报工作组认为必须推进情报技术变革,才能在日益复杂的外部环境中保持美国情报竞争优势、确保国家安全利益。美国情报部门与科技公司在云计算、大数据分析、人工智能以及网络技术等领域深度合作,共同开发有助于情报收集、分析、传递和分发等工作的新技术,旨在指数级增长的海量数据中为决策者挖掘出利用价值高、相关性强、清晰可视化、及时准确的情报信息。

2.1利用新技术,优化情报工作全流程

美国情报部门以采购、合作开发等形式,利用新科技手段对情报工作全流程持续进行升级和优化。通过利用多元感知传感器和云计算等技术实现自动和有目的性的情报搜集;利用大数据分析、机器学习和智能图谱分析技术辅助情报分析人员自动化、高效率、可视化处理海量数据;利用人工智能技术辅助决策者识别虚假情报,深度挖掘重要情报信息,洞察数据背后竞争对手的战略意图;利用人工自动建模技术,实现自动分析报警,完成情报定向分发和启动相关处理预案。由于美国情报部门广泛与科技公司开展合作,极大地缩短了对海量数据的处理时间,节省了情报人力,提高了对异常情报信息的敏感度,能够在事件早期发布预警提示。

2.2研发新方法,突破数据分析瓶颈问题

面对互联网海量的开源信息,情报部门迫切需要利用科技公司的技术资源开发最新的信息技术,用于开源情报的收集、分析、生产和传播。只有研发出一套有效、及时且智能的开源情报分析方法,才不会使有价值的情报信息淹没在海量的无效信息中。据报道,美国中央情报局、国防情报局、国务院都已经投资科技公司以更好地获取网络情报,海军研究办公室也开始资助私营科技企业研究社交媒体预警与相关情报业务。此外,通过利用智能搜索引擎技术的OSINT收集器和增强的机器辅助翻译软件,美国陆军情报和保密司令部能够匿名地扫描多达40个国家以及66种语言的社会媒体平台和开源信息,同时对这些数据集进行大数据分析,就能够洞察全球政治、军事、经济和其他领域的发展趋势。而且通过对智能手机数据的收集和分析,美国国土安全部、国防高级研究计划局等机构还可以对社交媒体平台数据进行分析,以获取恐怖主义行动迹象和紧急事态时社会的舆论导向。

3.依托Palantir等公司技术支持提升数据处理能力

通过分析美国情报部门采购高科技软件平台以及与美国司法部和国土安全部等情报部门合作关系密切的Palantir Technologies(缩写:Palantir)公司申请专利的情况,发现美国情报部门大量使用包括人工智能、自动建模、人脸识别、威胁检测、犯罪预警等新兴技术和方法,从而完成对海量情报数据的智能高效处理工作。

3.1美国情报部门采购大量技术产品和服务

美国司法部、国土安全部等机构大量采购和使用各种依托人工智能和大数据技术开发的产品和服务。近年来,美国司法部和国土安全部等情报部门从PalantirSOS International等科技公司采购的部分典型产品和服务信息情况如下:

3.1.1情报部门采购软件开发商Palantir的产品和服务

20197,Palantir已从美国海军获得了一项为期五年,价值1.438亿美元的一揽子购买协议,旨在为国防部、情报机构和美国海岸警卫队提供现成的商用软件、硬件和相关支持服务。

20198,软件开发商Palantir从国土安全部获得了一份为期三年,价值4,990万美元的任务单,以更新和维护基于云的移民和海关执法案件审查平台。

国土安全部在联邦政府主要合同网站FedBizOpps发布的通知中指出,Palantir将为美国移民海关执法局ICE(Immigration and Customs Enforcement,缩写:ICE)的调查案件管理系统提供信息技术服务,包括系统工程、测试、评估、数据管理和其他基础结构支持。

3.1.2情报部门采购SOS International等其他公司的产品和服务

2020828,SOS International(缩写:SOSi)获得一份潜在的为期5,价值4亿美元的合同,为司法部的移民审查部门提供现场翻译和转录服务。SOSi还将提供口译员以及计算机辅助的实时转录,书面翻译和电话口译服务。

2020年12月7日,CACI International(NYSE:CACI), Deloitte, Leidos(NYSE: LDOS), PAE(Nasdaq:PAE)和安永五个公司争夺司法部自动诉讼支持订单, 该合同在未来六年半的时间里价值高达1.5亿美元。诉讼支持分为九个领域:文件获取、数据库创建、数据库利用率、电子数据采集和制作、审前和审判支持、资 源计划、实施和管理、专业的专业服务、合同和项目管理和法律支持。

3.2Palantir公司为美国情报工作提供多种智能技术手段

在美国专利网站上查询到Palantir公司共申请专利897,也就意味着该公司有能力为美国情报部门提供多种情报获取、数据分析、异常检测、智能预警等方面的技术手段。对该公司申请专利的情况归纳梳理后,利用自然语言处理技术进行分词提取、关联分析和词频分析,得出关键词出现频率统计结果。

 表 1 Palantir 公司主要研究方向

研究方向专利申请时间专利名称专利号技术功能和使用去向
网络安全相关的异常和威胁检测2018 年 10 月 8 日在批处理和实时处理路径之间共享机器学习模型状态,以检测网络安全问题10911468采用各种技术和机制来检测计算机网络环境中与安全相关的异常和威胁,由“大数据”驱动,使用机器学习来执行安全分析。 美国情报部门利用该类技术可以执行目标实体行为分析,以检测与安全相关的异常和威胁,并且能够迅速采取行动
   
2018 年 12 月 10 日用于生成交互式训练链视图以训练  机器学习模型来识别威胁的方法和系统57400072
2019 年 9 月 11 日网络安全威胁的交互式地理表示57400072
支持多语言分析2019 年 2 月 20 日多语言支持动态本体57860776该专利是一种为动态本体提供多语言支持的系统。 美国情报部门利用该技术能够将不同国家特定语言环境中的标识符与其相对应的特定值进行关联,完成对开源情报信息的广泛收集和分析
机器自动建模,自动更新模型2018 年 4 月 18 日用于创建和管理具备数据模型自动更新功能的数据集成工作区的系统和方法62975938基于多个数据集来生成和更新模型,利用机器学习方法对实体行为进行建模,通过确定多个模型的比较度量值,从而提升机器建模效能。 美国情报部门利用机器自动建模技术,能够预测目标实体行为并且进行评分,从而分析目标实体以及与该实体相关联行为的风险程度
   
2018 年 7 月 5 日用于实现对实体行为建模的机器学习方法的系统和方法72140863
2019 年 10 月 22 日基于用户界面的可变机器建模69230086
多源实体数据归因和聚类2018 年 12 月 4 日使用不同数据集的实体数据归类57482226使用不同来源的数据集将数据归因于实体的系统和方法。 美国情报部门使用该技术可以从各种数据源中获得不同的轨迹数据集,基于轨迹之间的一致性原理,将与实体轨迹关联的多个数据集中归因到目标实体,从而实现对目标实体轨迹的多维度全量分析
2019 年 2 月 21 日用于将相关记录与多个列表中的公共实体相关联的系统和方法55024791
智能监视2019 年 9 月 9 日智能监视的系统和方法69423239该专利提供了用于智能监测环境的能力。 美国情报部门使用监控智能化分析技术,能够对环境中的不同对象进行分类和识别,跟踪和分析重点监控区域内的实体行为,发现异常情况及时触发预警机制
网络安全智能监测和实体关系推理2019 年 9 月 26 日用于发现网络账户以及其与实体的关联的系统和方法73461986基于计算机网络特征来评估实体的网络安全状态,用于发现数字网络账户并且确定其与其它实体间的关联关系。 美国情报部门利用该技术可以分析出虚拟网络账户和现实世界中实体的一一对应关系,实时监视实体在网络上的行为情况,还可以根据与该实体相关联的多个互联网协议(  IP)地址和有关网络流量数据点,确定两个实体之间是否存在关系或现有关系是否已终止,而无需任何外部知识来了解这种关系的存在或终止
   
2020 年 1 月 29 日基于计算机网络特征评估实体网络安全状态的系统和方法72615169
2020 年 2 月 20 日用于经由用户或用户设备的网络通信来推断实体关系的系统和方法72045704
快速导入,时序跟踪,对象识别2017 年 11 月 2 日快速导入数据,包括时间跟踪的对象识别75164287这两项专利用于响应用户对时效性多维数据集的操作系统。 美国情报部门利用该技术可以接收与一个或多个目标对象相关联信息的数据集,访问与目标对象相关联的唯一标识信息,查询实体随时间变化的数据趋势,获取与目标对象有关的特定信息,完成对目标对象的时序跟踪
2017 年 11 月 20 日时间敏感立方体55485959
机器学习,智能检索2018 年 2 月 15 日使用机器学习技术在文档数据库中进行概念索引55969720提供了使用机器学习索引和查询数据库,对图像内对象进行标记的系统。 美国情报部门利用该技术可以实现在数据库中对特定主题文字、图像等类型数据的快速索引、查询、比对和分析,在海量数据中以搜索排名的形式快速查找出目标结果
   
2018 年 9 月 11 日机器学习,用于图像分析67845373
多源大数据分析和搜索2017 年 6 月 26 日用于促进从非结构化文档中提取数据对象的系统和方法69590775提供了从非结构化文档中以有效方式提取、搜索和分析数据对象的系统和方法。 美国情报部门使用该技术能够对来自多个异构数据源的大量输入数据,包括访问日志,呼叫数据记录(CDR),电子邮件消息等实现细粒度低等待时间访问,便于情报人员可以在  PB 级的超大型动态数据中有效地识别感兴趣的信息
   
2017 年 11 月 28 日调查大量数据的系统和方法46603552
2017 年 12 月 29 日用于对结构化或半结构化数据信息执行数据库分析和搜索的系统、方法、用户界面和算法
   
61005138
数据驱动,自动预警2017 年 9 月 8 日用于收集,聚集和存储数据,生成用于分析数据的交互式用户界面以及基于收集到的数据生成预警的系统60021744用于聚合和存储不同类型的数据,以及生成用于分析所存储数据的评估报告。 美国情报部门分析人员通过交互式用户界面,利用该系统对潜在的恶意软件和不良电子通信数据,依据各种准则或规则实现自动标记、分组和分析,并且以分数、报告、警报的方式生成自动分析结果
2018 年 4 月 24 日外部恶意软件数据项聚类和分析54609287
2019 年 10 月 9 日用于调查潜在恶意通信的系统、方法、用户界面和计算机可读介质56939556

3.3美国情报部门处理海量数据的方法和路径

3.3.1利用新兴技术,提升海量情报数据分析能力

通过对Palantir申请专利情况的深入分析,可以推断美国情报机构通过利用机器学习、人工智能、自然语言处理等新兴技术,已经具备以下九个方面的情报分析能力:验证开源情报数据的准确性。加速处理开源情报中不断增长的非结构化文本。识别开源情报中的伪造信息,确保数据和情报的真实性。自动化执行任务,短时间内处理海量数据,为情报分析人员节省更多时间。扫描、发现被标记为异常的关键信息,为情报分析人员提供早期指标和预警信号。为情报分析人员提供更加智能的信息搜索技术,根据特定分析需求构造搜索结果,实现智能查询。帮助情报分析人员对情报目标保持持续感知态势,进而发现模式、趋势和相互关系。可视化展示情报目标之间的关系和网络,辅助情报分析人员推断其中关键影响因素。实时监控目标环境的新变化,及时发现异常行为,防止微弱却重要的信号在日常情报工作中被遗漏。

3.3.2应用智能化技术,实时监控和全面整合全球各类数据

通过对美国司法部官网上公布的案例起诉书内容细致分析后发现,美国执法、情报机构在侦办案件中广泛利用科技公司提供的智能化技术手段,大量采集和调取相关人员身份背景、资金往来、通讯、旅游出行和出入境等数据信息,还通过开源、秘密等方式获取网络设备指纹、网络痕迹、电子取证信息(手机、电脑等设备)、网络社交媒体信息、外国政府和学校以及军队等机构官方网站信息。实现对网络社交平台、音频视频、聊天记录、电子邮件、照片、文件、连接日志等的实时全面监控。同时,美国情报部门加强数据挖掘工作,将获取的全球各类数据进行全面整合,不断提升情报分析和处理能力。

Palantir只是与美国情报部门合作的主要供应商之一,KasewareEsriciscoACISS等数百家科技公司都是美国情报部门的合作伙伴。这些公司提供的技术手段可以协助美国情报部门更安全、更高效地完成工作任务,更准确、更快速地做出决策并采取行动。

3.3.3处理海量数据的方法和路径

美国情报部门对全球海量数据的处理方法和路径是:首先,美国国家层面出台一系列情报共享、数据融合等框架指导性文件。其次,建立情报互通共享、协作交流的实体机构。再次,情报部门与私营科技公司合作,将情报业务需求与技术手段无缝融合,共同创新研发辅助开展情报工作的新技术,为美国情报部门对全球情报数据的搜集、分析和应用提供强力支撑。最后,美国情报部门利用智能技术将情报工作各环节有机地连接起来,通过探索新的情报分析模式来更好地为决策层提供更有价值的情报线索。

4.对我国情报工作的启示

总结和借鉴情报工作先进国家的成功经验和方法,特别要高度关注智能技术变革给情报工作带来的发展机遇。为此,对我国开展情报工作主要有以下四个方面的启示:

一是要完善情报共享机制建设。在总体国家安全观的指导下,优化情报共享框架,深入挖掘人工智能、大数据、区块链等先进科技手段在情报收集、分析、传递过程中的潜能。通过建设分级情报共享中心,在情报收集平台上整合全源信息并且合理分配任务,充分利用所有可用的资源,打破情报信息孤岛,最大程度发挥信息共享和协作的作用。改进情报技术系统和情报共享工作流程,避免由于对单个部门收集或者生产的情报分类、整理、传递不及时,导致其它部门再次重复分析情况发生,确保系统内情报分析结果能够到达所有需要的情报人员,提高情报工作质量和效率,进而使得决策者审议和决策时更加高效和准确。同时,政府情报部门要保持与高校、科研机构、私营情报科技公司的紧密联系,定期交流和研讨最佳情报工作方法,开展预警和长期展望活动,持续将学术成果和科技知识系统地转换为情报产品。

二是要制定开源情报战略。开源情报具有很多优点,比如开源情报搜集成本比人力情报低;搜集情报时风险小;开源情报信息公开,便于情报组织间的共享以及综合分析;开源情报暴露情报行动人员和行动方案的风险几乎为零等。所以,世界各国情报中开源情报的比例占到80%95%,可见开源情报的重要性得到了越来越广泛的认可。面对世界的日益复杂性和相互关联性,以及确定性和可预测性不断下降的局面,利用开源情报获取的信息和认知,能够对国家安全战略的评估起到重要的作用。对于世界绝大多数政府机构来说,开源情报都是能够获得的重要情报源,这使得它成为政治战略决策的推动者。我国政府也应该考虑制定开源情报战略,建立开源情报中心,以便有效利用开源情报为国家安全决策服务。

三是要充分发挥新兴技术在情报工作中的重要作用。人工智能等新兴技术能够增强情报人员的数据收集和处理能力,辅助决策者制定战略规划。云计算和人工智能能够让处于不同地理位置的情报分析员之间更有效地协作,更高效、更准确地共享和传递情报。多层云架构可以保证更安全地在情报组织内部共享信息,云计算和数据清理工具可以帮助情报组织与私营部门共享敏感但非机密的重要信息,比如关键基础信息网络威胁和社交媒体平台上的虚假信息活动等。神经网络深度学习算法可以挖掘出数据中目标实体间的隐性关联关系、资金多层级流转过程、实体行为轨迹刻画等线索。机器学习比对、检索和分析智能算法,可以辅助情报分析人员辨明真假情报,洞察情报竞争对手的战略意图,针对其战略计划进行反制。还有很多新兴技术可以应用于情报工作,要充分挖掘新兴技术的潜力,改进和转换情报的收集、分析和传递的传统方式,提升情报分析结果的准确度,克服主观分析的片面性,为决策层提供及时高质量的情报。

四是要加强开源情报专门人才的培养。开源情报涉及领域多,知识面广,专业性强,迫切需要培养跨领域、跨专业、多学科交叉融合的专门人才。培训内容主要包括:

(1)开源情报入门基础。学习开源情报的概念、用途、优势和局限,情报流程,数据分析方法等内容。

(2)开源情报核心技能。学习如何利用搜索引擎收集网络数据,如何从文件中提取、验证和分析元数据,如何对视频图像进行挖掘以及多种外文提取和翻译方法等内容。

(3)开源情报调查方法。学习人员调查,组织机构、网站、域名和知识产权调查,暗网开源情报的调查,物品和交通工具调查等内容。要探索情报部门、科研院所和科技企业联合培养情报人才的模式,组建理论、实践和技术专家组成的高水平师资团队,共同打造符合情报工作要求的实践教学环境,从而培养出满足新时代情报工作需求的高层次专业人才。

5.结语

美国情报部门依托其分布在世界范围的79个情报融合中心,广泛收集全球各类数据,利用人工智能和机器学习等新兴科技手段,对每个个体进行建模分析,在数字世界里找到每个个体独特的特征(数字DNA),从而能够将不同数据来源的信息归因到同一实体,实现跨数据源的自动建模分析、实时威胁监测以及预警信息发布。我国可以借鉴美国和其他国家的成功经验,结合我国国情在国家总体安全观的指导下,全面提升情报数据处理能力。

参考文献(略)

作者简介:

邵雷,男,1981年生,博士研究生,副教授,四级调研员,研究方向:信息化侦查,公安情报;

石峰,男,1972年生,研究生,二级警务技术主管,研究方向:信息化侦查,开源情报。

文章来源:《情报杂志》网络首发论文

长按识别下面的二维码可加入星球

里面已有近千篇资料可供下载

越早加入越便宜

续费五折优惠


文章来源: http://mp.weixin.qq.com/s?__biz=MzI2MTE0NTE3Mw==&mid=2651128082&idx=1&sn=f3c8b3e7ae77e7bdcee568b2b7c0b041&chksm=f1af7628c6d8ff3e642e124b0ced1e0b24cbf9e93c322b2ccdd94d7d81315ea9bd31157f337c#rd
如有侵权请联系:admin#unsafe.sh