【资料】开源情报与人工智能(AI):治理、伦理、法律和社会影响的系统评论
2023-1-7 09:22:9 Author: 丁爸 情报分析师的工具箱(查看原文) 阅读量:38 收藏

【摘要】

现在,来自公开来源的信息占执法机构和西方情报部门开展的所有情报活动的80%90%。数据挖掘、机器学习、视觉取证以及最重要的是可用于商业用途的不断增长的计算能力的发展,使开源情报(OSINT)从业人员能够加快、有时甚至自动化智能收集和分析,从而更快地获得更准确的结果。随着信息圈的扩大以适应不断增加的在线存在,可采取行动的开源情报OSINT)也是如此。这些事态发展在治理、道德、法律和社会影响方面提出了重要的关切。新的和关键的监督关切与标准的隐私关切同时出现,因为一些更先进的数据分析工具几乎不需要监督。本文对相关文献进行了系统的综述。它分析了571份出版物,以评估关于使用人工智能驱动的开源情报OSINT)(以及开发开源情报OSINT)软件)的文献的现状,因为它涉及治理、道德、法律和社会影响(GELSI)框架,强调了潜在的差距,并提出了新的研究方向。

1.         导言

关于情报研究的文献声称,开源情报OSINT),即来自公开来源的情报占所有当代情报材料的70%90%。随着开源信息的增加以及计算机科学、数据科学和统计的更高效技术的开发,简化了收集和分析,这种估计并不令人惊讶。随着人工智能(AI)系统的发展,AI变得与开源情报(OSINT)分析师所使用的技术工具的质量密不可分。因此,在学术和应用领域都出现了与这些发展的治理有关的重要问题。的确,设计适当的法律、道德和监管框架,以应对人工智能(AI)系统在与开源情报OSINT)流程的每个阶段——指导、收集、处理、分析、传播和集成,以及反馈——相互作用时日益复杂的挑战,已变得至关重要。一些早期的工作,注意到这一趋势,提供了在应用文献(Evangelistaetai)中使用人工智能(AI)算法进行开源情报OSINT)分析的概述。其他作者则专注于《通用数据保护条例》(GDPR)对开源情报OSINT)收集和分析的影响。然而,迄今为止,仍然缺乏对适用于开源情报的治理、伦理、法律和社会影响框架的彻底审查。本文试图通过对GrantBooth中定义的OSINT-GELSI文献进行系统回顾,即对相关文献进行系统搜索和分析,来填补这一空白。这是通过收集开源情报(OSINT)文章的书目数据集实现的,然后对其进行审查以确定涉及治理、道德、法律和社会影响(GELSI)框架的文章。然后根据主要的潜在主题总结了目前的研究现状,并提出了一些新的研究方向。

文章的结构如下。第二节提供了开源情报OSINT)的更详细的定义,并介绍了开源情报多年来的范围和应用的简要历史概述。我们认为,由于数字革命,开源情报OSINT)能力在数据可用性和计算能力方面已经大大增加。我们还提供了治理、伦理、法律和社会影响(GELSI)框架的工作定义,以及它与当前人工智能(AI)审计和监管研究的关系。第三节详细介绍了检索书目数据集的方法,并介绍了对开源情报(OSINT)文献的不同部分进行的书目分析的结果。它表明,尽管出版物大量增加,但涉及治理、道德、法律和社会影响的论文(GELSI)框架仍然是更广泛的学术研究的一小部分,涉及开源情报收集和分析的技术论文是最大的群体。然而,它也表明,一旦考虑到低出版物数量,治理,道德,法律和社会影响(GELSI)论文已经变得越来越有影响力,无论是在引文数量和搜索引擎排名。第四节从治理、道德、法律和社会影响等方面对相关文献进行了系统审查,强调了大多数审查材料的主题。然后总结了围绕这些主题的主要辩论,并就增强的开源情报OSINT)系统的作用提出了未来的研究方向。最后,第五部分总结了本文的主要结论。

2.        开源情报、人工智能(AI)以及治理、伦理、法律和社会影响(GELSI)框架

关于开源情报OSINT)的大量文献一直致力于为它找到一个合适的定义。这并不容易,因为情报分析的概念在相关文献中仍有争议,不同的作者和机构提供不同的定义,还因为开源情报(OSINT)的任何定义都需要适应计算机和数据科学以及人工智能(AI)的进步,后者正在不断扩大情报收集和分析能力。最早的定义之一见于情报界指令301,该文件旨在提高情报机构对开源信息的认识。第301号指令借鉴了第109-163号公法(或2006年国防授权法)对开源情报的定义,指出:

开源情报(OSINT)是从可公开获得的信息中产生的情报,为了满足特定的情报需求,及时收集、利用和传播给适当的受众。

这个定义相当宽泛,没有详细说明开源情报OSINT)应用程序的广泛范围。事实上,在其早期历史的大部分时间里,开源情报(OSINT)一直局限于美国外国广播信息服务(FBIS)等机构对外国媒体的实际检索和分析,该机构的任务是收听、翻译和分析广播,以获得关于敌人意图的战略信息。这是所谓的第一代开源情报OSINT),其主要任务是文档检索和翻译,除了对收集的材料进行一些内容分析外,几乎不需要分析工作。

世纪之交,情况发生了巨大变化。开源中心(OSC)于2005年成立,取代了美国的外国广播信息服务(FBIS),标志着第二代开源情报OSINT)的开始,其主要创新是通过数字革命实现的。正如Unver2018年)所观察到的,从经典数字开源情报OSINT)的转变开启了以前不可思议的强大工具,这些工具可以大致分为四大类,即基于语言和文本的、地理空间、网络和视觉取证。

语言工具涉及文本数据的检索和分析,并构成第一代和第二代开源情报(OSINT)之间的明确桥梁。如果前者让分析人员筛选文件,以发现有价值的信息并编写执行摘要,后者则让计算机算法扫描数字化文件,以提取关键词并确定其上下文。自然语言处理(NLP)是语言学和人工智能(AI)交叉学科,处理不同领域的文本数据分析。许多旨在解决机器学习中广泛问题的算法——例如主题发现、实体识别和自动文本摘要——与信息检索算法一起被应用于分析从在线报纸和社交媒体收集的开源信息。这使得研究人员能够快速对大量数据进行分类,识别语义模式,翻译和归纳长文档,并通过情绪分析检测行为变化

地理空间工具是指开源信息直接或间接将一个或一组行为者置于空间中的任何方法。商业卫星图像和其他遥感工具的出现使地理空间开源情报OSINT)在分析师中非常受欢迎,他们现在可以用卫星图像覆盖从网络挖掘的位置,可视化随时间的移动,以及位置之间的连接。地理空间开源情报OSINT)的应用包括地理定位、地理推理等。在没有明确的地理标记信息和地理参照即唯一识别地理对象的情况下检索用户的位置。

基于网络的工具涉及使用借自网络科学的措施,网络科学是研究实体之间成对关系的学科。社交网络数据成为开源情报OSINT)的重要来源,因为关系可以很容易地获取和映射,识别参与者之间关系的强度。然后可以为网络中的实体计算集中性度量,允许分析者量化每个单元在调节通过该组的信息流方面的相对重要性。这些工具在研究恐怖主义网络方面具有重要的应用,以及他们越来越多地利用大量的在线社交网络数据来获得更准确的估计。

最后,视觉取证工具是从图像和视频文件中提取有价值信息的技术。例如,存储在数码相机和智能手机中可交换图像文件格式(EXIF)下的元数据可以产生关键的情报,例如创建文件的日期、时间和位置。此外,用于检测篡改图像和进行摄影测量分析(从照片和视频中获取测量结果)的工具也可提供给开源情报分析员。

对大多数收集和分析过程自动化对人工智能(AI)的日益依赖预示着第三代开源情报(OSINT)的出现,它更多地依赖于计算机算法和自动推理,而不是分析师的监督。

上面的历史解释说明了提供开源情报OSINT)的统一定义是多么困难。事实上,与其他情报收集学科不同,开源情报(OSINT)得到了数字世界的发展的帮助,其领域也随之扩大。随着新的数据源变得广泛可用,可以从中吸取以前隐藏的新模式,进一步模糊了不同情报实践之间的界限(例如,见WilliamsBlum 2018中关于将开源情报OSINT)扩展到增强现实领域的讨论)。

然而,尽管有这些困难,上述介绍足以说明开源情报OSINT)的深远可能性并介绍我们的工作。正如预期的那样,在接下来的几页中,我们将回顾有关第二代和第三代开源情报OSINT)的治理、伦理、法律和社会影响(GELSI)的文献。虽然治理、道德、法律和社会影响(GELSI)框架的正式定义尚未制定,但我们采取了广泛的方法(如第三节中的关键词说明所示),并将任何论述使用AI的开源情报(OSINT)带来的有意义变化或潜在危害的文章以及此类问题的拟议解决方案视为GELSI相关文献。下一节解释我们如何进行。

3.         方法

为了创建我们的书目数据集,我们使用了PublishorPerish,这是一个允许研究人员查询多个学术数据库并导出结果参考列表以进行分析的程序。我们查询了Google ScholarScopus两个主要的学术数据库。为了包含尽可能多的材料,我们只需要在论文标题中使用“Open Source Intelligence”或其缩写词“Open-Source Intelligence(OSINT)”。在单独的搜索中,我们为短语“Open Source Information”及其首字母缩写词“OSINF”指定了相同的标准。我们在两个数据库上运行相同的两个查询,总共运行四个查询。表1总结了该搜索的结果以及PoP提供的结果的数量。导出数据集后,对这些数据集进行连接和扫描,以删除平台内部和平台之间的重复数据以及与当前分析无关的工作。这些文件包括硕士论文、会议演讲、执行摘要和其他包含搜索词但在不同的、不相关的上下文中的文件。

表1 PoP查询结果摘要

数据库

关键词

返回数   

    已列入数

Google Scholar

开源情报或开源情报(OSINT)

625

185

  440(54%)

Scopus

开源情报或开源情报(OSINT)

167

511

131(60%)

共计

4

1027

571(55%)

如右列所示,两个数据库中最终删除的条目数都很高。一旦删除,这留下了571篇论文或大约55%的原始数据集。作为数据清理和收集过程的最后一步,我们在网上抓取论文摘要。

其书目文件中的摘要条目,但是摘要仅可用于取自Google Scholar的条目,并且仅是从搜索结果页面下载的预览。因此,我们设计了一个解析脚本,根据每篇文章的数字对象标识符(DOI)检索摘要文本。由于数字对象标识符(DOI)的HTML结构变化很大,因此脚本的回收率仅为43.87%。因此,当无法爬取摘要或数字对象标识符(DOI)丢失时,PoP摘要则被保留。

在最初的数据清理步骤之后,我们执行了一个关键词搜索例程,将数据集分割为不同的文献流。首先,我们遍历每个条目的标题、摘要和日志名称,以识别那些属于从业者文献(Practitioner Literature)的文献,我们将其定义为涉及开源情报OSINT)收集、分析和解释的实际方面的作品,特别关注数字开源情报OSINT)。这些文件涵盖了广泛的主题,如开发用于开源情报OSINT)收集的高效数据挖掘技术,创建用于社交媒体情报的开源情报OSINT)平台,优化用于实体排名和识别的自然语言处理(NLP)算法,或使用深度学习模型根据开源情报OSINT)数据进行网络威胁分类。然而,他们的研究具有共同的应用性质,专注于在开源情报OSINT)周期的每个阶段出现的问题的算法解决方案。

表2用于分类书目数据集的关键字列表

分类标题关键字摘要关键字
杂志/书关键字
论文数量
从业者文献
分析-自适应共振理论算法人工智能自动化-自动化-自动化大数据-云计算-聚类反恐-新冠病毒-网络攻击-网络威胁情报-暗网-数据挖掘-数据集-深度学习检测-实体排名-提取地理篱笆-地理信息系统gis图像识别信息技术陆地卫星激光雷达潜狄利克利分配-机器学习-马尔蒂戈映射-数学-方法-度量挖掘-模型-监测系统- mpeg命名实体识别自然语言自然语言处理-网络分析网络科学-网络威胁NLP -神经网络-核-密码平台-从业者-扩散定量-收割者- scada种子-矿工语义-情感分析社会工程-社交网络智能统计-统计系统收集技术-电报-文本数据-工具工具包tor twitter - whatsapp
自适应共振理论-自动化自动化爬行网络安全数据挖掘数据集深度学习潜狄利克雷分配maltego挖掘命名实体识别自然语言处理nlp神经网络抓取-统计非结构化文本
自动化的电脑理科电工电子工程信息系统管理营销数学数学物理- software - statisticthreat
255
GELSI文献
问责制-审计-审计-偏见-欺诈-关注-法院刑事诉讼歧视教育环境伦理意涵伦理伦理一般数据保护条例GDPR治理人权身份信息安全行为互联网时代司法法律法律意涵立法立法叙事监督隐私可靠性监管监管权审查社会意涵社会监督透明-真实-受害者-暴力
问责制-审计审计-道德意涵一般数据保护条例-人权-司法——法律意涵立法立法——监管隐私监管社会影响透明度
伦理-人权法-法律-政策-监管-监管——社会
69
情报文献
剩余未列入上述分类的


247
合计
114
38
23
571

一旦从业者文献被从我们的数据集中删除,我们留下我们所定义的情报文献,即那些处理开源情报OSINT)作为学科的文档。这又是一个宽泛的分类,除其他主题外,包括学科出现和演变的历史描述,关于开源情报(OSINT)应用的案例研究,以及对使用开源情报(OSINT)优于标准智能的优缺点的理论研究。从开源情报(OSINT)文献的这个领域,我们试图提取任何与治理、伦理、法律和社会影响(GELSI)框架相关的文章。为此,我们对论文标题、摘要和期刊名称进行了第二次关键字搜索。在表2中提供了用于标识每个链的关键字列表及其位置。使用的一些关键词非常具体(针对在关键词搜索之前确定的特定论文)。然而,大多数是通用的,可以在开源情报(OSINT)语料库之外应用。这种做法并非没有问题。事实上,一些论文可能在任何领域缺乏指定的关键词,因此属于情报类别,而属于其他两个之一。此外,一些条目可以是难以分类,其内容不完全适合上述任何类别。然而,对结果数据集条目的直接和仔细检查显示,只有一小部分论文被错误分类。这一错误已得到纠正。大多数问题只涉及从业者和情报部门之间的一些微小重叠,这不是本审查的重点。

一旦指定了关键字并返回了文献流,我们在图1中绘制了它们的百分比分布。


GELSI主题的论文仅占整个语料库的12%左右,而其余的论文则平均分为从业者和情报两个部分。在图2中,我们可视化了开源情报OSINT)文献在过去三十年中的演变。

图2 OSINT历年文献(1992-2021年)

1990年代初以来,特别是最近十年,发表的文章数量急剧增加。尽管从业者文献的增长率最高,但治理、道德、法律和社会影响(GELSI)学术研究近年来也显著增长。这证明了开发最新实用工具以处理日益增多的开源情报(OSINT)数据的重要性,以及对可行伦理的需求

以及处理这些工具的法律框架。看看上面的图表,这种需要似乎只得到了部分解决。实际上,治理、伦理、法律和社会影响(GELSI)学术研究仅仅是更广泛的开源情报OSINT)文献中仅次于出版物的数量。然而,人们也可能有兴趣检查每个出版物对其他出版物的影响力。图3显示了每篇论文每年收到的引文数量,用引文数量除以发表以来的年数。除了从业者和情报文献中几个非常有影响力的异常值外,大多数论文每年都围绕相同的引文绩效进行聚类,无论研究领域如何。在过去几年中可以发现略有上升的趋势,这与出版物数量的总体增长相符。

图3论文引用散点图

相反,如果我们将每个文学领域作为一个单独的语料库,即。我们通过每年在同一领域的出版物数量标准化引用率,我们获得年平均引用率,我们正式将其定义为:

其中T = {1992, …, 2022}, 𝑁(𝑡, 𝑓) ∈ ℕf域在t年发表的论文数,𝑐𝑖(𝑡, 𝑓)为引文数,𝑖 ∈ {1, … , 𝑁(𝑡, 𝑓)}来自年份t收到的字段f。因此,年平均引用率是年/和域f的函数。这些比率如图4所示。

4按研究领域分列的年平均引用率

通过这种方式,我们得到的不是具体论文的相对重要性,而是对每个领域的相对重要性及其多年来的演变情况的粗略估计。尽管图中没有明显的趋势可察觉,但我们可以看到治理、道德、法律和社会影响(GELSI)论文如何突然脱颖而出,并显得非常有影响力,有时甚至超过其他领域的论文,尽管只有开源情报OSINT)语料库的12%

最后,对量化每个领域的相对影响有用的另一个度量是Google Scholar排名,即每篇论文在Google Scholar查询中的位置。图5显示了每个子领域的Google Scholar排名的频率分布。注意,这些等级由PoP在表1中的每个查询之后自动记录,因此它们不受任何后面的关键字搜索的影响。

5谷歌学者排名的频率分布

事实上,虽然技术和情报文章在级别分布上几乎重叠,但治理、道德、法律和社会影响(GELSI)论文将大部分价值观集中在顶层,之后不久就下降。结果发现,72%的治理、道德、法律和社会影响(GELSI)论文出现在前200个结果中,而其余的则下降到54%左右通过计算优势比,我们发现治理、道德、法律和社会影响(GELSI)论文被分配在1200之间的等级的可能性是属于任何其他领域的论文的两倍(p<0.01)。

已经表明引用计数在Google Scholars排名算法中起主要作用。然而,正如上面的图表和计算所示,这不是计算每篇论文排名时考虑的唯一指标。事实上,其他变量,如论文的作者和日记,也会影响排名。开源情报语料库中涉及其伦理、法律和社会影响的一小部分更有可能被最著名的学术搜索引擎之一排名高于其余较大文献的事实证明了这一领域的相关性,尽管出版物数量很少。因此,深入研究OSINT-GELSI文献,并为研究人员如何进一步开发该文献提供指导至关重要。

在整个审查过程中,我们还参考了不属于本文描述的书目数据集的论文,因为它们不符合任何查询要求,或者因为它们被认为有助于为讨论的主题提供必要的背景。实际上,在其他(甚至可能是松散相关的)领域中提出的问题可以很容易地应用于开源情报OSINT)领域,就现代开源情报OSINT)应用的规范框架而言,可以获得很多好处。下一节介绍分析的结果。

4.        OSINT-GELSI文献综述

在分析了相关文献之后,图6提供了在更全面的开源情报OSINT)语料库背景下对治理、伦理、法律和社会影响(GELSI)学术研究的拟议分类,以及每个领域的一些最突出的主题。事实证明,我们可以区分两个主要层次的分析。

图6提出的OSINT-GELSI分类法

微观层面涉及开源情报对个人和组织的影响,重点是开源情报周期带来的法律和道德挑战,特别是围绕收集阶段出现的隐私问题。我们在第4.1节中分析涉及这些方面的文件。

宏观层面关注开源情报OSINT)对整个社会的影响。这些文件侧重于开源信息的社会、治理甚至行为影响,涉及公民行动的出现以及开源情报OSINT)数据和技术主流化引发的用户在线习惯改变等问题。我们研究这些主题,并在第4.2节强调这些文件中提出的主要论点。

最后,在第4.3节中,考虑到开源情报(OSINT)分析师对人工智能(AI)算法的日益依赖,我们考虑OSINT-GELSI文献将如何发展。在微观层面,这些新出现的趋势包括在开源情报(OSINT)周期的处理和传播阶段对人工智能(AI)算法进行审计,而在宏观层面,这些趋势围绕不对称的技术优势和机构问责问题。此外,继GlassmanKang2012)之后,我们还将开源情报OSINT)视为解决问题的策略,改变用户处理信息的方式,并关注人工智能(AI)可能会如何影响这个过程。

4.1        微观层面的开源情报的治理、伦理、法律和社会影响

治理、伦理、法律和社会影响(GELSI)文献中的第一个最突出的主题涉及第二代和第三代开源情报OSINT)的微观影响。该研究主要研究开源数据收集和分析的法律和伦理方面。Koops(2013)认为,一些信息是公开的这一事实并不意味着应该完全放弃隐私问题。此外,现代开源情报OSINT)技术可以聚合几块信息,并识别自然人,即使每个元素来自匿名来源(剖析)。因此,文献(RahmanIvens 2020)非常清楚地表明,需要一个框架来解决开源情报对个人权利的影响。如此之多,以致于欧洲一些处理开源情报(OSINT)调查中的隐私问题的项目多年来得到了资助。这些项目旨在为执法机构(LEAs)在不同警务背景下检索、分析、管理和传播开源情报(OSINT)开发平台解决方案,跟踪不断发展的欧洲数据保护框架。

因此,许多文献已产生的实践者以及治理、道德、法律和社会影响部门。虽然后者主要侧重于作为欧洲研究项目的一部分开发的具体开源情报(OSINT)软件工具,但也列出了主要的伦理和法律问题。关键问题是开源情报OSINT)调查对个人隐私的影响,解决这些问题的直接框架是设计隐私。CavoukianBorking1990年代将这一概念纳入主流,后来被纳入数据保护立法与隐私增强技术(PETs)的创建相关联,该技术旨在在数据分析软件和平台的设计期间保护个人隐私。已经提出了若干原则来默认实现这种行为。ColeskyHoepmanHillen2016)将它们归纳为八种策略,这些策略应该指导设计隐私(PbD)策略:最小化、隐藏、抽象、分离、通知、控制、执行和演示。这些策略涵盖数据收集和使用阶段,包括加密、匿名化、数据聚合、知情同意和审计策略等基本工具。

此外,KoopsHoepmanLeenes(2013)提出了两种将设计隐私(PbD)原则直接纳入开源情报(OSINT)平台的方法:可撤销隐私和企业隐私策略。第一个目标是通过允许仅在满足预定条件的情况下访问个人数据来执行数据最小化策略。这可以通过分散责任来实现,即。依靠第三方来验证条件是否已发生并释放相关数据,或者通过自我实施的架构,即一组硬编码的规则,如果由某个前提条件触发,可以自动授予对相关数据的访问权。

企业隐私策略使用技术本身来实现隐私规则。具体而言,它们需要策略标记语言来定义所需的数据管理和访问规则。这样,可以在机器代码中嵌入更复杂的法律遵从机制。

在考虑开源情报OSINT)平台的法律影响时,另一个关键方面是创建和维护专门本体,这些本体旨在自动化分析的部分,如文档摘要或实体提取。这些本体需要被正确地指定,以便在机构之间互操作,并且需要频繁地更新以跟上不断发展的监管框架。本体被正式定义为“(meta)数据模式,提供概念的受控词汇表,每个概念具有显式定义的和机器可处理的语义。它们在设计语义网络监管模型(SWRM)方面发挥着至关重要的作用,该模型将规范、规则和伦理原则编码成机器可读的监管,然后可以在不同的组织和国家适用。然而,当涉及到开源情报(OSINT)时,本体规则仅被部分解决。正如卡萨诺瓦斯等人所言。这里没有中立的本体。它们有目的和特殊形状,需要定期更新。因此,在治理、伦理、法律和社会影响(GELSI)文献中,特别是考虑到开源情报(OSINT)来源的不同性质及其对手可能利用它的潜在欺骗性使用,需要定义(和维护)用于开源情报(OSINT)分析的本体的实用框架。

其他作者将重点从隐私增强技术(PET)转移到其他法律手段,以解决开源情报OSINT隐私悖论,即信息免费提供(非私人),但有时也极其敏感和个人(因此私人)。文献中提供的一个假设解决方案来自Nissenbaum(2004)。它认为隐私是上下文完整性,即任何生活领域都不得免于隐私期望,每种情况都有由明示或甚至隐含的规范规范的上下文,如果被违反,就会导致侵犯隐私。这一想法,加上将家庭概念扩展到数字领域,让每个用户可以决定谁可以进入他们的个人网络空间,将确保隐私至少得到部分保护,防止恶意使用个人数据。

事实上,目前,向缺乏经验(或恶意)的活动人士提供开源情报(OSINT)可能导致不道德甚至非法的行为,如在线共享私人信息或错误识别参与非法活动的个人。这应当引起各组织和活动网络的关切,因为违反开源情报(OSINT)社区的道德守则可能对公共安全和国家安全产生严重后果。此外,正如Shere(2020a)最近在对开源情报(OSINT)分析师的调查中所指出的那样,通用数据保护条例(GDPR)未能在开源情报(OSINT)收集能力方面提供重大改变,任何有意义的改变都只是由于社交媒体公司更新隐私设置。Hu2016)在开源情报(OSINT)实践的五大伦理关注点中总结了参与OSINT调查的个人和团体的这些和其他关注点。它们包括来源的来源和意图,应仔细审查,因为它们可能使结果分析产生偏差(在以下各节中更多地讨论这一错误信息方面);传播未保密但仍然敏感的信息,这可能会伤害所涉人员;过度依赖自动化分析,如果不加以制止,可能导致错误。此外,马赛克效应,即通过整合不同的数据来源可以识别数据主体,以及成功的开源情报(OSINT)调查所产生的过度宣传,也是分析师关切的来源。

这些方面也进入了法律领域。事实上,作为情报的开源情报和作为刑事诉讼证据的开源情报是有区别的(Sampson2016年)。虽然几乎任何信息在服务于特定目的时可被视为情报,但在后一种情况下,证据材料必须进一步回答可受理性和重要性问题。具体而言,必须证明证据与所涉事实有关,而且必须先确定其可靠性,然后才能被接受。查看《欧洲人权公约》签署方(ECHR)的一般情况,Sampson2017年)确定了使用开源情报(OSINT)作为证据的一些程序问题,主要涉及ECHR所体现的公平原则。一般而言,除了针对具体国家的立法外,预计在刑事审判中向被告披露证据。此外,许多开源情报(OSINT)材料的传闻性质可能导致它们在法庭上被驳回。据提交人称,有三个主要因素决定了开源情报数据作为证据在刑事审判中的可采性。首先,材料的来源要求清楚地确定数据来源,而且收集程序是合法的。在数字开源情报(OSINT)的具体案例中,Lyle2016)提供了一些执法部门非法收集开源情报(OSINT)的例子,例如在社交媒体上冒充某人,这需要特定的法律权威,并将损害开源情报(OSINT)材料在法庭上的可采性。第二,数据完整性涉及证据本身的可靠性。如果数据可能很容易被篡改(例如,见Koenig的深度伪造案(2019年)),其可采性和权重将受到质疑。最后一个需要考虑的方面是提交人提供证据的可靠性。如果材料来自匿名来源或提交人无法证实证据,这些数据可能会在审判期间被拒绝(Sampson2017)

虽然微观层面的大多数学术研究都涉及数据主体以及如何适当保障其权利,但还有另一条重要研究路线,涉及对进行分析的开源情报(OSINT)从业人员产生的潜在危害。其中一个主要风险被称为替代性创伤,即处理描述暴力的材料造成的心理创伤。虽然降低替代性创伤影响的安全程序和建议,如消除声音和降低视频分辨率,早已出现在开源情报OSINT)社区(Parry 2017),但识别和标记潜在敏感数字内容的自动化框架也已经被提出(Breton etAI 2021)

4.2       宏观层面上的开源情报(OSINT)的治理、伦理、法律和社会影响(GELSI)

在宏观分析层面,重点从个人、软件解决方案和组织转移到关于开源情报OSINT)的社会和政治影响的更广泛的辩论。在这里,我们发现关于开源情报OSINT)的论文比较抽象,不仅限于情报研究领域,还包括更广泛的社会科学文献。这些文献部分反映了开源黑客社区的经验。这些社区围绕透明、真相和信任的共同精神诞生和培育(Steele2012),在互联网的早期蓬勃发展。他们负责开发几个开源项目,从操作系统到Web服务器。通过可信用户系统,一大批程序员能够在从事定义明确的项目时几乎实时地更新代码和共享信息,从而巩固了互联网作为互联思想的新生态的思想(Glassman 2013,682)。

与其软件类似,开源情报被描述为信息获取民主化和促进公民行动,消除任何中介,并允许合作寻找真相。由于开源情报(OSINT)从业人员之间的共同道德准则优先考虑透明度和问责制,反对使用诡计,并将调查限于被动侦察BelghithVenkatagiriLuther 20222),一些技术自由主义边缘人士认为,开源情报(OSINT)将能够加强对政府秘密活动的监督,从而减少安全机构的侵入范围,最终导致开源一切社会(Steele2012年)。

有趣的是,这一观点与人类认知的本质和演化的长期争论有关。Glassman和Kang(2012)将开源情报(OSINT)解释为Horn和Cattell(1967)定义的两个智能类别之间的桥梁:流体智能和结晶智能。同时前者代表了基于抽象和模式检测的更直观的解决问题的方法,如童年所见,后者将情报定义为通过应用通过经验已经学到的方法和工具来解决问题的能力,因此在人类发展的后期阶段更加突出。因此,明晰的情报通常应用于已知问题,并使用众所周知和文化上共享的问题解决策略,而当面对需要抽象思维和心理灵活性的新问题时,则依赖于流畅的情报。根据作者的说法,开源情报OSINT)可以将来流体智能的洞察力和创造力带到更加编纂化和基于社区的文化情报领域。自由访问网络和开源信息的横向性质使这一进程成为可能,从而得以采用可在(虚拟)社区众包的新方法开展调查工作。正如作者所说:

开源情报OSINT)是一种受控的探索,它开放新的和潜在的联系和可能性,并结合有重点的问题解决。OSINT促进能够超越社会和文化边界的目标导向活动。

克服文化界限的能力由公民/分析员可获得的未过滤信息的持续流动来确保,并构成在创建智能国家方面向前迈出的一步,用Robert David Steele的话说:

教育每个公民并使其成为法律、道德、开源情报的收集者、生产者和消费者,并成为全人类真正情报界的活跃成员——作为一个整体相互联系、作为一个整体思考、作为一个整体行动(Steele2012)。

然后,一批聪明国家将建立一个全球环境,一个建立在多国信息共享和感性创造基础上的世界共同体(Steele 2012)。这种根本的社会变革在智慧治理文献中找到了重要的相似之处,即通过国家和非国家行为体之间的动态对话来实现有意义的社会变革(Willke2007年)。在这种情况下,开源情报OSINT)被视为平衡竞争环境和确保有利于对话的透明度的关键工具。

虽然上述文章强调了开源情报(OSINT)的性质如何使其成为民主监督的重要工具,但当当局利用它来加强社会控制时,这种性质也可以被视为对公民权利的威胁(Wells2016年)。长期以来,文献(EijkmanWeggemans2012年)一直对国家监测和特征分析增多以及国家当局和私营公司分析和基于OSINT的决策不透明表示关切。事实上,也有证据表明,公众对国家监控做法的日益认识和对貌相的恐惧可能导致用户考虑隐瞒甚至伪造在线共享的个人信息(BayerlAkhgar2015)。同样,对开源情报OSINT)工具和功能的认识已经与IT专业人员更强有力的安全行为联系起来(Daniels2016年)。因此,教育用户了解其在线活动的影响的努力已经出现,并有可能强化这一趋势(Parry 2017Young et ai 2018)

再加上国内和国际事务中虚假信息战略的盛行,导致开源情报领域的混乱,并对调查期间收集的开源情报数据的可靠性产生明显影响(Miller 2018Olaru§tefan 2018)开放不等于真实,在开源情报(OSINT)方面,由于缺乏检测和过滤伪造信息的共享标准,每个分析员迄今都依靠自己的部门经验来验证收集的情报。就像麦基翁(2014)指出,这可能导致各分析师在报告准确性方面存在显著差异,因为一些人可能认为来源可靠,而另一些人则不然。这可能导致不信任的恶性循环,其中开源情报(OSINT)来源日益受到不可靠信息的污染,如果不及时识别,可能会影响决策过程。

4.3        未来研究方向:人工智能和开源情报的治理、伦理、法律和社会影响

在图6的底部列出了一些建议,用于未来研究开源情报OSINT)和人工智能(AI)在微观和宏观层面的相互作用。随着人工智能(AI)算法与日常开源情报(OSINT)实践紧密交织,我们发现这些发展最有可能发生在即将到来的开源情报(OSINT)文献中。

在微观层面,OSINT-GELSI学术研究迄今一直关注开源情报OSINT)管道的知识检索和管理方面。然而,目前的立法很少重视分析和使用机器收集的开源情报(OSINT)的阶段。以育种者等人的工作为基础。(2017)等人工智能(AI)审计文献中,应更加努力开发理论框架,以规范数据分析阶段中可能影响算法性能(即变量选择、模型权重、优化算法等)。

此外,关于算法不透明度的更全面的学术研究可以为未来关于开源情报OSINT)和人工智能(AI)的文献提供信息。Burrell(2016)指出了导致人工智能(AI)算法应用方式整体缺乏透明度的三个主要来源。第一,公司保密,涉及公司故意隐瞒算法的内部运作,以保护其产品。建议的解决方案主要在立法方面,涉及制定披露和审计框架,其中受信任的第三方将负责审查守则并确保符合适当的道德标准(Pasquale2015年;Lu2020年)。不透明的第二个来源是技术素养,涉及编写和阅读计算机代码的专业性质,这使得最终用户和监管者难以充分了解人工智能(AI)算法的机理和结果。提高计算机知识和计算思维Lee et ai)。人们认为,在民间社会的关键部门中,消除这种不透明根源的关键一步。最后,许多机器学习模型的黑盒结构使得难以正确地解释结果,即使对于实践者也是如此。对多组件系统的依赖只会增加整个基础设施的复杂性,进一步增加审计所需的时间和精力。已经提出了不同的解决方案来处理这种复杂性。他们主要专注于技术工具,可以降低数据的维度,创建可以评估算法公平性的度量,并提供关键变量之间关系的图形可视化以帮助分析(Dwork et ai 2012年;PaudyalWilliam Wong 2018)

当涉及到开源情报OSINT)数据时,透明度甚至更为重要。事实上,虽然许多审计策略适用于所有数据类型,但开源数据必须满足更严格的有效性要求,并且在设计监管策略时应该被特别确定为优先事项。此外,由于通过机器学习算法的准确性评估近年来一直在增长(ManzoorSingla2019年),关于错误信息检测的应用文献也可能在设计筛选不相关数据的策略方面发挥重要作用,从而防止或至少减少分析期间的有偏见的结果。在设计开源信息自动准确性评估框架方面已经进行了一些尝试(例如,见Lozano等人,2015年)。然而,使用人工智能(AI)来验证数据也提出了重要的伦理问题,这些问题在很大程度上没有得到回答,如Lozano等人。(2020年)指出。其中一些问题涉及在数据贴错标签时的责任分配,以及首先确定准确性的最佳程序。

考虑到最初的开源运动精神,可以设想监督机制本身就是开源的。例如,发布在线调查期间使用的算法的源代码,以及更新的数据集及其各自的准确性评估。然而,考虑到大多数开源情报(OSINT)调查的秘密性质,这并不是极端不可能的。这也可能适得其反,因为国家当局公布的数据可能被有意攻击敌方基础设施的行为体用作情报。

至于更广泛的隐私问题,人工智能(AI)算法可能会威胁第4.1节概述的设计隐私(PbD)策略和其他解决方案,例如上下文完整性方法,特别是数据保留和最小化原则。事实证明,分析师可能会倾向于将用户的信息存储在他们的数据库中,特别是因为今天看起来毫无用处的数据可能在未来被证明是相关的。这种现象在文献(Koops 2021)中被称为函数蠕变,已经在开源情报(OSINT)调查(Trottier 2015)中观察到,并且随着不断增长的计算能力允许人工智能(AI)算法处理大量特征,这种现象可能变得更加突出。

将人工智能(AI)工具集成到数据获取和分析例程中,在从情报收集转向证据呈现时也会提供法律挑战。已经观察到认知和技术偏见如何通过基于分析师查询或搜索引擎的结果排名缩小搜索空间而影响数字开源情报(OSINT)收集(McDermottKoenigMurray 202192-93)。因此,依靠自动收集和分析可能会放大这些偏见,并在刑事审判中使用情报作为证据的情况下提出可接受性问题。

在宏观层面,关于开源情报(OSINT)的治理、道德、法律和社会影响(GELSI)的研究应解决AI驱动的开源情报(OSINT)可能使公开信息的监督潜力失效的问题(如开源运动所声称的那样)。事实上,人工智能(AI)算法的可用性增加了数据处理能力(在较小的程度上,增加了虚假信息检测),而且这样做是不对称的。标准开源情报(OSINT)收集和分析方法侧重于选择适当的数据源,只需要有限地掌握技术解决方案。然而,自动化收集和分析涉及对人工智能(AI)算法的更深入的理解。这些知识在潜在的开源情报OSINT)用户之间分布不均,有利于那些拥有更大计算能力和更好专业知识的用户。大多数面向公众的商业解决方案(无论是免费的还是基于订阅的)都大量使用自动收集情报的网络爬虫(Pastor-Galindoetai)。2020)。然而,当前可用的软件在分析阶段没有提供人工智能(AI)算法,这些算法必须单独编码。因此,在未来,能够利用人工智能(AI)解决方案分析开源数据的分析师将比其他分析师拥有相对技术优势,能够在相当短的时间内对大量数据进行处理和分类。这种冲突可能同时出现在不同的国家和非国家行为体之间,威胁到开源情报数据的监督作用,并加剧其监视和社会控制方面。此外,如Bean(2011)所述,将情报外包给私营公司的普遍趋势可能在公共和私营部门之间造成更大的摩擦,当更好的算法产生更好(情报)产品时更是如此。

OSINT-GELSI文献中需要解决的另一个基本问题是人工智能(AI)是否会阻止开源情报(OSINT)维持流体智能和结晶智能之间的平衡。虽然开源情报(OSINT)确实可以将分析师推到由结晶知识通过其流体智能属性确定的传统调查路线之外,但目前的人工智能(AI)系统确实遵循与结晶智能密切相关的问题解决策略。建立受监督的机器学习以允许计算机算法从认可知识体(标记数据)学习变量依赖性,以识别未见数据中的类似模式。事实上,尽管多次尝试开发用于抽象推理的新学习模型,但有人认为,人工智能(AI)算法只能实现结晶智能,因为它们被设计成仅处理给定任务(或一组有限的任务),而不能够将其知识概括为以前看不到的问题(DavidsonWalker 2019van der MaasSnoek,和史蒂文森2021,5)。例如,考虑数字媒体的情况。虽然有可能从数字开源训练算法来检测敌方战斗人员,但如果没有训练相同的算法来识别这些数据,则不太可能推断出其他重要的情报,如地理位置数据。同时,如果没有专门的培训,将几乎不可能评估媒体数据的背景,并确定,例如,这是否为出于虚假信息目的传播的无关军事演习的电影或录像的摘录。因此,任何由人工智能(AI)算法辅助的开源情报(OSINT)分析都严重依赖于结晶的智能方法,每次任务需要更高水平的行为灵活性和

适应性”(SchillingRitterOhl 2019)。此外,过度依赖开源情报OSINT)软件(如第4.1节所述)可能会使这种情况恶化。实际上,当开源情报(OSINT)数据被自动爬取和分析时,只有重要的匹配通过分析师查询返回,一些关键的细节可能完全丢失。这个问题在文献中已经出现,并将继续占主导地位(Odom 2008,325)Eldridge,Hobbs和Moran(2018)认为,开源情报(OSINT)分析永远不应摆脱其人为成分,“联合认知系统”(Eldridge,Hobbs和Moran 2018,22)的设计应在分析师和算法之间达成最佳平衡。

5.     结论

本文系统地回顾了关于开源情报OSINT)的治理、伦理、法律和社会影响(GELSI)文献。OSINT-GELSI研究大致可分为两大类,从微观和宏观层次分析。在微观层面,作者研究了开源情报(OSINT)对个人和组织的影响,在开发利用开源情报(OSINT)资源的软件过程中处理隐私问题和监督机制。在宏观层面,主要侧重于开源情报(OSINT)数据的制作和提供的社会和政治影响。一些文章分析了开源情报OSINT)工具和功能的提高如何改变在线习惯,许多用户决定分享较少的个人信息或转向匿名以限制其在线暴露。与此同时,其他文章结合了更广泛的开源运动文献,反思了开源情报OSINT)在流体智能和结晶智能之间的关系中的作用,导致情报的日益民主化和更透明社会的创建。

通过人工智能(AI)算法增强的开源情报(OSINT)研究正在兴起,并且可能成为未来OSINT-GELSI研究的主导。在微观层面,应更加重视审计文献。特别是,需要更多的研究来处理监管战略,以监督和指导通过数据挖掘和机器学习技术开展的信息收集和分析过程。随着更多的数据被自动收集、处理和标记以供进一步使用,这变得越来越紧迫。由于开源情报OSINT)数据存在许多可靠性问题,因此应特别关注OSINT数据。应该瞄准的一个关键特性是使用开源情报OSINT)进行故意的虚假信息,这可能很容易改变更复杂的算法,并污染用于训练它们的数据集。应该设计有效的诊断技术来解决这个问题,尽量减少错误,从而减少将偏见纳入开源情报(OSINT)调查结果的风险。

在宏观层面上,OSINT-GELSI文献应该关注人工智能(AI)在形成开源情报OSINT)与社会之间的关系中的作用。例如,虽然人们相信开源情报(OSINT)构成了结晶智能和流体智能之间的桥梁,但机器学习算法的本质将人工智能(AI)置于前者的群组中。这意味着,人工智能(AI)开源情报(OSINT)工具中日益集成,依赖自动化而不是以人为本的分析,可能会将平衡转向对开源情报(OSINT)问题的明确方法。在宏观一级需要考虑的另一个重要后果是,开源情报(OSINT)工具所有者的性质在不断变化,这些工具已成为公共和私人使用的唯一情报提供者。

作为一般性建议,OSINT-GELSI 奖学金应更加了解开源情报(OSINT)从业者文献的结果,以掌握新出现的趋势,并能够对其提出的潜在伦理挑战迅速作出反应。正如我们在前面几节中讨论的,开源情报(OSINT)不仅通过技术得到改进。随着新的信息来源公开,其范围不断扩大。然而,数据越复杂(以及数据池越大),收集和分析就越复杂。因此,拥有足够计算能力和适当专门知识的国家和非国家行为体将比其他行为体拥有相对技术优势。因此,对开源情报(OSINT)工具和技术的全面治理、伦理、法律和社会影响(GELSI)分析不能忽视应用文献中的最新趋势,而应试图通过查看已经出现相同问题的其他领域来预测这些趋势。加强治理、道德、法律和社会影响与应用领域之间的整合不仅是可取的,而且对解决当前和未来的道德问题是必要的。

完整原文及机器翻译已上传知识星球

长按识别下面的二维码可加入星球

里面已有6000多篇资料可供下载

越早加入越便宜

续费五折优惠


文章来源: http://mp.weixin.qq.com/s?__biz=MzI2MTE0NTE3Mw==&mid=2651134328&idx=1&sn=fed45f69d1896278c5c8e6affb0a439c&chksm=f1af6e42c6d8e754cafa97d637c7244b3a96f16b8268a068c3fad268b0b67d70b7394e8aa1dc#rd
如有侵权请联系:admin#unsafe.sh