本文是阿联酋半岛电视台调查记者部主任Phil Rees所著的关于开源调查的指南,旨在帮助记者和其他专业人士了解和运用开源调查技巧进行深入报道。
开源调查
开源调查(OSINT)利用公开来源的情报技术和工具,如卫星图像、社交媒体帖子和用户生成的内容,揭露隐形事实。
规划和执行调查
记者应明确调查目标,选择合适的工具和平台,确保信息安全,并验证收集到的信息。
伦理和安全
遵守伦理规范,保护个人隐私,避免身份曝光,防范网络攻击,确保安全地进行调查。
追踪船舶和飞机
使用技术手段追踪货物和人员流动,揭露隐藏的物流线路。
识别武器
通过分析图片和视频来识别和追踪武器的使用和流通。
查明公司所有权
运用公开资料发现公司的真实所有人,揭露隐藏的幕后力量。
分析卫星图像
学习如何解读和分析卫星图像,揭示地面事件的实际情况。
工具与网络
利用现有的开放源代码工具和网络资源进行更有效的调查。
文章介绍了开源调查的基本概念、规划和执行阶段的技巧、伦理和安全问题以及相关工具与网络资源。核心观点是强调开源调查在揭露真相和推进公众利益方面的作用,同时提醒读者注意其中的风险,并提供指导以确保安全有效地进行调查。
到 2025 年,全球范围内创建、捕获和消费的数据量预计将达到每年约 2000亿 GB(比 2020 年的 700 亿 GB 有所增加)。在 Facebook 上,每分钟大约有 50 万条评论被发布,15 万张照片被上传。每天有超过 400 万小时的内容被上传到油管上。此外,每天还有7 亿条推文。
开源情报调查(OSINT)使用情报收集技术和技术,包括卫星图像、社交媒体帖子和利用用户生成的内容来揭示隐藏的信息。近年来,开源调查已成为新闻业最有价值的工具之一,这主要归功于其利用大量公开的在线信息的能力,以揭示其他方式无法呈现的故事。
收集和分析整个互联网上的公开可用 究技术调查的基础。数据和信息,包括从分析 IP 地址一直到审查公共政府记录等任何内容。
一个有效的开源研究从回答这三个问题开始:我们需要了解什么?为什么我们需要了解这些信息?谁可能掌握我们需要的信息?
首先,你必须建立一个清晰的开源信息获取和利用策略和框架。这包括确定进行哪项研究,以及如何将你的发现转化为一个引人入胜的故事。
其次,你必须确定一套以收集和处理开源情报为目的的工具和技术。
最后,正如世界上许多地方的信息被严密控制一样,知晓如何保留和存档数据依然是一个重要的要素,它能够作用于责任追究机制。
你需要一双善于发现细节的眼睛。一个成功的开源情报调查员拥有敏锐的观察技巧,能够发觉任何可能促成整体情况的微小信息。
要成为一名成功的开源调查员,你需要坚持下去完成似乎没完没了的整理数据和研究过程。
2019 年,半岛电视台的数据采编团队AJLabs 携手普利策中心,开展了一项开源调查,以便更好地理解南苏丹境内迁徙和土地权的复杂程度和规模。
为了这篇报道,卡罗琳·汤普森和克里斯滕·范·施凯与土地权益专家及统计学家合作,对南苏丹各地超过 35,000 个随机电话号码进行了调查,以描绘出这个世界上最年轻且陷入内战的国家境内流离失所的准确情况。
截至 2019 年,接近 250 万逃离家园的人逃到邻国。
由于许多记者被拒绝进入该国或甚至被禁止在该国报道,半岛电视台采用了一种通过手机调查收集的方式,这是传统新闻业无法触及的信息。这些数据包括人口统计特征、流离失所、破坏和返乡计划等方面的问题,然后通过其他报告工具(包括卫星图像、实地采访、联合国报告、公共记录、破坏照片以及国内流离失所者和难民的证词)进行验证。
结果是一个互动式的长文,其中包括地图、视频、信息图表和前后对比滑动条。
2020 年,调查记者和编辑协会(IRE)将该故事评为菲利普·迈耶奖的第三名,以表彰“一群坚定的记者的杰出范例,他们在新闻自由受到严重限制、政府可能干预、民众恐慌的情况下,使用社会科学方法找到难民危机的根源”。
记者可以依照以下四个步骤来开启他们的开源调查:
第一步:规划
在深入探究一个故事之前,你应该首先确定是否可能或需要进行调查。为了保持调查心态,始终以一系列问题开始是非常重要的。在心中牢记这些问题,你可以制定明确的策略,并选择合适的工具来搜索关键信息。在信息收集方面,记者可以选择在调查过程中与目标人物联系,或者保持与目标人物的距离,从而降低被发现的风险。
开始回答以下问题
1: 是什么引发了调查的必要性?
2: 需要解答的关键问题有哪些?
3: 哪些工具和平台可以帮助收集所需信息?
结合社交媒体数据来交叉引用你的发现。特别要注意谁是这些信息的原始来源,这些信息是什么时候发布的,以及这些信息是从哪里发布的。
使用timeye或谷歌Images进行反向图像搜索。反向图片搜索允许你上传一张图片,并立即看到这张图片首次在网络上使用的时间和地点。
第二步:组织和保护信息
一旦制定了计划,就可以开始确定将用于收集和归档数据的来源,以确保数据的安全性。尤其在处理个人资料时,不要忽视道德、安全和法律方面的考虑是很重要的。包括《通用数据保护条例》(GDPR)、《加州消费者隐私法》(CCPA)等在内的各种数据隐私法都存在,以管理个人数据的收集、使用和存储。
始终评估任何潜在的数据存储风险,并通过使用加密存储来保证证据和文档的安全。此外,不要忘记采取预防措施,以确保您的身份是安全的。
归档
包括调查新闻组织 Bellingcat、全球法律行动网络和叙利亚档案等在内的多个团体已经创建了一个用于存档和调查开源证据的标准程序。
收集、保存和建立证据集合可以作为权力滥用和侵犯人权行为的证据。
第三步:核实您的信息
收集到的原始资料必须加以分析和处理,之后才能得出有用的或可操作的结论。这包括联系人员并在多个来源中核实结果。验证是一个迭代过程,涉及三个主要阶段:
查证信息出处 - 信息从何而来?
验证内容 - 信息是否确实如其所称?
核实其相关性—这些信息是否与你的调查相符?
第四步:发布你的研究结果
最后,记者应该公布他们的发现,并展示他们调查背后的过程,以确保透明度,并与观众建立信任。确保你的发现在不同的数字平台上呈现,以确保你的故事能够得到最广泛的传播。
地理定位是确定特定事件的地理位置的过程。这可以通过使用谷歌地图或GoogleEarth等工具来匹配你正在调查的视频中看到的地理特征来完成。你可以将录像中的静态图像与卫星图像进行交叉比对,以确认视频是否确实是从某个特定地点拍摄的。在某些情况下,可以通过分析阳光和阴影来确定拍摄镜头的大致时间。例如,使用SunCalc,可以在任何给定的时间和日期,在任何给定的位置分析阴影和太阳的位置。
准备,不要恐慌:深度造假和合成媒体
雅各布·卡斯特利亚诺斯,证人
恶意的深度伪造和合成媒体——到目前为止——还没有在非自愿的性图像之外广泛传播。然而,随着新技术的快速发展,预计在未来几年,这些将越来越逼真和普遍,进一步模糊了真实与虚幻之间的界限。
对于数字调查人员和事实核查人员来说,识别合成媒体的挑战越来越大。我们已经处在这样一个时刻,依靠我们自己的眼睛来检测是不可靠的。有一些技巧可以帮助发现它们——例如,寻找可见的小故障——但这些只是伪造过程中的当前失误,会随着时间的推移而消失(你可以尝试通过麻省理工学院媒体实验室的测试自己检测深度伪造)。
使用检测工具也不能提供任何保证。
如果用于生成合成媒体的技术是未知的,那么结果往往是不可靠的,因为它们通常在网上找到低分辨率或压缩媒体。最近在缅甸发生的一起疑似深度造假事件表明,在不进一步了解如何解读结果的情况下,依赖公开可用的探测器可能会导致不准确的评估。更重要的是,最近开发深度伪造检测工具的尝试并没有提出对已知技术足够有效或足以适用于新技术的模型。
即使开发出强大的工具,它们也可能不会被广泛使用,特别是在特定的主流平台和媒体公司之外。全球南方的媒体和民间社会组织很可能会被排除在外,重要的是要倡导建立机制,使它们能够更多地使用检测设施。WITNESS呼吁在获取检测工具方面增加公平性,对全球公民社会和地方新闻编辑室的技能和能力进行投资,并建立能够及时分析严重可疑深度造假的“升级机制”。
作为解决人工智能生成或操纵媒体产生的错误信息的一种方法,越来越多的运动指出,当人工智能媒体被创建或共享时,需要披露信息(例如,参见欧盟关于虚假信息的行为准则或人工智能即将出台的合成媒体行为准则的合作伙伴关系)。“披露”可以采用标签的形式,或其他不太明显的技术,如插入机器可读的电子取证痕迹,或包含有关其来源信息的元数据。
这些技术中的任何一种都可以促进识别合成介质的过程,但如果没有适当的考虑,它们可能会开源调查。
开源情报调查引发重要的伦理关切以及法律合规性。信息可能是公开的,但个人数据可能在不同程度上受到数据隐私规定保护。利用开源调查方法时,请务必考虑以下问题:
信息来源的起源和意图:确保所有搜索都具有针对性,并且只收集与调查相关的信息。
数据是敏感的:确保您只收集公共数据和在线免费提供的数据。确保您收集的数据安全可靠地存储,以免违反数据隐私规则。
使用VPN:不要忘记保护你的身份。使用虚拟专用网络或VPN可以帮助隐藏您的位置,使您的互联网浏览更安全。
调查人员可以接触到大量的图像录像。如何降低继发性创伤的风险?
继发性创伤是指一系列与创伤相关的应激反应和症状,这些反应和症状可能是由于接触到另一个人创伤经历的图像细节而引起的。
由于来自开源调查的内容通常是非常图形化的,所以了解你自己,以及知道哪些图像对你影响最大,是很重要的。防止二次创伤的另一个因素是理解你与你正在调查的工作的个人联系。
2020年,美国伯克利法学院进行的一项研究确定了有助于减轻继发性创伤的六种一般做法:处理图形内容、限制接触图形内容、在个人生活和调查之间划一界限、在调查中引入积极性、向更有经验的调查人员学习以及采用多种技术。
自 2018 年 12 月以来,苏丹档案库—通过 Gisa 和 Mnemonic 运行的联合伙伴关系—一直在收集数字文件,对其进行存档和核实,目的是利用这些文件来协助调查、法庭案件和其他问责机制。
该项目包括几个组成部分。首先,监控团队通过每天在网上搜索人权侵犯的证据来收集材料。这可能包括苏丹实地记录者拍摄并发布在 Twitter、Facebook、抖音和其他开放平台上的照片和视频。此外,直接从合作伙伴和联系人那里收集材料,并与苏丹档案团队共享。这些照片和视频可以包括许多故事片段;它们记录了正在进行的人权侵犯行为,或前后的场景,有时还包含证词。
包括犯罪受害者的陈述。它们还可以包括公共声明、医疗记录或其他有助于我们理解到底发生了什么的信息。
起初,我们在电子表格中收集链接,以跟踪抗议暴力事件,但很快意识到,当内容发布者为自身安全删除内容,或因内容的暴力性质被平台删除时,许多链接会中断。所有那些证明事实的重要照片和视频都丢失了。我们试图在自己的电脑上下载,但需要有一个集中存储空间来保存内容并确保其安全。这就是为什么我们开始与记忆术合作,它负责运行叙利亚和也门档案馆。通过记忆术的存档,所有这些数字文件都永久保存,并包含时间戳和哈希等保管链元素,确保这些文件日后可用于法庭程序。
一旦材料被存档,我们的调查团队对内容进行分类,并确定需要验证的关键部分。验证程序包括确定视频的来源、拍摄的地点、事件发生的时间和日期以及任何其他相关背景信息。
一旦从同一事件中核实了许多视频,我们的团队就可以开始梳理那天发生的事情的真相。我们使用标准化的数据标注流程,以确保每个研究人员都使用相同的工具并得出同样的结论,而且我们会与读者分享这些方法,在这个过程中,责任的透明度至关重要。
我们最近的调查是一个名为“政变档案”的大型数据集,旨在核实反对2021年政变的任何抗议活动中发生的暴力事件的文件。在这个数据集中,我们的团队用标识符标记每一份被调查的文件,帮助我们确定谁是暴力的肇事者。这包括集中在可识别的武器、制服、车辆和这些犯罪者群体的其他指标上的标签。此外,我们还确定了任何可以帮助我们证明存在过度使用武力或非法使用人群控制技术的迹象的抗议特征。
这可以是直接向密集人群投掷催泪弹的视频,也可以是有学生和儿童在场的抗议活动中实弹的照片。
我们发布了针对抗议日的事件报告,将暴力事件或安全部队的存在分组在一起,我们可以使用这个开源文档来确认。我们还在地图上发布数据,帮助人权倡导者找到他们需要的信息,包括对特定类型的事件或可能的肇事者进行分类核实。
我们的工作已经为苏丹境内的法庭案件,以及国际律师和制裁小组做出了贡献。同时,许多记者引用了我们的调查,或者与我们合作发表了他们自己的调查。虽然法律问责程序是我们重点关注的重要部分,但我们也优先考虑确保我们保持可见性和一致性的重要性,以便这些罪行的肇事者知道他们受到监视,并且那些为自己的权利挺身而出的人知道他们被看到了。
跟踪船舶和飞机
船舶和飞机的追踪是开源情报调查中越来越有价值的技术。大多数船只都配备了自动识别系统(AIS),该系统会随着时间的推移传输船只的位置。通过收集历史 AIS 数据,调查记者可以更好地了解特定船只的去向,测量该船只在特定位置的停留时间,并检测异常的旅行行为。
选择一个船舶追踪网站。记者寻找实时航运数据的首选平台包括:- Marine-Trafc, - 船只查找器 - FleetMon
您可以使用名称搜索船只。为了确保您跟踪的船舶是正确的,请比较船舶的唯一IMO(国际海事组织)号码和smmsi(海上移动服务标识)号码。国际海事组织(IMO)编号由三个字母“IMO”加上7位数字组成,并且永远不会重新分配给另一艘船舶。MMSI号是一个唯一的数字,用于识别船舶。
使用地图在特定位置搜索一艘船。如果你不知道你想追踪的特定船只的名称,你可以通过放大或缩小特定位置来浏览地图,然后点击特定港口或航运路线的船只。
与在实地或船只上的人员进行核对。联系机组人员或其他在实地工作的人员是非常有用的。你可以尝试通过 LinkedIn或其他社交网络平台联系他们。
其他船舶追踪工具
国际海事卫星组织船舶名录-通过搜索船舶的名称,号码或呼号来查找船舶的联系信息。
海事数据库-列表和详细的航运相关的业务和港口在世界各地。
用于可视化和分析海上船舶人类活动的开放式在线平台。
切勿忘记
追踪船只的另一种方法是使用船舶监测系统(VMS),这是一种基于卫星的系统,它为位于特定位置的渔业管理部门提供数据。VMS 被用于监测渔船的位置、时间、航向和速度。它是国家和国际层面监测、控制和监督计划的关键组成部分。
AIS 和 VMS 都有局限性。如果船舶故意关闭其身份识别系统,国际、区域和国家当局、交管系统和周边船舶将无法识别或跟踪船舶。
跟踪飞机
分析飞机的飞行模式有助于调查员追踪非法商品的动向,仔细审查知名人士的行踪,揭露侦察机的存在。
要着手分析航空器的动作,理解以下重要术语是有帮助的:
ADS-B 广播(Automatic Dependent Surveillance-Broadcast (ADS-B):一种通过卫星导航或其他传感器广播飞机位置的技术,从而使开源研究者能够跟踪飞机的运动。
特定呼号(The Call Sign): 标识飞机的字母和数字。
注册编号(Registration number ): 显示在每架飞机机尾的号码。查看飞机的照片能够帮助您确定飞机的历史。两个受欢迎的航空图像站点是 planespotters.net 和jetphotos 网站。
十六进制代码(Hex code): 唯一的ICAO(国际民用航空组织)24位地址,是飞机注册证书的一部分,用于识别飞机并通过其Mode-S应答器广播。它允许实时和历史跟踪。
序列号(Serial number ):每架飞机由制造商分配一个序列号。这对于跟踪飞机在所有者、登记和国家之间的时间很有用。
国际民航组织机场代码(ICAO airport code):用于识别世界各地机场的四个字符字母数字代码。
飞机所有权(Aircraft Ownership):确定飞机所有者在理论上是可能的,但实际上很难,因为大多数国家不公开他们的登记。航空运输,CH航空,是开始寻找的好地方,也看到飞机,rzjets和观察员。
根据国际调查记者联盟的一份报告,马恩岛是一个受欢迎的飞机注册司法管辖区,提供了逃避欧盟税收的途径。马恩岛机场的国际民航组织代码为:EGNS
只要飞机的应答器是打开的,你应该能够使用以下飞行跟踪服务来跟踪它的运动:
ADS-B交换世界上最大的未经过滤的飞行数据来源。不会过滤掉要求匿名的美国飞机的信息。
flightaware允许客人用户免费跟踪选项,包括对感兴趣的飞机的警报。flightradar24允许免费跟踪航班的商业航班跟踪服务。
RadarBox24A飞行跟踪与实时地图和搜索功能。包括军用飞机在内的飞行跟踪器。它还可以监控空中交通管制的音频。
开放天空网络总部设在瑞士的非营利性协会,提供开放访问飞行跟踪控制数据。
任何人都可以部署ADS-B地面接收器,对卫星和飞机应答器传输进行三角测量。如果你有兴趣帮助增加ADS-B覆盖,你可以向flightradar24申请一个接收器。
瑞典飞机跟踪服务将免费发送ADS-B接收器(包括接收器,天线和电缆),需要10到20分钟的设置,一旦打开,将扩大ADS-B的覆盖范围。查看最新的GIJN全球飞机追踪指南
总部位于华盛顿的非营利组织c4adas发布了一个名为“伊卡洛斯航班”(Icarus Flights)的强大新系统,旨在帮助记者监控某个地理区域或特定时间段内的非法活动。伊卡洛斯工具包包括转发器数据、飞机所有权记录和分析工具。它为想要研究或记录哪些飞机在给定区域飞行的调查人员提供基于位置的搜索。