【AI速读】在Facebook中的开源情报(OSINT)调查
2024-2-5 16:11:15 Author: mp.weixin.qq.com(查看原文) 阅读量:18 收藏

摘要

本文概述了多种工具,这些工具能够从Facebook平台上抓取有价值的数据和重要信息,并详细介绍了这些工具的技术细节。文中通过Python和Selenium抓取“职业机会”群组中的广告图片并下载到本地文件夹的实例,展示了如何实践操作。之后,使用了一个叫Tesseract的开源算法,对下载的图片进行文本识别,并将识别出的句子添加到文本文件中。这些都是公开来源情报调查的示例,如分析招聘海报上的广告是否包含了求职者所需的全部重要信息。未来的工作将包括研究更多更新和付费的工具版本,这些工具将助力从Facebook平台上以合适的格式提取信息,并提供多种选择选项。此外,就像图片文本转换一样,还有更多的人工智能模型可以使用,例如图像分类、图像分割等,并且可以选择并下载更多其他类型的数据,比如帖子、点赞、评论和分享,并对评论进行情感分析以评价一个帖子。

本文讨论了与Facebook数据收集和分析部分相关的各种工具和方法。在本文的最后,读者将对可用的技术、工具以及这些工具提供的描述有深入而清晰的了解,以从Facebook平台上获取数据,并对收集到的数据进行各种调查和分析。

背景

OSINT已经取得了长足的发展。它仍在不断发展思想,许多调查即将很快进行。所有OSINT调查的基本要求是来自优秀来源的有价值数据信息。

本文的背景聚焦于公开来源情报(Open Source Intelligence, OSINT)在Facebook上的调查。随着OSINT理念的不断发展,未来还有许多研究将陆续进行。论文讨论了几种与Facebook数据收集及分析方法相关的工具,最终让读者对这些工具的技巧及描述有更深入清晰的理解,并揭示如何从Facebook平台抓取数据以及如何运用这些数据进行各类调查和分析。论文呈现的是截至2022年11月的Facebook上OSINT调查的状态。

结论

  • 文章对从Facebook平台上抓取有价值数据和重要信息的各种工具进行了详细描述。

  • 文中提供了清晰的技术讲解,并演示了一个具体实例:使用Python和Selenium抓取职业机会组中的广告图片并下载。

  • 进一步运用开源算法Tesseract对图片进行文本识别,并将结果存储为文本文件,以开源情报调查的方式分析了广告上的文本信息。

  • 未来工作将探索工具的更新和付费版本,以提高信息抓取和提取效率,并通过多选项进行格式化。

  • 应用更多的人工智能模型,如图像分类、图像分割,扩展数据类型(帖子、点赞、评论、分享),并进行情感分析以评价帖子内容。

Facebook是一个社交媒体平台,也在很大程度上为SOCMINT的机会做出了贡献。Facebook是数百万人访问的地方,他们在这里展示他们对各种话题的想法和兴趣;这是人们数字化言说、争论和展示情感的地方。Facebook也是一个广泛传播一般和信息性话题(如新闻、职业选择等)的平台。Facebook还扩大了其选项的多样性,如Facebook页面、Facebook群组、Facebook通话和Facebook Messenger 。所有这些选项都提供了SOCMINT更强大和更好地分析相关Facebook数据的机会。

现在,我们的主要议程是主要集中在Facebook平台上。尝试从平台上爬取必要和有价值的信息,并使用这些数据进行分析、评估和预测。有许多在线工具,特别用于Facebook数据爬取。但并非所有可用的工具都能正常工作。目前,许多工具已经过时或者不能正确地工作,或者在某些情况下,它们不能给出我们所需的精确输出。本文将评估一些目前正在工作的工具及其易用性。以下列出了一些正常工作的工具。

1、APIFY

APIFY是一个在线的网站/平台,提供了一些网络爬虫技术,包括可以在Facebook平台使用的网络爬虫,如• Facebook页面爬取器• Facebook最新帖子爬取器• Facebook最新评论爬取器。这个工具给我们一个令人满意的输出,就像我们需要的和适当的一样。这个工具非常容易使用,计算和给出输出不需要太多时间。

APIFY网址:https://console.apify.com/

在搜索框中输入“facebook”就可找到一堆与facebook相关的数据采集工具。

输入要采集的facebook网页链接地址,就可对相关信息进行爬取。

2、OSINT Combine

OSINT combine是一家由澳大利亚退伍军人拥有的全球知名公司。其中包含了许多免费工具,如:

• Sanctions Search(处罚搜索)

• TikTok Quick Search(tiktok 快速搜索)
• Social Geo Lens(社交地理透视)
• Instagram Explorer(Instagram浏览器)
• World Social Media Platforms(世界社交媒体平台)
• Snapchat Multi-viewer(Snapchat多视角观看者)
• Google Analytics ID Explorer(谷歌分析 ID 浏览器)
• OSINT Collection Schema(OSINT 收集模式)
• Reverse Image Analyzer(反向图像分析器)
• Whatsmyname Username Tool(Whatsmyname 用户名工具)
• Data Visualization Tool(数据可视化工具)
• Reddit Post Analyzer(Reddit 帖子分析器)
• Multi-search mutual friends(共同好友组合搜索)
• Multi-keyword search on a profile(个人档案多关键词搜索)
• Multi-keyword search on a page(网页多关键词搜索)
• Multi-keyword search on a group(群多关键词搜索)

• Multi-keyword search for photos(图片多关键词搜索)

OSINT Combine网址:https://www.osintcombine.com/

3、Sowsearch

Sowsearch是一个工具,它可以帮助我们使用所有适当的过滤器从Facebook平台找到正确的数据。这个工具是一个教育目的的实验项目,目前仍在开发中。这个工具与之前存在的Graph搜索工具几乎相似,使用了相同的处理方法。Sowsearch提供了各种选项和过滤器,用于在Facebook平台上进行搜索。

Sowsearch提供八种不同类型的搜索,每种搜索都有独特的筛选器用于此搜索过程:岗位、人名、照片、页面、地点、视频、事件、门楣。

Sowsearch下载网址:https://www.sowsearch.info/

4、LookupID

https://lookup-id.com/

5、Whopostedwhat

网址:https://whopostedwhat.com/

6、Nairaland

Nairaland是尼日利亚英语 互联网论坛。该网站由尼日利亚企业家Seun Osewa于 2005 年 3 月 8 日创立,主要针对尼日利亚国内居民,是尼日利亚访问量排名第六的网站。

目前,它拥有超过 300 万注册用户,迄今为止创建了超过 740 万个主题,据估计,大约有 3% 的尼日利亚互联网用户在 Nairaland 上注册,而Facebook的尼日利亚用户有 1100 万,这一比例约为 20%当地互联网人口。仅在发帖、评论或点赞帖子时才需要注册。

网址:https://www.nairaland.com/

7、Facepager

Facepager 旨在从 Facebook、Twitter 和其他基于 JSON 的 API 获取公共可用数据。

网址https://github.com/strohne/Facepager

完整原文及部分机器翻译已上传知识星球
长按识别下面的二维码可加入星球
里面已有万余篇资料可供下载
越早加入越便宜
续费五折优惠


文章来源: https://mp.weixin.qq.com/s?__biz=MzI2MTE0NTE3Mw==&mid=2651142011&idx=1&sn=f8f7aeb16db5595765cdbcb219794548&chksm=f1af4041c6d8c95796180ac9824b72ba529be0e089255708e8f851d54d2f29d6c84435fd60ed&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh