【资源】面向安全研究人员的数据科学测试平台---智能和安全信息学数据集
2021-03-10 07:30:00 Author: mp.weixin.qq.com(查看原文) 阅读量:26 收藏

该项目由美国国家科学基金会(#ACI-1443019)资助,在亚利桑那大学陈新春(Hsinchun Chen)的指导下开发。项目合作伙伴包括弗吉尼亚大学(联合PI:艾哈迈德·阿巴西 Ahmed Abbasi),德雷克塞尔大学(联合PI:克里斯·杨Chris Yang),德克萨斯大学达拉斯分校(联合PI:巴瓦尼·图雷辛厄姆Bhavani Thuraisingham)和犹他大学(联合PI:保罗·胡Paul Hu)。

这项服务首先提供了对人工智能实验室的Dark Web和Geo Web收藏集中的可下载论坛的浏览访问权限,该收藏集目前包含近4000万个帖子。每个论坛集合都包含来自成千上万作者的数以百万计的帖子,并且取决于论坛,可以是英语,阿拉伯语,法语,德语,印度尼西亚语,普什图语,俄语或乌尔都语。该存储库还包括来自弗吉尼亚大学的大量Internet网络钓鱼网站,以及托管,金融和药学网站的集合。该信息库的最新内容包括英语和俄语的黑客论坛,中国的地下市场论坛以及聊天记录,可用于研究地下行为以及黑客之间的学习方式,社交网络的形成,与地下经济的关系等等。爱国者,民兵,仇恨和链接的网站集基于南方贫困法律中心的2009年清单,可用于研究信息和社会科学中的修辞和沟通,群体动态,极端社会运动和其他主题。 https://www.azsecure-data.org/ 可以免费下载所有数据集,以用于非商业教育和研究。

使用存储库将反馈发送到[email protected]

暗网市场(DNM)

Dark Net Markets是在线网络犯罪平台,用于广告,购买和出售非法商品,包括大量与网络安全相关的工具。由于DNM与其他平台相比是相对较新的,因此在该领域有更多未开发的研究机会。自FBI关闭Alphabay暗网市场以来,梦想市场一直是最大的暗网市场。因此,亚利桑那大学的人工智能实验室在2016年和2017年收集了该市场。该收集包含有关在Dark Net Markets上投放广告的产品的数据,包括(产品名称,类别,描述,shipping_options,运输出发地,运输目的地,价格,和付款方式),卖方包括(卖方名称,member_since(日期),pgp密钥,卖方的描述,反馈评分)。DNM中的恶意产品非常重要,因为在其上宣传的某些与网络安全相关的产品无法在其他平台(如黑客社区的论坛)中找到。黑客可以将这些恶意产品用作对网络安全的潜在网络威胁。

  • 2017年DreamMarket暗网市场持续增长,并在AlphaBay关闭后成为最大的市场。该数据集包含2017年来自2092个卖家的91,463个产品列表。卖家会员的日期范围为12/4/2013-10/4/2017。市场在2017年传播了Equifax数据泄露的失窃凭证方面发挥了作用。因此,该数据集可以促进对主动网络威胁情报的研究,以防止或减轻未来数据泄露和攻击的风险。此外,鉴于此数据集中有大量产品,它有助于跨平台研究,这些研究着重于论坛和DNM之间威胁的供应链方面。这样的研究流提供了有关网络安全相关产品的传播模式和流程的见解。有关更多信息,请参阅下面的自述文件。

    • 建议的分析:识别主要卖方以识别对这些市场有最大影响的卖方,通过检测DNM上广告的恶意产品来识别网络威胁。

    • 建议的技术:文本分类,主题建模(潜在狄利克雷分配),深度学习

    • 建议工具: Scikit学习,Rapidminer,Weka,Mallet,Gensim

                 ReadMe.txt

                 DreamMarket_2017.zip                  (24.7 MB)

  • 2016年,DreamMarket暗网市场是最大的DNM之一,在规模上仅次于被占领的市场AlphaBay。该DNM包含2016年来自690个卖家的39,473个产品列表。除2017年的收藏外,该数据集还可用作补充资源,用于识别网络威胁并精确定位主要卖家,以在网络安全研究中实现主动的网络威胁情报。卖家会员资格的日期范围为2013年12月4日至2016年12月1日。有关更多信息,请参阅下面的自述文件。

                 ReadMe.txt
                 DreamMarket_2016.zip                  (11.5 MB)

暗网论坛(DNF)

暗网论坛是经常与暗网市场相关的在线网络犯罪平台。在2017年国际FBI行动暂时导致许多市场关闭之后,网络罪犯发现在匿名论坛中进行交互更方便。当前,大多数DNM都拥有自己的论坛,网络罪犯可以在该论坛中相互支持并进行交流以执行其非法交易。我们在2018年确定了三个大型DNF,并收集了网络犯罪分子创建的帖子。此类论坛可用于各种网络威胁情报任务,并在网络罪犯中识别社交网络。此类论坛可用于关键的卖方识别,以识别对这些市场影响最大的卖方,通过检测DNF上广告的恶意产品来识别网络威胁,同时也要面对这些平台的管理员。该数据集包含128,540个英文和俄文的帖子。每个帖子都具有以下字段:帖子ID,主题ID,主题,URL,sub_forum,作者姓名,作者身份,作者加入日期,作者声誉,帖子日期,喜欢数和帖子内容。

          ReadMe.txt

              DNF_2019.zip                                      (39.5 MB)

这里提供的65个论坛是按国家/地区介绍的。每个论坛都包含按主题分类的帖子,这些帖子通常指示正在讨论的主题。每个帖子都包含详细的元数据,例如日期,成员名称等。这些论坛是人工智能实验室在2010年至2012年期间收集的,以支持其地缘网络(GeoWeb)研究项目。GeoWeb研究了用于监控冲突地区舆论,评估脆弱或弱势国家社交媒体中的国家风险指标以及将这些风险信号与公认的定量地缘政治风险评估相关联的计算方法。集合的大小各不相同,较小的论坛包含数千或数万个帖子,更大的收藏集则拥有数十万至一百万个以上的帖子。语言取决于论坛,包括英语,阿拉伯语,法语,印度尼西亚语,普什图语或乌尔都语。没有记录有关每个论坛焦点的信息;收集它们是为了引起人们的普遍兴趣,并进行了涵盖广泛主题的讨论。


下面的列表提供了有关每个论坛的其他信息,以及指向论坛文件的链接。每个论坛均以可下载的压缩文本文件形式提供,然后可以在任何与CSV兼容的文本处理程序中打开该文件。要下载,请单击论坛名称,然后在浏览器提示时选择打开或保存文件。

阿富汗

  • AfghanForum-语言:英语。日期:2007年10月2日-2011年5月2日;职位:88,005; 线程:4,826; 成员:1,114。压缩档:已压缩12.9 MB,未压缩53.3 MB。

  • 阿富汗论坛 -语言:英语。日期:2004年4月8日-2011年5月6日;职位:151,560; 线程:4,598; 成员:980。压缩文件:18 MB压缩,57 MB解压缩。

  • PashtunForums -语言:英语。日期:2010年3月5日-2011年5月4日;职位:72,750; 线程:3,023; 成员:481。压缩文件:压缩10 MB,解压缩19 MB。

  • Tolafghan- 语言:普什图语。日期:2002年10月13日-2011年4月9日;职位:32,257; 线程:4,709; 成员:1,592。压缩文件:已压缩21 MB,未压缩83 MB。

阿尔及利亚

  • Eshamel- 语言:阿拉伯语。日期:2005年7月6日-2011年11月14日。职位:103,806; 线程:28,754; 成员:3,514。压缩档:41.72 MB已压缩,156 MB已解压缩。

  • Etudiantdz- 语言:阿拉伯语。日期:2007年11月28日-2011年9月9日。职位:177,652; 线程:31,384; 成员:12,148。压缩文件:130 MB的压缩文件,541 MB的未压缩文件。

  • Ngaous -语言:阿拉伯语。日期:2009年4月22日至2012年3月29日;职位:147,891; 线程:77,605; 成员:1,899。压缩档:51 MB已压缩,212 MB已解压缩。


埃及

  • Alnilin- 语言:阿拉伯语。日期:2003年8月2日-2011年10月31日;帖子:8,901; 线程:817; 成员:135。Zip文件:2.63 MB已压缩,11.7 MB已解压缩。

  • Damanhour- 语言:阿拉伯语。日期:2009年5月24日至2011年7月12日;职位:23,142; 线程:9,559; 成员:1,637。压缩文件:已压缩10.5 MB,未压缩40.4 MB。

  • 埃及 -语言:阿拉伯语。日期:2007年10月18日至2011年1月1日;帖子:321,015; 线程:61,269; 成员:36,264。压缩文件:已压缩76.69 MB,未压缩311 MB。

  • 埃及 语-语言:阿拉伯语。日期:2000年12月29日-2011年9月9日;帖子:644290; 线程:51,869; 成员:4,724。压缩文件:压缩226 MB,解压缩833 MB。

  • Forsanelhaq- 语言:阿拉伯语。日期:2005年10月1日-2011年9月9日;帖子:131,108; 线程:20,648; 成员:2,875。压缩文件:压缩后378 MB,未压缩后1.63 GB。


印度尼西亚

  • ForumBebas- 语言:印尼语。日期:2007年11月10日-2011年9月9日;职位:7,165; 线程:278; 成员:1,627。压缩文件:压缩544 KB,未压缩2.1 MB。

  • Kafegaul- 语言:印尼语。日期:2000年2月18日至2011年1月1日;职位:611,591; 线程:31,001; 成员:5,021 压缩档案:13.31 MB的压缩档案,47.5 MB的未压缩档案。

  • Kaskus -语言:印尼。日期:2008年5月21日至2011年1月23日;帖子:419,977; 线程:14,894; 成员:41,914。压缩文件:压缩后49 MB,解压缩后216 MB。

  • Kompas- 语言:印尼语。日期:2008年11月11日-2012年4月5日;职位:184,914; 线程:33,613; 成员:10,428。压缩文件:已压缩42 MB,未压缩133 MB。

伊拉克

  • AlForat- 语言:阿拉伯语。日期:2005年12月14日-2010年9月9日;职位:589,490; 线程:100,553; 成员:36914 压缩档:65 MB已压缩,315 MB已解压缩。

  • Dijlh- 语言:阿拉伯语。日期:2006年10月1日至2012年4月9日;帖子:859,477; 线程:123,545; 成员:21,249。压缩文件:压缩161 MB,解压缩587 MB。

  • IragCenter- 语言:阿拉伯语。日期:2002年9月29日至2011年11月19日;职位:206,290; 线程:61,334; 成员:4,092。压缩档:160 MB已压缩,634 MB已解压缩。

  • Iragiyat- 语言:阿拉伯语。日期:12/13/2007-1/18/2011;职位:280,380; 线程:29,775; 成员:1,809。压缩文件:已压缩33.35 MB,未压缩147 MB。

  • 伊拉克之光 -语言:阿拉伯语。日期:2005年8月1日至2010年12月28日;职位:303,419; 线程:56,162; 成员:5797 压缩文件:已压缩85.3 MB,未压缩335 MB。

  • 伊拉克PF- 语言:阿拉伯语。日期:2007年7月27日-2010年12月1日;职位:420,748; 线程:25,348; 成员:7,136。压缩档:26.08 MB已压缩,141 MB已解压缩。

  • Rumaitha-语言:阿拉伯语。日期:2007年8月20日至2011年1月18日;职位:54,163; 线程:6,799; 成员:664。压缩文件:压缩6 MB,未压缩31 MB。

  • Yahosein -语言:阿拉伯语。日期:3/22/2002-2/22/2009;职位:214,616; 线程:135,635; 成员:11,122 压缩文件:压缩189 MB,解压缩726 MB。


约旦

  • 安娜·乔丹 Ana-Jordan) -语言:阿拉伯语。日期:2008年6月12日-2011年12月6日;职位:136,638; 线程:15,081; 成员:1,840。压缩档:20.73 MB已压缩,88.8 MB已解压缩。

  • Qalbjo- 语言:阿拉伯语。日期:2007年10月10日-2012年4月9日;职位:381,574; 线程:40,957; 成员:1,429。压缩文件:已压缩48 MB,未压缩188 MB。


黎巴嫩

  • Aljond- 语言:阿拉伯语。日期:2007年4月12日-2011年12月8日;帖子:26,538; 线程:101,542; 成员:37. Zip文件:35.11 MB已压缩,173 MB已解压缩。

  • Ashefaa- 语言:阿拉伯语。日期:2005年10月10日-2012年4月9日;职位:609,030; 线程:91,988; 成员:22,939。压缩文件:压缩169 MB,解压缩706 MB。

  • Eljnoub- 语言:阿拉伯语。日期:2006年10月10日-2011年9月9日;职位:678,223; 线程:100,181; 成员:4,505。压缩文件:压缩129 MB,解压缩752 MB。

  • 黎巴嫩-语言:阿拉伯语。日期:2007年6月11日-2011年12月13日;职位:67,193; 线程:19,164; 成员:1,231。压缩文件:已压缩17 MB,未压缩65 MB。


摩洛哥

  • Anaqamaghribia- 语言:阿拉伯语。日期:2006年10月1日-2010年9月9日;职位:255,667; 线程:38,716; 成员:13,400。压缩档:56 MB已压缩,215 MB已解压缩。

  • Casafree- 语言:法语。日期:2004年10月1日-2011年9月9日;帖子:32,302; 线程:2,142; 成员:1,895。压缩文件:压缩6.6 MB,未压缩21.5 MB。

  • GSM4Maroc- 语言:阿拉伯语。日期:11/17/2005-1/13/2011;职位:422,608; 线程:38,563; 成员:12257 压缩文件:已压缩81.75 MB,未压缩328 MB。

  • Rehabmaroc-语言:阿拉伯语。日期:9/5/2007-1/13/2011;职位:148,872; 线程:22,571; 成员:2,905。压缩档:已压缩20 MB,未压缩87 MB。


巴基斯坦

  • Itdarasgah- 语言:英语。日期:2009年10月1日-2011年9月9日帖子:833,683;线程:66,858; 成员:6,504。压缩文件:压缩60 MB,解压缩238 MB。

  • Itdunya- 语言:英语/阿拉伯语。日期:2005年11月9日至2011年11月28日;职位:2,241,403; 线程:186,844; 成员:29,258。压缩档:190 MB已压缩,676 MB已解压缩。

  • 伊图尔杜 语-语言:英语/乌尔都语。日期:2003年4月21日-2011年9月9日;职位:221,343; 线程:10,533; 成员:759。压缩文件:11 MB压缩,42 MB解压缩。

  • Pegham -语言:乌尔都语。日期:2005年4月21日至2011年11月15日;职位:526,739; 线程:50,030; 成员:1,270。压缩档:已压缩10 MB,未压缩30.8 MB。

  • UrduPages-语言:乌尔都语。日期:2003年10月1日-2011年9月9日;帖子:927,562; 线程:47,232; 成员:9,818。压缩档:76 MB已压缩,254 MB已解压缩。

  • UrduStuff -语言:乌尔都语。日期:2011年6月18日至2012年4月19日;帖子:3,144; 线程:1,061; 成员:59. Zip文件:压缩535 KB,未压缩1.86 MB。

沙特 阿拉伯

  • Althuibi- 语言:阿拉伯语。日期:10/17/2008-12/7/2011;职位:132,476; 线程:15,807; 成员:728。压缩文件:19.58 MB压缩,85.4 MB解压缩。

  • Buraydahcity- 语言:阿拉伯语。日期:2001年10月1日-2011年9月9日;职位:2,686,247; 线程:196,459; 成员:39,291。压缩文件:压缩后为472 MB,未压缩后为1.73 GB。

  • Stop55-语言:阿拉伯语。日期:2003年8月11日-2011年12月16日;职位:1,380,592; 线程:276,926; 成员:25,815。压缩文件:压缩294 MB,解压缩1.2 GB。

  • www_7be-语言:阿拉伯语。日期:2004年10月1日-2011年9月9日;职位:2,508,713; 线程:132,988; 成员:82,298。压缩文件:压缩后为304 MB,未压缩后为1.16 GB。

索马里

  • AllSomaliForum- 语言:英语。日期:2007年2月17日至2010年8月1日;职位:53,945; 线程:2,622; 成员:396。压缩文件:5.15 MB,未压缩19.5 MB。

  • Alsomal- 语言:阿拉伯语。日期:2005年12月16日至2010年7月29日;职位:209,321; 线程:18,705; 成员:2,020。压缩文件:压缩60 MB,解压缩239 MB。

  • 巴纳迪尔 -语言:英语。日期:2008年12月15日至2010年8月3日;职位:427; 线程:345; 成员:32. Zip文件:.3 MB已压缩,.8 MB已解压缩。

  • Karbash- 语言:英语。日期:2005年1月1日至2010年9月9日;帖子:134,973; 线程:10,856; 成员:3,690。压缩文件:30 MB的压缩文件,116 MB的未压缩文件。

  • SomaliaOnline- 语言:英语。日期:2001年10月1日-2011年2月9日;职位:282,590; 线程:39,203; 成员:2845。压缩文件:已压缩79 MB,未压缩218 MB。

  • Somalinet-语言:英语。日期:2005年6月22日-2010年9月21日;职位:51,132; 线程:8,933; 成员:1,482。压缩文件:压缩7 MB,解压缩24 MB。

  • SomaliUK -语言:英语。日期:2001年2月2日-2010年7月24日;帖子:56,339; 线程:5,741; 成员:3,359。压缩文件:已压缩14 MB,未压缩42 MB。


突尼斯

  • Marhba- 语言:法语。日期:2004年1月21日-2012年4月9日;职位:544,594; 线程:26,039; 成员:11,973。压缩文件:已压缩79 MB,未压缩300 MB。

  • Matunisie- 语言:法语。日期:2000年5月11日-2012年4月9日;职位:57,432; 线程:5,354; 成员:1,542。压缩文件:压缩8.5 MB,解压缩30.6 MB。

  • Sama3y -语言:阿拉伯语。日期:10/9/2005-4/17/2012;帖子:90,902; 线程:10,055。压缩文件:已压缩21 MB,未压缩90 MB。

  • Shababtn -语言:阿拉伯语。日期:2005年1月1日至2012年2月3日;职位:101,667; 线程:7,423; 成员:23,993。压缩文件:已压缩11 MB,未压缩58 MB。

也门

  • 3aden- 语言:阿拉伯语。日期:2004年8月7日-2010年7月4日;职位:16,115; 线程:3,748; 成员:882。压缩文件:5 MB压缩,20 MB解压缩。

  • Al-Reeem-语言:阿拉伯语。日期:2009年1月6日至2010年7月20日;职位:103,748; 线程:10,219; 成员:2,249。压缩档:7.28 MB已压缩,43.7 MB已解压缩。

  • 也门 -语言:阿拉伯语。日期:2005年12月20日至2010年7月19日;职位:126,055; 线程:20,160; 成员:2,036。压缩文件:已压缩31 MB,未压缩134 MB。

  • Cyemen- 语言:阿拉伯语。日期:2002年10月13日至2010年8月14日;职位:82,400; 线程:24,096; 成员:3,096。压缩文件:已压缩18.34 MB,未压缩70.1MB。

  • sa7t_ye-语言:阿拉伯语。日期:2007年10月1日-2010年7月9日;职位:304,628; 线程:20,938; 成员:1,479。压缩档:已压缩45.3 MB,未压缩228 MB。

  • YemenM7BH(也门论坛) -语言:阿拉伯语。日期:2006年10月1日-2010年7月9日;职位:455,025; 线程:39,664; 成员:1,469。压缩文件:已压缩76 MB,未压缩356 MB。

  • 也门学生-语言:阿拉伯语。日期:2008年10月1日-2010年8月9日;帖子:64,238; 线程:18,803; 成员:713。压缩文件:16 MB压缩,60.4MB解压缩。

  • Yemen7 -语言:阿拉伯语。日期:11/22/2007-10/25/2010;职位:4,716; 线程:788; 成员:145。压缩文件:1 MB压缩,726 MB解压缩。

  • Yemen22 -语言:阿拉伯语。日期:2006年12月10日-2010年7月17日;职位:78,377; 线程:10,947; 成员:884. Zip文件:已压缩14 MB,未压缩62 MB。

  • 也门海湾杯20-语言:阿拉伯语。日期:2009年6月5日-2010年7月25日;职位:8,205; 线程:2,090; 成员:927。压缩文件:2 MB压缩,8.5 MB解压缩。

AZSecure黑客资产门户

AZSecure黑客资产门户是人工智能实验室的Hacker Web程序中的几个项目之一,由亚利桑那大学人工智能实验室的Hsinchun Chen博士指导,目的是为“服务奖学金(Scholarship-for-Service)提供黑客论坛的内容和分析( SFS)教育,研究,培训和开发网络威胁情报功能。提供的数据集专门针对附件和黑客论坛的源代码示例。提供的资产是从英语,俄语和阿拉伯语的黑客社区中收集的。通过收集到的这些资产集合,目标是为教育工作者提供便利进行研究并获得有关黑客资产和黑客社区的见解的手段。请参考AZSecure黑客门户 可视化这些资产并进行搜索。

  • 附件数据集:附件是附在论坛帖子上的恶意文件(漏洞,二进制文件等)。他们通常可以直接执行恶意网络攻击。该集合包含14,865个指向俄罗斯,英语和阿拉伯语黑客论坛的附件的链接,这些附件在Ashyane,Opensc和Tuts4you这三个附件数量最多的论坛中进行了交换。附件涵盖了各种各样的恶意黑客工具,例如键盘记录器,Zeus恶意软件,BlackPOS恶意软件,DDoS攻击,远程管理工具(RAT),机器人,加密程序和移动恶意软件。附件的发布日期为2003年5月30日至2016年9月25日。

    • 建议的分析:数据集可用于动态恶意软件分析,以及指出在黑客社区中共享漏洞的主要黑客。

    • 建议的技术:通过为下载的链接创建沙盒环境来动态评估恶意软件工具

    • 建议工具: VirusTotal,Cukoo沙箱

                ReadMe.txt

                Attachments.zip        (53.7 MB)

  • 源代码数据集:源代码是嵌入到论坛帖子中的未编译代码。该集合包括来自俄罗斯,英语和阿拉伯语黑客论坛的15582个源代码片段。这些源代码摘录是从四个源代码集中度最高的论坛中提取出来的,分别是Ashiyane,Opensc,Exelab和Xeksec论坛。这些源代码摘自英语,俄语和阿拉伯语的黑客社区。此集合中的资产示例包括SQL注入,Zeus代码,蠕虫和加密器。源代码的日期为2005年2月7日至2016年10月27日。

    • 建议的分析:数据集可用于静态恶意软件分析,源代码可视化,以及识别能够在黑客论坛中创建工具的关键专业黑客。

    • 建议的技术:通过无监督的主题建模和SOM聚类,应用文本挖掘技术来深入了解所使用的语言以及所提供源代码资产的攻击向量

    • 推荐工具: VirusTotal,Cukoo Sandbox,D3,Scikit-learn

                的ReadMe.txt
                Sourcecodes.zip       (38.8 MB)

互联网中继聊天频道(IRC)

IRC频道充当黑客和黑客主义者团体讨论和共享知识的匿名媒介。与基于论坛的基于网站的平台中的内容不同,IRC通道中的历史对话不会被存档,因此必须实时收集。IRC通道与黑客社区中的其他平台不同,因为它们需要实时数据收集和分析。亚利桑那大学的人工智能实验室收集了Anonops和Hacker,它们是IRC的主要渠道,隶属于著名的hacktivist团体Anonymous。这些数据集可以帮助您以主动的方式了解黑客的通信行为,潜在的攻击目标和新出现的威胁。每个数据集都有一个自述文件,该文件包含有关该数据集的详细信息。

  • Anonops IRC频道已与Anonymous hacktivist小组的活动相关联,该小组讨论了各种主题,例如计划,协调以及有时宣布其未来的攻击目标。因此,数据集对于黑客行为主义者社区的预测和主动分析至关重要。该数据集包含2016年9月至2018年5月的1,874,984条消息。有关更多信息,请参阅ReadMe文件。

    • 建议的分析:通过时间分析来识别熟练的黑客主义者,使用时间序列进行主动的网络威胁预测

    • 建议的技术: Cox生存分析模型,时间序列分析

    • 推荐工具: R和Scikit-learn

                ReadMe.txt

                Anonops.zip        (163 MB)

  • 黑客IRC频道是另一种以促进匿名hacktivist小组活动而闻名的媒体。与Anonops IRC频道类似,监视此频道对于获得有关黑客主义者未来活动的情报很重要。数据集包含从2016年9月到2018年5月收集的231,994条消息。

               ReadMe.txt

               Hacker.zip            (29.5 MB)

  • Ed IRC频道最初并非旨在供黑客讨论,但由于其受欢迎程度和匿名性,大量的黑客和黑客主义者使用此IRC频道进行交流和共享知识。尽管黑客主题的集中度较低,但该数据集对于监视非专业黑客及其之间的相互作用以防止非复杂的攻击非常重要。数据集包含829,457条消息,其日期为2016年9月至2018年5月。

    • 建议的分析:研究非专业黑客之间的互动,并确定他们何时与老练的黑客合作

    • 建议的技术:使用笔法功能的深层文本分类技术

    • 建议工具: TensorFlow,Pytorch,Keras和Scikit-learn

                ReadMe.txt
                Ed.zip                   (51.8 MB)

按类型的数据集 

恶意软件

  • 以太网恶意软件分析数据集-由佐治亚理工学院的Artem Dinaburg,Paul Royal,Monirul Sharif和Wenke Lee收集,该以太网恶意软件分析数据集是25,000多个恶意软件实例的集合,这些实例用于对打包的恶意软件进行EtherUnpack测试。这些恶意软件实例是在2008年1月至3月之间从蜜罐,邮件过滤器,代理监视器,Web爬网,文件共享网络和其他来源收集的。注意:此数据集包含恶意软件。请查看DIBBs-ISI恶意软件处理协议 

readme.txt文件

EtherMalwareDataset.zip          (12.9 GB压缩,15 GB解压缩)

网络流量
 

  • ADFA- IDS-由澳大利亚国防军学院的Gideon Creech和Hu Jiankun Hu收集,ADFA IDS是一个入侵检测系统数据集,于2013年公开提供,意在代表现代攻击结构和方法,以替代较旧的数据集KDD和UNM。ADFA IDS包括适用于Linux和Windows环境的独立数据集。

                 readme.txt

ADFA-IDS.zip                       (14MB)

  • ADFA-IDS 2017年-原ADFA-IDS数据集的更新,2017年3月27日发布。

自述,ADFA.txt

                 How_to_use_AFDA-IDS_DATASETS.pdf

                 ADFA-IDS_2017.zip             (959MB)

  • 实施例Aktaion酒店标签数据-约瑟夫Zadeh型和Rod索托收集。该集合包含ARFF格式的带标签的网络流量数据。最初的目的是在Aktaion IDS中训练勒索软件检测。该数据早于2016年8月。

                readme.txt

aktaion.zip          (15.5 KB)

  • 克里斯·桑德斯包2017年-由克里斯·桑德斯收集,这个集合的76个PCAPs含有活的恶意软件捕获。上次更新时间为2017年。

                readme.txt

                ChrisSandersPackets.zip        (89.9-8 MB)

  • 全面的,多源网络安全事件-由Los Alamos国家实验室的Alexander Kent收集,此集合是一个涵盖58天的全面企业网络安全数据集,其中包含来自身份验证,流程,DNS,网络流和红队攻击的数据。洛斯阿拉莫斯国家实验室的公司内部计算机网络。数据记录了五个数据元素,共1,425,275,307个事件,分别为12,425个用户,17,684台计算机和62,974个进程。

readme.txt文件

                  CMSC.zip                           (10.9GB)

  • CSDMC 2010-该数据是在2010年澳大利亚悉尼国际神经信息处理会议(ICNIP)上的一次数据挖掘竞赛中由API监控程序收集的。有关数据集中显示的恶意软件程序的知识已过时,可能不包含 
    有关检测当今的恶意软件。它可能,但是,是作为历史参考或其他目的是有用的。  

readme.txt文件

CSDMC2010.zip                  (2MB)

  • CTU-13  -CTU-13数据集由布拉格捷克技术大学(CTU)的Sebastian Garcia Martin Grill和Honza Stiborek收集,由真实网络环境中的13种不同的恶意软件捕获组成。这些捕获包括僵尸网络,正常和后台流量。僵尸网络流量来自受感染的主机,正常流量来自经过验证的正常主机,而后台流量则是所有其余流量。该数据集以流为基础进行标记,并于2011年8月10日至15日收集。

                  ReadMe.txt     (有关更多信息,请访问:http : 
                  //mcfp.weebly.com/the-ctu-13-dataset-a-labeled-dataset-with-botnet-normal-and-background-traffic.htmlCTU13.zip                           ( 1.8GB)

  • eMews HTTPS和SSH Collection-1数据集- 由得克萨斯大学达拉斯分校的Brian Ricks和Bhavani Thuraisingham收集,eMews是使用CORE网络仿真器和eMews框架从实验室内仿真网络捕获的PCAP数据的集合开发用于生成数据包跟踪和管理实验运行。捕获的持续时间从1个小时到10个小时不等,并且是从网络内的HTTPS和SSH服务器捕获的。由于这些捕获是在受控环境中执行的,因此研究人员可以保证不存在恶意软件或任何其他恶意行为。该网络由1,022个节点组成,其中844个包含自主的Web爬网活动,另外36个包含自主的SSH交互。

的ReadMe.txt

                 emews数据集-1.zip               (282 MB)

  • ISOT僵尸网络 –由维多利亚大学ISOT信息安全和对象技术(ISOT)研究实验室的Sherif Saad,Issa Traore,Ali A. Ghorbani,Bassam Sayed,David Zhao,Wei Lu,John Felix和Payman Hakimian收集数据集结合了包含来自Honeynet项目法文一章中涉及Storm和Waledac僵尸网络的恶意流量的数据集,以及来自匈牙利爱立信研究中心的流量实验室和劳伦斯伯克利国家实验室(LBNL)的一个数据集。爱立信实验室数据集包含来自各种应用程序的大量常规流量,包括HTTP Web浏览行为,魔兽世界游戏数据包以及来自流行的Bittorrent客户端(例如Azureus)的数据包。LBNL跟踪数据中的数据集可提供其他非恶意后台流量。

             ReadMe.txt
                  SOT.zip                                 (2.2GB)

  • 红帽的Linux 7.1系统在蜜网部署的日志-安东A. Chuvakin收集。该数据集包含来自蜜网中部署的Linux Redhat 7.1系统的系统日志。数据的所有者为公共领域(真实世界的日志数据)运行一个站点,其中捕获了恶意活动。该数据的一个有趣方面是,没有进行消毒或匿名处理。提供的数据未经修改(使用该数据进行研究不需要或不需要进行修改)。在2006年至2007年之间,连续590天收集了数据。 

                 ReadMe.txt

                 HoneynetRedHatLogs.zip          (41.2 MB)

  • 恶意软件的训练集-由Marco Ramilli收集。数据集由71个标有JSON格式的恶意软件示例组成,其中每个示例对应于一个特定的恶意软件实例,并标有恶意软件名称。 

                ReadMe.txt

MalwareTrainingSets.zip         (29.9 MB)

  • M0DROID数据集-由马来西亚Putra大学收集。该数据集与M0DROID移动恶意软件分析工具捆绑在一起,该工具旨在使用从各个Android APK的系统调用请求获得的签名来检测Android恶意软件。数据集本身包含从许多Android APK生成的签名,可以与检测引擎分开使用。2014年11月收集。

            ReadMe.txt

                M0DROID.zip                      (6.1 MB)

  • Shadowbrokers EternalBlue / EternalRomance PCAP数据集-由埃里克·康拉德收集。该数据集由来自EternalBlue和EternalRomance恶意软件的PCAP数据组成。这些PCAP捕获了尚未打补丁以打败这些漏洞的目标系统上的实际漏洞。EternalBlue PCAP数据使用Windows 7目标计算机,而EternalRomance PCAP数据使用Windows 2008r2目标计算机。还包括修补的Windows 7目标计算机的EternalBlue PCAP数据,显示失败的利用。该数据于2017年4月收集。

                ReadMe.txt

ShadowbrokersEternalBlue.zip         (1.9 MB)

  • 标准Dragon NIDS警报日志-由Anton A. Chuvakin收集。该数据集由Enterasys Dragon NIDS 4.x入侵检测系统的警报日志组成。数据的所有者为公共领域(真实世界的日志数据)运行一个站点,其中捕获了恶意活动。该数据的一个有趣方面是,没有进行消毒或匿名处理。提供的数据未经修改(使用该数据进行研究不需要或不需要进行修改)。在2006年至2007年之间,连续590天收集了数据。 

               ReadMe.txt

DragonAlertLogs.zip           (20.7 MB)

  • 统一主机和网络数据集-由梅丽莎JM特科特,亚历山大D.肯特,和Curtis哈希收集。该数据集有助于解决当前缺少的来自现实世界企业网络的数据集,并且还可以满足对尚未经过大量清理以致削弱任何网络研究价值的丰富数据集的需求。有两个组成该数据集的集合:一组主要来自内部企业路由器的网络流数据,以及一组Windows主机数据。这些数据是在2017年从洛斯阿拉莫斯国家实验室的企业网络中收集的,为期90天。一些值被匿名化,但是对于那些值,两个数据集之间的匿名化保持一致。

               ReadMe.txt

UHNDS_2-5                 (6.1 GB)

UHNDS_6-10               (8.4 GB)

UHNDS_11-15              (7.8 GB)

UHNDS_16-20              (7.8 GB)

UHNDS_21-25              (7.5 GB)

UHNDS_26-30              (7.4 GB)

UHNDS_31-35              (7.3 GB)

UHNDS_36-40              (7.9 GB)

UHNDS_41-45              (7.6 GB)

UHNDS_46-50              (7.8 GB)

 UHNDS_51-55              (8.6 GB)

UHNDS_56-60              (8.8 GB)

UHNDS_61-65              (7.1 GB)

UHNDS_66-70              (8.5 GB)

UHNDS_71-75              (9.7 GB)

UHNDS_76-80              (8.2 GB)

UHNDS_81-85              (8.8 GB)

UHNDS_86-90              (8 GB)

UHNDS_Host_1-29        (11.7 GB)

UHNDS_Host_30-59      (12.7 GB)

UHNDS_Host_60-90      (12.7 GB)

  • VERIS社区数据库-由Verizon安全研究和网络情报中心收集。事件记录和事件共享词汇(VERIS)是用于描述安全事件的语言。VERIS及其随附的数据集(VCDB)的目的不仅是提供一个广泛收集公开收集的事件的资料库,而且还提供一种用于描述这些事件的通用语言。总体目标是从过去的经验中合作学习,以更好地进行风险管理,并收集所有可公开获得的数据泄露数据。2012年至2017年11月之间收集的数据。

               ReadMe.txt

VCDB.zip             (24.4 MB)

  • Wi-Fi标头数据库-该数据是作为Wi-Fi网络入侵检测系统开发的一部分而收集的。该数据库包含2016年6月3日至2016年6月11日之间由亚利桑那大学研究人员Pratik Satam和Salim Hariri收集的9,817,671个Wi-Fi流量标头,使用监控模式下的Wi-Fi卡和为此任务开发的基于C的工具。

的ReadMe.txt

                  WiFiHeader.zip                      (19MB)

中国人

  • 基地组织新闻-文字数据是各种在线来源报道的有关“基地”组织的新闻。以网站名称命名的目录包含原始网页。XML文件是从网页解析的新闻内容。数据集的大小为压缩后的426.4 MB,解压缩后约为1.79 GB。数据来自于2012年情报和安全信息学大会上发表的论文“提取安全信息学中的行动知识”,作者是葛胜胜,毛文ji,曾丹妮,孔庆超和朱华池。  受限制的; 请通过项目经理请求-电子邮件[email protected]并说明您要使用的数据集以及使用的目的;请提供完整的联系信息,包括姓名,隶属关系和邮寄地址,电子邮件和电话号码。 

网络聊天

中国人

  • QQ聊天记录 –由赵康志,张勇,邢春晓,陈兴春收集,该数据集包含地下QQ组中中国网络犯罪分子的文本聊天记录。加入地下QQ组一段时间后,通过下载聊天记录来手动收集数据。聊天记录是在2016年3月20日至4月4日收集的。

                ReadMe.pdf
                QQ.zip                                       (1.5MB)

网站

  • 爱国者,民兵,仇恨和链接网站-由亚利桑那大学管理信息系统部人工智能实验室收集,此处展示的爱国者,民兵,仇恨和链接网站集合包含74个网站,这些网站属于南方贫困法律中心确定的群体在2009年属于促进极端社会观点的团体。该集合还包含由初始网站集链接到的123个其他网站。此集合中网站的完整列表位于ReadMe.txt文件中。由于该收藏的大小,它被分为20个部分,以简化下载。每个网站捆绑都包含ReadMe.txt和About.pdf文件。

                 ReadMe.txt

About.pdf

                 PatriotMilitiaHate1.zip         (394MB)
                 PatriotMilitiaHate2.zip         (1GB)
                 PatriotMilitiaHate3.zip         (2.3GB)
                 PatriotMilitiaHate4.zip         (220MB)
                 PatriotMilitiaHate5.zip         (9.3GB)
                 PatriotMilitiaHate6.zip         (585MB)
                 PatriotMilitiaHate7.zip         (227MB)
                 PatriotMilitiaHate8.zip         (4GB)
                 PatriotMilitiaHate9.zip         (562MB)
                 PatriotMilitiaHate10.zip       (1.1GB)
                 PatriotMilitiaHate11.zip       (865MB)
                 PatriotMilitiaHate12.zip       (957MB)
                 PatriotMilitiaHate13.zip       (584MB)
                 PatriotMilitiaHate14.zip       (577MB)
                 PatriotMilitiaHate15.zip        (434MB)
                 PatriotMilitiaHate16.zip       (491MB)
                 PatriotMilitiaHate17.zip       (781MB)
                 PatriotMilitiaHate18.zip       (425MB)
                 PatriotMilitiaHate19.zip       (833MB)
                 PatriotMilitiaHate20.zip       (500MB)

暗网市场

  • DreamMarket暗网市场(2016)是一个在线平台,用于由网络犯罪分子交换非法商品。该数据集由亚利桑那大学的人工智能实验室收集,包含2016年来自690个卖家的39,473个产品列表。卖家会员的日期范围为2013年12月4日至2016年12月1日。有关更多信息,请参阅下面的自述文件。

                 ReadMe.txt

                 DreamMarket_2016.zip

  • DreamMarket暗网市场(2017):数据集由亚利桑那大学人工智能实验室收集,包含2016年来自2092个卖家的91,463个产品清单。卖家会员的日期范围为12/4/2013-10/4/2017。有关更多信息,请参阅下面的自述文件。

                 ReadMe.txt
                 DreamMarket_2017.zip

黑客论坛

黑客使用论坛作为留言板,通过对话线程发布消息,这些对话线程包括黑客工具,教程和恶意源代码。亚利桑那大学的人工智能实验室从黑客社区生态系统中以三种不同的语言收集了几个主要论坛,以促进在网络安全领域的研究。该集合涵盖诸如社会工程,人工智能机器人和勒索软件等新兴主题,这些主题可以促进对黑客社区进行分析的前沿研究。它包含有关论坛帖子的有用数据,包括主题名称,作者,作者的加入日期,帖子日期和帖子文本内容。根据诸如附件数量,帖子数量和用户数量之类的标准选择了每种语言类别的论坛。

英语论坛

英语是黑客论坛中的主要语言。英语论坛为黑客社区中的大部分知识和工具交流做出了贡献,因此适合于获取有关英语黑客社区的大量信息,而不仅限于英语国家/地区。主题包括泄露数据,移动恶意软件,加密货币,登录转储,用于AI机器人的代码等。

  •   拥有44,927个帖子和11,977位活跃用户的CrackingArena论坛是2018年现有的最大论坛之一。该平台有专门介绍黑客工具和教程的部分,称为“黑客区”。本部分包含内容丰富且具有较高用户参与度的线程,这使该论坛有助于对网络犯罪分子之间的交互模式进行网络安全研究。论坛中涵盖的主题多种多样,从社会工程,破解工具和教程到漏洞利用,使该论坛成为查明新兴黑客资产特征的可行来源。该论坛中的帖子发布日期为2013年4月8日至2018年2月24日。

    • 建议的分析:通过文本挖掘识别特定类型的资产(例如,社会工程资产),用于识别交互模式的社交网络分析

    • 建议的技术:使用深度学习,有监督的主题建模和条件随机字段,描述性网络分析来设计特定目的的分类器

    • 建议工具: Scikit学习,Tensorflow,Keras,Gephi,NetworkX。

                ReadMe.txt

                CrackingArena.zip       (3.1MB)

  • 拥有14,511位用户的CrackingFire是一个英语论坛,拥有大量用户。除了用于黑客工具的专用部分外,该论坛还设有一个名为“编码区”的部分,其中包含各种语言(例如C#和VB.Net)的源代码,以运行恶意操作,包括破坏在线社交媒体帐户。因此,此数据集有助于进行有关黑客资产分析,尤其是这些资产的源代码分析的网络安全研究。CrackingFire论坛数据集包含37,572个论坛帖子,范围为2011年4月7日至2018年2月21日。

    • 建议的分析:通过应用文本挖掘技术对使用的语言以及所提供的源代码资产的攻击媒介进行深入了解,以进行静态恶意软件分析。

    • 建议的技术:无监督的主题建模,SOM聚类和其他文本聚类方法

    • 建议工具: Scikit学习,Gensim,Mallet和Standford主题建模工具箱

               ReadMe.txt

               CrackingFire.zip             (29.4 MB)

  • ExeTools论坛在其他黑客论坛中与众不同,因为它是自2002年以来一直活跃于交换黑客资产的最古老的论坛之一。此特征使研究纵向威胁格局成为可能。与其他论坛相比,该论坛中的帖子数与用户数之比非常高。预计该论坛中的黑客将比其他黑客更专业。在研究中建议使用此论坛,该研究关注黑客社区的专业知识水平的差异。该数据集包含24,663个帖子,日期为2002年1月16日至2018年3月14日。

    • 建议的分析:通过检测社区内黑客资产创建的演化模式,黑客语言和行话语义转换的纵向分析

    • 建议的技术:时间序列分析,递归神经网络语言模型,图卷积神经网络

    • 建议工具: Keras,TensorFlow,PyTorch和NetworkX

               ReadMe.txt
               ExeTools.zip
             (30.6 MB)

  • Garage4Hackers论坛尽管是内容和用户数量方面的中型论坛,却是另一个高度专业的英语论坛,其特色是专家版块,其中包含与开发工具和技术,僵尸网络和逆向工程相关的材料。该数据集可以为研究专门的黑客资产工具提供内部信息。它包含2010年7月6日至2017年9月18日的8,700个论坛帖子。

    • 建议的分析:识别高度专业化的黑客资产及其传播者

    • 建议的技术:高级分类技术,例如深度学习

    • 建议工具: Keras,TensorFlow和PyTorch

               ReadMe.txt
               Garage4hackers.zip
     (14.8 MB)

  • Hackhound论坛包含4,242篇关于各种黑客主题的论坛帖子,这些帖子于2015年收集。帖子的发布日期为2012年10月至2015年9月。

           ReadMe.txt

               hackhound.zip               (1.7 MB)

俄罗斯论坛

从网络安全研究的角度来看,至关重要的是分析其他语言的数据源,以获取有关跨平台的网络威胁的全球见解,因为不同的地理区域在工具,重点和恶意意图上有所不同。俄语是黑客论坛中的第二大语言,与英语论坛相比,俄语更加专注于交流高度专业的黑客工具。  

  • Antichat论坛是俄罗斯最大的论坛之一,收集了233,480个帖子。作为一个大型通信平台,它因泄露了数千名用户密码的数据泄露而赢得了声誉。该论坛中的主题涵盖了管理员报告的漏洞,匿名性和安全性问题。该论坛的独特之处之一是为网站管理员和系统管理员提供了专门的部分。这些部分包含高度专业的讨论,可以从专家的角度回答有关黑客社区威胁态势的细粒度研究问题。帖子发布日期为2002年3月6日至2018年3月27日。

    • 建议的分析:通过应用多语言分类器识别俄罗斯黑客社区中的非英语网络威胁

    • 建议的技术:高级分类技术,例如深度学习

    • 建议工具: TensorFlow,PyTorch和Theano

               ReadMe.txt
               Antichat.zip
                   (424 MB)

  • DamageLab俄罗斯论坛以广告和托管大型网络攻击平台(例如Zeus和SpyEye僵尸网络命令与控制网络)而闻名。与其他俄罗斯论坛类似,在此论坛中可以找到高度专业化和复杂的黑客资产。因此,收集的数据可用于查明最新黑客资产的工具,技术和过程(TTP)。该数据包含7,569个论坛帖子。帖子日期为2004年11月13日至2018年2月15日。

    • 建议的分析:确定在俄罗斯黑客社区中正在交换的高度专业化的黑客资产

    • 建议的技术:分类技术,例如深度学习,有监督的主题建模和条件随机字段

    • 建议工具: keras,PyTorch,CRF ++和Gensim

               ReadMe.txt
               DamageLab.zip
              (9.27 MB)

  • Xakepok论坛是一个大型的俄罗斯论坛,其中包含48,034个论坛帖子。该论坛专门研究跨站点引用,SQL注入,加密器(可用于勒索软件)和键盘记录器。Xakepok提供的各种产品是该论坛的特定特征之一。不仅该数据集可用于分析新兴的黑客资产,而且由于该论坛中有大量网络犯罪分子,该数据集还可用于分析新兴的威胁参与者。该论坛中的帖子发布日期为2009年4月15日至2017年10月18日。

    • 建议的分析:通过集群对俄罗斯黑客社区中不同类型的黑客资产进行自动分类

    • 建议的技术:无监督主题建模,SOM聚类

    • 建议工具: Gensim,Mallet,斯坦福主题建模工具箱,Scikit学习

               ReadMe.txt
               Xakepok.zip
                   (81 MB)

  • Webkill论坛数据集包含有关黑客和梳理主题的133,858个论坛帖子。帖子发布日期为2007年9月至2015年9月。

           ReadMe.txt
               webkill.zip                    (130.5 MB)

中国论坛

  • 豆瓣集团-中文论坛。数据集是豆瓣论坛论坛的帖子的集合。豆瓣有两个小组,分别是Buybook(http://www.douban.com/group/buybook/)和qiong(http://www.douban.com/group/qiong),分别与两个小组一起组织相应的组名。在每个组(目录)中,每个txt文件都对应一个帖子,并使用文件名(例如“ 1012614-info.txt”)作为帖子ID。在每个帖子信息文件中,第一行描述原始帖子,随后几行描述评论。相关字段以“ [=]”分隔。对于第一行,数据字段是主题ID,组ID,用户ID,文章标题,文章发布日期,评论数,文章内容。对于以下几行,数据字段为评论ID,组ID,主题ID,评论用户ID,评论发布日期,带引号(已回复)的评论ID,评论内容。注意:所有txt文件都使用UTF-8编码。数据集统计:购买记录中有4,992个帖子,琼语中有9,985个帖子。此数据集来自于2013年情报与安全信息学会议上发表的题为``预测社交网络站点中的用户参与''的论文,该论文由孔庆超,毛文Wen和曾丹妮发表。

                  ReadMe.txt

                  douban-group-dataset.zip      (50 MB)

  • 百度论坛-由亚利桑那大学人工智能实验室收集,该百度论坛中的论坛帖子集合使用与信用卡欺诈相关的关键字进行标识。论坛帖子的发布日期为2006年1月至2016年3月,共收集了5131个主题和53963条回复。

                 ReadMe.txt

                 BaiduForumData.zip        (262KB)

互联网钓鱼网站

第三方托管

  • 混合托管文件: 包含334个混合托管,银行,运输和交付网站。网址从托管防止欺诈来得http://escrow-fraud.com /  和艺术家反对4-1-9在http://wiki.aa419.org/index.php/Main_Page

              readme.txt

                   ConcoctedEscrow.zip          (压缩129 MB,压缩276 MB)

金融的

  • 欺骗性金融文件: 包含389个欺骗性金融网站(例如,银行,PayPal,eBay等)。URL来自PhishTank,网址为http://www.phishtank.com/。这些URL  主要用于基于网络钓鱼的基于电子邮件的攻击。警告–对于每个站点,服务器上的所有文件均已收集(文本,图像,代码等)。一些文件夹可能包含恶意软件。请查看DIBBs-ISI恶意软件处理协议。 

              readme.txt

                     SpoofFinancial.zip               (压缩159 MB,解压缩402 MB)

  • 合法财务文件: 包含50个合法财务网站(例如,银行,PayPal,eBay,托管网站等)。可以与“财务欺骗”或“托管托管”网站配对以执行分类任务。

readme.txt文件

                     LegitFinancial.zip                (180 MB压缩,570 MB解压缩)

药店

  • Conconcted Pharmacy网站: 包含150家使用黑帽SEO(即链接垃圾邮件)达到搜索引擎排名前100名的混合药房。URL已通过LegitScript在http://www.legitscript.com/上进行了验证

                     readme.txt文件

ConcoctedPharma.zip          (1.4 GB压缩,8.1 GB解压缩)

  • 合法药房网站: 包含150个合法药房。合法性已通过美国国家药品监督管理局协会(NABP)和LegitScript进行了验证,网址http://www.legitscript.com/

                     readme.txt

LegitPharma.zip                   (659 MB拉链,2.6 GB解压缩)

  • 药房摘录: 包含来自上述150家炮制和150家合法药房(使用HTML解析工具得出)的文本和URL摘录。文本和URL提取文件是网站级别的文件,给定网站的所有文本都显示在一行中。

readme.txt文件

PharmaExtracts.zip               (107 MB拉链,860 MB解压缩)

靶向BRANDS

  • 以网络钓鱼为目标的品牌–包含2006年至2015年的178个主要目标品牌的时间序列数据,以及每次网络钓鱼攻击的URL和Whois信息。数据包括近150万个攻击URL。

                      readme.txt
                      TargetedBrands.zip              (压缩后为86.5 MB,未压缩后为1.6 GB))

钓鱼者

  • ``PhishMonger-包含2015年11月至2018年5月之间收集的约393,000个网络钓鱼网站。每个输出系列代表一个月的收集时间。这项研究仍在进行中,随着研究人员将其提供给公众,更多的网站将被添加到该门户中。注意:此数据集可能包含恶意软件。请查看DIBBs-ISI恶意软件处理协议phishmonger工具位于 https://github.com/mcintirecba/phishmonger

               自述文件PhishMonger.txt

                     readme2.txt

                     PhishMonger_Dobolyi_Abbasi_ISI-2016_preprint.pdf

                     IEEE_ISI_2016_Poster.pdf

                     IEEE_ISI_2016_Presentation_Short.pdf

                              由于文件大小,某些输出被分成多个部分。将所有零件下载到一个文件夹中,然后打开第一个文件(001)重新组合。

               索引文件1-21113

              index.zip     (69 GB压缩)

              输出1-28

                     output_1-28.zip.001     (已压缩10.2 GB)       
                     output_1-28.zip.002     (已压缩10.2 GB)
                     output_1-28.zip.003     (已压缩10.2 GB)
                     output_1-28.zip.004     (已压缩10.2 GB)
                     output_1- 28.zip.005     (已压缩10.2 GB)
                     output_1-28.zip.006     (已压缩10.2 GB)
                     output_1-28.zip.007     (已压缩10.2 GB)
                     output_1-28.zip.008     (已压缩10.2 GB)
                     output_1-28。zip.009     (1.1 GB压缩)

                     输出29-661

                     output_29-661.tar        (12.7 GB)

               输出662-1323

                     output_662-1323.zip.001  (压缩9.7 GB)

output_662-1323.zip.002   (6.4 GB压缩)

                     输出1324-1980

               output_1324-1980.zip.001    (压缩9.7 GB)

                     输出_1324-1980.zip.002     (压缩9.7 GB)

                     output_1324-1980.zip.003     (压缩9.7 GB)

                     output_1324-1980.zip.004     (压缩9.7 GB)

                     输出_1324-1980.zip.005     (压缩7 GB)

输出1981至2506年

                     output_1981-2506.zip.001    (9.7 GB压缩)

                     output_1981-2506.zip.002     (压缩1.4 GB)

输出2507至2895年

                     output_2507-2895.zip.001    (压缩10 GB)

                     output_2507-2895.zip.002     (压缩5 GB)  

OUTPUT 2896-3649

output_2896-3649.zip.001    (10 GB压缩)output_2896-3649.zip.002    (7.8 GB压缩)  OUTPUT 3650-4044 output_3650-4044.zip.001    (10 GB压缩)output_3650-4044.zip 0.002    (10 GB压缩)output_3650-4044.zip.003    (10 GB压缩)output_3650-4044.zip.004    (1.6 GB压缩)OUTPUT 4045-4831 output_4045-4831.zip.001    (10 GB压缩)    








output_4045-4831.zip.002    (2.7 GB压缩)     OUTPUT 4832-5512 output_4832-5512.zip.001    (10 GB压缩)output_4832-5512.zip.002    (3.1 GB压缩)OUTPUT 5513-6278 output_5513-6278.tar            (8.1 GB)OUTPUT 6279-7095 output_6279-7095.tar            (5.7 GB)OUTPUT 7096-7697 output_7096-7697.zip.001








   (10 GB压缩)output_7096-7697.zip.002    (6.9 GB压缩)OUTPUT 7698-8409  output_7698-8409.tar           (14.7 GB)



                     输出8410-9154

             output_8410-9154.tar           (15.9 GB)

                     输出9155-9909           

                     output_9155-9909.tar            (11.2 GB)  

                     输出9910-10589            
                     output_9910-10589.tar           (11.4 GB)  

                     输出10590-11375             
                     output_10590-11375.tar           (5.6 GB)  

                     输出11376-12183            
                     output_11376-12183 .tar           (7.6 GB)  

               输出12184-12895

              output_12184-12895.tar             (7.2 GB)  

输出12896-13519

                     output_12896-13519.tar            (11 GB)

                     输出13520-14395

                     output_13520-14395.tar            (22 GB)

                     输出14396-15085

output_14396-15085.tar             (14.3 GB)

               输出15086-15506

output_15086-15506.tar             (31.2 GB)

                     OUTPUT 15507-16276 output_15507-16276.tar            (31 GB)

OUTPUT 16277-16951 output_16277-16951.tar             (12 GB)

OUTPUT 16952-17583 output_16952-17583.tar             (25.5 GB)

OUTPUT 17584-18313 output_17584-18313.tar             (22.1 GB)

           OUTPUT_18314-18822

           output_18314-18822.tar           (13.5 GB)

                     输出-18823-19665

              output_18823-19665.tar            (29 GB)

                     OUTPUT-19666-20256
                     output_19666-20256.tar            (18 GB)

                     OUTPUT-20257-21113
                     输出20257-21113.tar            (24 GB)


文章来源: http://mp.weixin.qq.com/s?__biz=MzI2MTE0NTE3Mw==&mid=2651121424&idx=1&sn=a8e4282053e217e761acbe40fff2d7ac&chksm=f1ae902ac6d9193ce7882baa8884540ba60353d3f48b2ab67908c430c0bf8b448e20fd515e13#rd
如有侵权请联系:admin#unsafe.sh