【通知】第二届全国大学生开源情报数据采集与分析大赛
2024-6-25 23:17:22 Author: mp.weixin.qq.com(查看原文) 阅读量:1 收藏

为深化情报学领域的人才培养战略,激发学生对开源情报分析的热情,强化学生在数据采集、深度分析及情报应用等方面的综合技能,营造一种“勇攀高峰,追求卓越”的学术文化氛围,鼓励大学生跨越理论与实践的界限,将课堂知识转化为解决复杂情报挑战的能力。同时,为了更好地培养学生掌握先进的数据挖掘与分析方法,锻炼学生敏锐的情报洞察力,为将来投身于开源情报领域的工作奠定坚实的基础。特举办“第二届全国大学生开源情报数据采集与分析大赛”。本赛事旨在构筑一个激励创新、追求卓越的专业平台。

一、赛项名称

第二届全国大学生开源情报数据采集与分析大赛

二、组织架构

指导单位:中国中文信息学会

主办单位

中国中文信息学会开源情报技术专业委员会

承办单位

湖北大学

四川警察学院

北京中科闻歌科技股份有限公司

协办单位

八爪鱼大数据

深圳数研信息技术有限公司

三、报名及大赛时间安排

2024.06.25--大赛启动,开始报名,确认参赛选手

2024.09.08--提交报名截止,开始数据采集和选题

2024.09.18--截止提交初赛环节1数据集

2024.09.20--初赛环节2线上比赛(具体时间另行通知)

2024.10.10—截止提交初赛环节3数据分析报告

2024.10决赛(具体时间另行通知)

四、参赛对象及组队方式

本次竞赛以学校为单位组队参赛,参赛选手必须为全国普通高等院校(含高职)全日制在校学生(含研究生),性别、年龄不限。

同一单位报名参赛队伍原则上不超过5支,每支参赛队伍参赛选手2-3名,指导老师1-2名,性别、年龄不限。

五、竞赛内容

大赛分为初赛和决赛初赛由开源数据收集、数据采集规则制作、数据分析报告三个比赛环节,各环节所占分数权重依次为10%40%50%根据三个环节总成绩进行排名,排名前60%的参赛队晋级决赛。决赛为PPT汇报及答辩环节,采用集中式进行,团队总成绩=初赛成绩*30%+决赛成绩*70%,最终获奖名次根据团队总成绩进行统计排名。详细规则和竞赛选题见比赛细则。

初赛(占总成绩的30%):

比赛环节

比赛内容

时间分配

权重

初赛环节1

开源数据收集

10天(开放式)

10%

初赛环节2

数据采集规则制作

2小时(线上集中式)

40%

初赛环节3

数据分析报告

20天(开放式)

50%

决赛(占总成绩的70%):

比赛环节

比赛内容

时间分配

权重

决赛环节1

ppt汇报及答辩

每组5分钟(集中式)

单独评分

六、奖项设定

赛项设团体奖和优秀指导教师奖。团体奖的设定为:一等奖占比10%,二等奖占比20%,三等奖占比30%,获得团体一等奖的指导教师由主办方颁发优秀指导教师证书。

另设优秀作品奖、创新作品奖若干,开放式选题赛道和固定式选题赛道各选取若干作品获奖。

七、大赛费用

本次大赛不收取报名费,参与线下颁奖的选手和带队教师的交通及食宿等费用自理。

八、联系方式

1.大赛报名:http://osint.jingsai.ai-learning.net

2.大赛官方邮箱:[email protected]

3.大赛组委会联系人:

刘凯:18503001957(参赛联系人)

李亚敏:15512810355(承办校联系人)

中国中文信息学会

开源情报技术专委会

                2024624 

第二届全国大学生

开源情报数据采集与分析大赛规程

指导单位:中国中文信息学会

主办单位:中国中文信息学会开源情报技术专业委员会

承办单位:湖北大学

四川警察学院

北京中科闻歌科技股份有限公司

协办单位:八爪鱼大数据

深圳数研信息技术有限公司

20246

一、大赛名称

 第二届全国大学生开源情报数据采集与分析大赛

二、比赛目的

为深化情报学领域的人才培养战略,激发学生对开源情报分析的热情,强化学生在数据采集、深度分析及情报应用等方面的综合技能,营造一种“勇攀高峰,追求卓越”的学术文化氛围,鼓励大学生跨越理论与实践的界限,将课堂知识转化为解决复杂情报挑战的能力。同时,为了更好地培养学生掌握先进的数据挖掘与分析方法,锻炼学生敏锐的情报洞察力,为将来投身于开源情报领域的工作奠定坚实的基础。特举办“全国大学生开源情报数据采集与分析大赛”。本赛事旨在构筑一个激励创新、追求卓越的专业平台。

三、组队方式与竞赛内容

(一)组队方式

本次竞赛以学校为单位组队参赛,参赛选手必须为全国普通高等院校(含高职)全日制在校学生(含研究生),性别、年龄不限。

同一单位报名参赛队伍原则上不超过5支,每支参赛队伍参赛选手2-3名,指导老师1-2名,性别、年龄不限

(二)竞赛内容

 大赛分为初赛和决赛,初赛由开源数据收集、数据采集规则制作、数据分析报告三个比赛环节,各环节所占分数权重依次为10%40%50%。根据三个环节总成绩进行排名,排名前60%的参赛队晋级决赛。决赛为PPT汇报及答辩环节,采用集中式进行,团队总成绩=初赛成绩*30%+决赛成绩*70%,最终获奖名次根据团队总成绩进行统计排名。

初赛(占总成绩的30%):

比赛环节

比赛内容

时间分配

权重

初赛环节1

开源数据收集

10天(开放式)

10%

初赛环节2

数据采集规则制作

2小时(线上集中式)

40%

初赛环节3

数据分析报告

20天(开放式)

50%

决赛(占总成绩的70%):

比赛环节

比赛内容

时间分配

权重

决赛环节1

ppt汇报及答辩

每组5分钟(集中式)

单独评分

初赛环节1、开源数据收集

(1). 竞赛分值:10分。

(2). 竞赛时间:10

(3). 评分标准:对提交的数据集文件进行复验,数据量超过5万条,且数据重复率低于1%,数据空值率低于1%的参赛队伍得满分若总数据量低于5万条,则按实际比率得分(如4万条得8分,精确到小数点后两位)。若总数据量高于5万条,但数据重复率或数据空值率任意一项高于1%,则每多50条扣0.5分,最高扣5分,不满50条按50条计算。提交数据时间不影响本轮成绩。

(4). 项目任务:利用八爪鱼等数据采集工具采集完整不重复数据5W条。可选择的数据类型如下表,每个团队应至少选择两种数据类型,数据量要求≥5万条,数据重复率不得高于1%,数据空值率不得超过1%

序号

数据类型

参考网址

字段

1

新闻数据

人民网、环球网、中国新闻网以及地方新闻网等

关键字或版块、标题、原文链接、发布时间、正文

2

社交平台数据

微博、知乎、股吧、雪球等

关键字或版块、发帖链接、发帖人、发布时间、帖子正文、评论数(如有)、点赞数(如有)

3

政策数据

外交部、国务院新闻办、地方政府网等

关键字或版块、标题、原文链接、发布时间、正文

4

短视频平台数据

抖音、小红书、快手、B站等

关键字或版块、发帖链接、发帖人、发布时间、帖子正文、评论数(如有)、点赞数(如有)

5

地图数据

百度地图、高德地图、腾讯地图等

关键字或版块、地标名称、详细地址

6

电商评论数据

京东、淘宝、唯品会等

商品名称、商品链接、评论人、评论内容、评论时间、评分或星级(如有)

(5). 操作流程:

1)选手下载数据采集工具。

2)根据选定的网站进行操作采集数据(会同步发布操作指导视频及教程);

3)完成数据采集,导出数据文件保存为.csv文件(命名规则为参赛队编号+初赛环节1)。

4)确认所有数据文件数据量超过5万条后将所以数据文件打包存储,压缩包命名为参赛队编号+初赛环节1

5)确认无误后提交至指定邮箱:[email protected]

初赛环节2、数据采集规则制作

(1). 竞赛分值:40分。

(2). 竞赛时间:120分钟(线上)

(3). 评分标准:每个任务5-12分,一共5个任务,以团队为单位分工完成。组委会对提交的每个任务规则进行校验,能正常运行且能采集到样例数据≥100条,样例数据字段须与赛题完全一致,样例数据前100条空值率不得高于10%,有任何一项不符则该任务不得分。分数相同的,则提交时间早的排名靠前。

(4). 项目任务:利用八爪鱼等数据采集工具完成赛题要求的数据采集规则制作,制作完成后导出规则文件及样例数据提交

(5). 操作流程:

1)选手下载数据采集工具。

2)根据赛题任务制作对应的采集规则文件,顺序不限;

3)完成某一赛题规则后进行试采集,采集样例数据符合赛题要求后导出样例数据文件和任务规则文件(otd后缀文件)。

4)命名规则:导出文件按照题目1.otd,题目1.xls方式命名,压缩包命名为参赛队编号+初赛环节2

5)确认无误后提交至指定邮箱:[email protected]

初赛环节3、数据分析报告

(1).竞赛分值:50分。

(2). 竞赛时间:20天。

(3). 评分标准:选手提交数据进行分析的方案报告,其中:分析工具、思路和方法10分,分析过程15分,分析结果和结论15分,对策建议10分。提交报告由多位专家评委盲测评分,取专家评分平均分为最终得分。分数相同的,则提交时间早的排名靠前。

(4). 项目任务:选手对所采集的数据进行分析并形成方案报告方案报告需要能够准确、清晰描述整个分析过程和分析结果,包含:使用的分析工具、分析思路、分析方法;分析过程、分析结果及结论;提出有针对性的对策和建议。

(5). 操作流程:

1)参赛队伍根据以下表格中的选题方式任选其一进行选题;

2)根据所选命题进行数据采集分析,最终形成数据采集方案word文件、采集数据csv文件、分析报告word文件;

3)将上诉三个文件进行压缩打包,压缩包命名为参赛队编号+初赛环节3

4)确认无误后提交至指定邮箱:[email protected]。提交文件仅允许提交一次和修改一下。

序号

选题方式

题目或方向

详细内容

1

开放式选题

社交媒体情报分析

通过采集社交媒体平台上的用户发贴数据,收集和分析用户发布的信息,了解公众对特定话题或事件的意见和情感倾向,以帮助政府、企业等了解公众舆情和市场动向。

2

网络犯罪情报分析

通过分析犯罪组织在互联网上的宣传、招募和策划活动,获取有关其组织结构、领导层、战术等方面的情报,以便制定反恐策略和行动。

3

金融情报分析

通过分析金融市场的公开信息,如公司财报、股价、市场交易等,获取有关公司、行业和市场趋势的情报,以支持投资决策和风,险管理

4

商业情报分析

通过采集商业公司的公开信息,如新产品发布、市场营销活动、人才招聘等,了解其战略意图和动向,以改进自己的产品和服务。

5

网络安全情报分析

通过采集互联网上的激进言论、潜在网络威胁活动,获取有关潜在网络威胁的情报,以加强网络安全防御和事件响应能力。

6

教育资源情报分析

通过采集网络上教育资源的公开信息,比如采集各个地区教育资源(学校、师资、教学设施等)信息,采集就业市场信息,分析各个地区资源配置的情况、人才培养需求和就业市场供需关系等。

7

政府治理情报分析

通过采集政府相关数据进行数据分析,了解政府治理情况,以支持政策效果评估、公共服务优化、政府决策支持等。

8

医疗健康情报分析

通过采集医疗健康领域的数据进行数据分析,以支持疾病流行趋势分析、不同地区的医疗资源分配优化、个性化医疗服务等。

9

固定式选题

主要竞争国对华投资情况分析

日本,美国,德国,英国及台湾地区在内地投资控股企业信息采集和分析(参赛团队选一个国家或地区进行采集分析),根据采集数据完整度及分析的深度进行评分。

10

低空经济领域无人机与载人低空城际通航的数据洞察与未来趋势分析

利用开源数据对全球或特定地区的无人机市场进行分析,要求参赛者通过数据挖掘揭示行业动态,评估潜在危险因素,并提出建设性策略和建议,同时预测市场发展障碍以及未来发展趋势。

11

2024年国际竞争新形势分析

结合2023-2024年主要竞争国(如美国、日本、德国、英国等任选一个或多个国家)对华经济、文化、立法、科技等方面的数据进行采集和分析,并预测未来可能产生的影响和趋势。

12

南海战略分析

分析南海声索国政府和民间对中国的舆论态度,评估认知战在南海争议中的作用和影响,结合分析结果提出促进南海地区舆论理解和认知战态势改善的策略。

13

亚洲军事演习的社交媒体评价分析与区域安全态势研究

采集2023-2024年亚洲军事演习相关数据,分析评估军事演习对区域安全态势的影响,探索社交媒体在塑造公众对军事和安全议题认知中的作用。

14

全球南方国家的多边主义合作分析

采集金砖国家、非洲联盟等组织以及社交媒体相关的数据,分析全球南方国家在多边主义合作中的作用和贡献,提出建设性的策略和建议以促进全球南方国家通过多边合作应对全球性挑战。

15

全球范围内极端天气和自然灾害带来的全球气候危机分析

采集全球范围内关于自然灾害(如极端天气、洪灾、旱灾、地震等)以及受灾数据。灾害发生频率、影响范围、受灾人口、经济损失、难民流动趋势等进行分析提出针对自然灾害的预防、减灾、应急响应和长期解决方案,并结合国际合作、地区发展、社会治理等方面,提出政策建议,以提高社会对自然灾害的抵御能力

决赛环节1PPT汇报及答辩

(1).竞赛分值:70分。

(2). 竞赛时间:每组5分钟汇报时间。

(3). 评分标准:

评分内容

评分项目

评分要点

内容质量与相关性

15分)

紧扣主题

汇报内容是否紧密围绕比赛要求的主题,明确阐述分析目标。

数据准确性

所使用的数据是否准确无误,分析方法是否科学合理。

相关度与深度

分析是否深入,是否有独到见解或创新的方法应用。

结论与建议

提出的结论是否基于数据分析得出,建议是否具有实践价值和可操作性。

PPT可视化效果与呈现

15分)

逻辑结构

PPT布局是否清晰,逻辑条理是否顺畅。

视觉效果

图表、图形的选择与设计是否有助于信息传达,整体视觉是否专业吸引。

专业性和创造性

PPT的设计是否专业,是否展现了创意。

演讲表达

10分)

表达能力

演讲者是否能够清晰、准确地传达信息。

自信和仪态

演讲者是否展现出自信,是否有良好的肢体语言和眼神交流。

时间管理

是否在规定的时间内完成了演讲。

创新能力

10分)

创新性

汇报或分析是否包含独到的见解和创新的方法。

结论应用价值

分析结果是否具有实际应用价值和解决问题的潜力。

综合素质与团队协作

10分)

团队协作

团队成员之间是否有明确的分工,是否能够协作无间。

临场应变

面对意外情况时的处理能力,如技术故障、突发提问等。

答辩能力

10分)

问题回答的准确性

对于评委的问题,回答是否准确、深入。

思维敏捷性

是否能够迅速理解问题并作出回应。

四、大赛时间

2024.06.25--大赛启动,开始报名,确认参赛选手

2024.09.08--提交报名截止,开始数据采集和选题

2024.09.18--截止提交初赛环节1数据集

2024.09.20--初赛环节2线上比赛(具体时间另行通知)

2024.10.10截止提交初赛环节3数据分析报告

2024.10决赛(具体时间另行通知)

五、初赛环节2样题(与正式赛题无关联)

任 务 1采集**网站**栏目前10页的数据,包含(标题,时间,作者,正文,图片)

  2采集**网站**栏目的数据,且这些数据包含(******),包含(标题,时间,作者,正文,图片)

  3采集*博某个关健词的博文列表100条,字段包含(博文,作者,发布时间,评论数量,点赞数,转发数)

任 务 4采集*博某个关健词的博文列表100条(仅要原创的,转发不要),字段包含(博文,作者,发布时间,评论数量,点赞数,转发数)

任 务 5采集**指定帐号的**百家号最近一周更新的文章。

六、奖项设置

赛项设团体奖和优秀指导教师奖。团体奖的设定为:一等奖占比10%,二等奖占比20%,三等奖占比30%,获得团体一等奖的指导教师由主办方颁发优秀指导教师证书。

另设优秀作品奖、创新作品奖若干,开放式选题赛道和固定式选题赛道各选取若干作品获奖。

七、报名须知

(一)报名

 确认参赛意向后,参赛院校应积极选拔正式参赛选手(需要时可申请协助校内选拔),并于比赛报名截止时间前提交报名表选手姓名、指导老师姓名,将信息填写完整的大赛报名表统一发送至大赛组委会官方邮箱,邮件主题规则为:学校名称+联系人姓名+大赛报名表

八、申诉与仲裁

竞赛设仲裁委员会,在比赛过程中若出现有失公正或有关人员违规等现象,参赛团队可在比赛结束后2小时之内向仲裁委员会提出申诉,超过时效不予以受理。

申诉启动后,注意事项如下:

(一)申诉主体为参赛团队指导教师或领队。

(二)参赛团队应向竞赛仲裁委员会递交指导教师亲笔签字同意的书面报告,应对申诉事件的现象、发生时间、涉及人员、申诉依据等进行充分、实事求是的叙述,非书面申诉不予受理。

(三)仲裁委员会在接到申诉后的2小时内组织复议,并及时将复议结果以书面形式告知申诉方,该结果为最终结果。

(四)申诉方不得以任何理由拒绝接收仲裁结果;不得以任何理由采取过激行为扰乱赛场秩序;仲裁结果由申诉人签收,不能代收;如在约定时间和地点申诉人离开,视为自行放弃申诉。

九、赛项联系

1.大赛报名:http://osint.jingsai.ai-learning.net

2.大赛官方邮箱:[email protected]

3.大赛组委会联系人:

刘凯:18503001957(参赛联系)

李亚敏:15512810355(承办校联系人)

附件1

第二届全国大学生开源情报数据采集与分析大赛报名表

学校名称


赛事联系人


手机号


电子邮箱


指导教师信息

赛别

序号

姓名

性别

职称

专业

手机号

电子邮箱

开源情报大赛

1







2







参赛选手信息

赛别

序号

姓名

性别

班级

专业

手机号

身份证号

开源情报

1







开源情报

2







开源情报

3




















注:1.赛事联系人一般建议为指导老师

2.报名表报名信息需包含报名表所有信息,且需要上传参赛选手学生证照片或扫描件为附件备查。

    长按识别下面的二维码可加入星球
    里面已有万余篇资料可供下载
    越早加入越便宜
    续费五折优惠


文章来源: https://mp.weixin.qq.com/s?__biz=MzI2MTE0NTE3Mw==&mid=2651144572&idx=2&sn=a50c38437dc6a7780d24a8bd36418ebc&chksm=f1af3646c6d8bf50242b24ae29da0086705963be9e2b21a5a00810ba028ad0ccf21e0dc231bf&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh