【资料】社交媒体在空间犯罪分析与事件预测模型中的整合
2021-04-10 07:30:00 Author: mp.weixin.qq.com(查看原文) 阅读量:92 收藏

摘要
在社交媒体数据探索和可能用于犯罪预测方面,过去十年是最有成效的十年。因此,这一领域是一个快速发展和增长的领域。这项研究的目的是发现和评估活动区域的犯罪发生和附近社交媒体活动之间的空间关系,并估计这种活动对犯罪预测模型可能产生的影响。

总体而言,本文将通过对社交媒体数据的探索,以及其他包括人口、经济和安全风险因素在内的信息,重点关注关于有计划的和正在发生的事件的地理空间犯罪预测。

本论文将使用来自不同领域的方法和工具,包括:来自机器学习的社交媒体文本挖掘和分类;来自犯罪预测的空间统计和预测模型。研究结果将是界定新研究领域的宝贵基础,有助于在事件探索的基础上进一步理解包括社交媒体等二级数据来源的空间犯罪分析和预测模型。
关键词:空间犯罪分析、社交媒体、空间预测、基于人群的事件

1、导言
到目前为止,结合社交媒体数据的犯罪预测模型已经能够对某些类型的犯罪实现显著高的成功率,补充了传统的犯罪预测模型。大多数犯罪预测技术都是在考虑历史犯罪数据存在的前提下,进行犯罪追溯预测。在这一方法中,利用热点分析、回归、聚类确定或时空模式识别等地理空间和统计技术,开发了定量方法来客观地对犯罪数据进行分类,并找出诸如犯罪类型、犯罪人类型、侦查结果、机密信息等特征。


近几年来,犯罪预测分析越来越多地走向跨学科发展。这也与“大数据”的增长有关,过去十年是社交媒体数据探索最有成效的十年。来自信息学、计算机科学、数学和统计学的研究人员正在与犯罪学家、社会学家和其他人合作开发新的预测模型。此外,这项技术的高度发展在犯罪分析和社交媒体中都是一个非常重要的过程,它开启了大量可以在不同感兴趣的领域进行的研究。


机器学习技术与线性和逻辑建模、基于密度的模型、风险地形建模或地理加权回归一起,已被用于通过地理标记推文或更详细地从推文中挖掘文本来预测犯罪发生。这些算法的结果排名很高;然而,对于为什么不同的犯罪或社交媒体数据集的准确性会发生变化,没有太多的解释。就我们所知,在利用社交媒体进行预测时,很少有研究考虑事件对空间犯罪分布的影响。


有大量文献关注大型或巨型赛事、体育赛事、自然灾害等赛事期间的空间犯罪分布情况。然而,以前没有做过太多的研究尝试,专门预测考虑社交媒体和犯罪数据的特定地点或场馆地点的计划事件,并在模型中包括环境解释变量。人口轨迹及其对犯罪可能性的影响因环境因素而异。

从社交媒体中寻找可以促进犯罪预测模型及其实施的属性,以及犯罪数据,以便更好地预测,这是PHD的核心部分,主要关注公共事件。这项博士研究的基础有三个主要因素:犯罪事件、社交媒体(主要是Twitter数据)和事件(有计划的事件和正在发生的事件)。

事件可以被定义为在一个地方发生的事情,特别是重要的事情,比如有计划的公共和社交场合,或者组成体育比赛的特定比赛。计划的活动是定义了其主要参数的活动,如地点或公众出席人数。新出现的事件指的是那些基本元素有能力形成新的关系和身份的事件,这些关系和身份被设计成更高级别的元素。

总体而言,时空分析是这项PHD研究的基础,与空间关系(如空间单元之间的距离、连通性、分布、形式和空间)一起进行管理。在最后的比较之后,将仔细选择和详细讨论研究案例,其中将定义适用于事件的稳健的犯罪预测模型。

本研究旨在填补社交媒体整合在针对不同事件发生的空间犯罪预测方面的这一空白。在研究期间,作者将使用这些工具来提取、量化和标准化社交媒体数据和属性,这些数据和属性可以在不同事件的地理空间犯罪预测分析模型中获得更好的结果。

因此,这项研究的目的是为多学科工具的使用和在地理空间预测模型中整合结果铺平道路,这些模型可以回答犯罪分析中的时空模式。空间犯罪学理论将为我在博士学习期间开展的分析提供支持。

2.相关工作
犯罪呈现出更高的战略复杂性,并与其他不一定相连的网络相互作用。在犯罪应用中应用的预测模型主要有热点分析、回归方法、数据挖掘和机器学习算法、近重复概念、时空分析和风险地形分析。为了获得更好的预测效果,根据研究方法选择了相应的预测算法。

以人群为基础的活动(上座率高的活动)被认为是犯罪的吸引者和生成者。有研究强调日常活动、涉及流氓和暴力犯罪的理论和犯罪模式理论的潜在影响,这些理论与体育赛事等特定领域的犯罪增加有关。

犯罪模式分析是确定犯罪空间和时间位移的基础。然而,在日益增长的空间犯罪预测分析领域,对具体事件的关注并不多。本研究的目的是为了适应和使用已经提到的针对事件的犯罪预测方法。针对事件分析的社交媒体数据处理以及将结果整合到犯罪预测模型中可能会改善最终结果。

社交媒体提供的机会要求建立研究方法,以便对提取可能在许多领域有帮助的信息(如犯罪分析)提供洞察力。社交媒体网络提供了海量的数据,这些数据被社会科学、经济学、国际科学、计算机科学、心理学或哲学等分支机构分析。

关键技术超越了文本分析,包括观点挖掘、实体提取、事件识别、情感分析、主题建模、社交网络分析、趋势分析和视觉分析。词典(字典)中的单词密度及其一致性有可能定义数据之间的关系。因此,由于社交媒体数据的杂乱无章和高度多样化,它仍然是一个开放的研究领域。对社会数据参数的分析大多是从计算机和数据科学的角度()进行的,没有考虑“空间”成分。

社交媒体数据在犯罪预测模型中的实施才刚刚开始。然而,通过近五年的研究,犯罪预测算法得到了详细的测试,同样的情况也可以在社交媒体预测算法中得到证实。

一种结合社交媒体和犯罪数据的方法是通过主题提取和与犯罪发生的联系来开发的。2012年是第一次将社交媒体和犯罪结合起来进行预测。在弗吉尼亚州夏洛茨维尔,推特数据的自动语义分析和自然语言处理,通过LDA进行降维,以及通过线性建模预测肇事逃逸犯罪,代表了这一主题的最早研究。另一项研究调查了丰富文本内容的可能整合,以预测用户的空间轨迹,然后是与伊利诺伊州芝加哥的犯罪发生的相关性。

第二种方法指出了社交媒体密度的重要性。如果社交媒体在某一研究领域的使用量足够大,它可能会建立更高的预测价值。研究人员将Twitter数据与存档的犯罪数据一起作为预测因素,这导致了对入室盗窃和抢劫的预测增加。然而,这项分析只考虑了推文的数量、数量和犯罪类型。

推特数据被认为是犯罪率计算中使用的周围人口的替代品,显示了对犯罪热点的影响。此外,其他数据集可以支持环境人口计算。考虑到社交媒体是一个动态变量,重要的是还要创建一个动态人口变量(环境),这一挑战将在我的博士学位开发期间进行测试。

在居民区水平的核密度估计中,对添加到犯罪数据中的时空标记推文的主题建模和语言分析对伊利诺伊州芝加哥市产生了良好的预测。通过这项研究,研究表明,推特派生的属性提高了25种犯罪类型中的19种的预测能力。认识到这项研究的重要性,时间模式可能会比使用的三个月数据集在更长的时间内有所不同。此外,犯罪的季节性也会影响预测的准确性。

另一个创新尝试是通过应用基于词典的方法和天气参数,并结合核密度算法中的犯罪数据来考虑情感分析的含义。对于同一城市,研究人员根据用户可信度的概念计算用户排名,然后捕获预测性上下文隐藏变量,用于犯罪率趋势预测。

过去的研究已经证实,犯罪类型的分布在不同的文化、宗教、语言和社会经济地位之间显示出一些相似之处。然而,考虑到社交媒体和犯罪数据,之前还没有专门针对不同地点和场馆地点预测计划中和正在发生的事件的研究尝试。

除了与体育赛事相关的犯罪事件,研究还显示了在Twitter上检测体育赛事的结果,公众对超级碗(SuperBowl)等排名较高的赛事的总体看法,以及与体育赛事相关的人群活动。此外,一些研究人员对节日、音乐会、政治峰会、世博会、城市交通等人群活动感兴趣。

犯罪研究中考虑的另一种重要事件是抗议活动,这可能导致高犯罪率。最近的理论背景认为,社交媒体可能会增加新兴事件的发生,比如抗议活动。事件强度的时空变化可能与社交媒体活动有关。另一方面,抗议活动的协调和管理可以在社交媒体上进行,也可以通过在线发布来发展社会压力。该领域现有的有限研究将与事件相关的人群活动作为犯罪分析和预测的指标。

正如前面所讨论的,有越来越多的文献研究事件(例如,体育赛事)对犯罪的影响,也有越来越多的文献显示人们在(体育)赛事期间在社交媒体上的行为是如何变化的。然而,调查事件、社交媒体活动和犯罪事件之间的关系(如果存在)的研究有限。

3、目标,研究说明
犯罪事件的预测可以受益于社交媒体的实施,作为一种外生预测因子,并可能提高结果的精确度。这一研究项目的创新之处将是将社交媒体分析整合到针对特定事件的犯罪预测模型中,并对此类预测的质量进行评估。以下各行列出了三个主要目标、研究问题以及简要介绍的数据和方法:

·目标1:在定期发生的事件中检查犯罪分布与社交媒体之间的关系

RQ1:特定类型的事件与犯罪类型之间有什么关系?

RQ2:社交媒体如何预测与事件结束相关的犯罪扩散?

数据集:犯罪、推文、兴趣点、居住人口、陆地扫描人口。

方法:话题提取、发现“暴力推文”进行文本分类、热图、点模式分析、层次聚类、Logistic回归。

·目标2:调查场馆犯罪发生与不同事件类型之间的关系

RQ1:事件类型如何影响场馆犯罪预测?

RQ2:社交媒体与犯罪数量有何关联?

数据集:犯罪、推文、兴趣点。

方法:话题提取、观点挖掘(使用朴素贝叶斯)、GI*(随机分布中值高于预期的点的聚类)、Moran指数I(聚类似然度)、负二项Logistic回归、曲线下面积(AUC)评价。

·目标3:探索时空技术在评估新兴事件(抗议、骚乱)

RQ1:中的适应性:社交媒体的时空分析如何有助于识别影响犯罪的新兴事件?

RQ2:社交媒体如何预测与新兴事件的空间位移相关的犯罪?
数据集:犯罪、推特、兴趣点、旧抗议数据和社会经济信息

方法:主题提取、指数分散模型、逻辑回归、犯罪置换方法、轨迹分析。

4、结论
总体而言,本文将通过对社交媒体数据的复杂参数的探索,将重点放在关于有计划的和正在发生的事件分析的地理空间犯罪预测分析上。此外,本研究将探索历史犯罪数据,并分析犯罪发生与社交媒体数据参数(主题、词频、情绪)之间的相关性。根据研究,预防犯罪的举措有取代犯罪或分散减少犯罪利益的趋势。这项分析将从社交媒体中识别可能有助于预测与空间位移相关的犯罪的信息,这些信息涉及事件的发生。此外,还将考虑其他可能的风险因素。人口数据在决定犯罪率方面非常重要,因此确定犯罪风险人口将是犯罪预测模型中的一个额外的风险因素。

该方法的显著特点在于将这三个数据元素与其他一些信息(如人口统计)相结合,为不同事件的空间犯罪预测提供了社交媒体整合的新解释。

将应用几种空间统计模型,包括:空间回归分析,用于寻找犯罪和社会数据变量之间的空间关系;地理加权回归,用于点数据验证;线性和逻辑回归;全球空间自相关,用于找出同一地理空间中发生的事件之间的依赖程度。

上述方法将有助于在基于事件的犯罪分析和预测性分析中评估和整合社交媒体信息。社交媒体数据的位置是有限制的。由于使用地理标注的人比例较小,人们开发了通过文本挖掘(从文本中提取位置)来提高定位质量的算法。其他限制也可能是犯罪数据的质量。我们必须记住,这些数据是由人类收集的,因此很难消除研究中使用的所有数据集中包含的偏见。

作为PHD的后续应用,研究结果可用于在更大的影响范围内更有效地分配警力巡逻,不仅是在活动地点附近,而且在监测新出现的事件的负面影响方面也是如此。理想情况下,这将提高警务效率,并防止公共财产受损。


文章来源: http://mp.weixin.qq.com/s?__biz=MzI2MTE0NTE3Mw==&mid=2651121867&idx=2&sn=13e26a74f133258f5fadc5a013e784d5&chksm=f1ae9ff1c6d916e7f82f86b1fb81ce3f8ccff76b30f6a0e3583f2e6161496f2b63614ba8fd65#rd
如有侵权请联系:admin#unsafe.sh