【资料】美国社交媒体数据与犯罪率的关系
2021-04-10 07:30:00 Author: mp.weixin.qq.com(查看原文) 阅读量:140 收藏

摘要
公共卫生和执法官员需要犯罪监测工具来部署适当的资源并制定有针对性的干预措施。推特(Twitter)等社交媒体已被证明是监测和预测疾病爆发等公共卫生事件的可行工具。社交媒体也可能成为监控犯罪的可行工具。在这项研究中,我们收集了2012年5月至12月的Twitter数据,以及2012年和2013年美国的犯罪数据。我们调查了犯罪数据和与毒品有关的推文之间的联系。我们发现,2012年的推文与2012年和2013年的县级犯罪数据密切相关。这项研究提供了初步证据,表明社交媒体数据可以用来帮助预测未来的犯罪。我们将讨论未来的研究如何在这一初步研究的基础上进一步检验这种方法的可行性和有效性。
关键词:社交媒体;推特;药物滥用;犯罪;

引言
高犯罪率对与健康相关的生活质量、公共安全和经济增长产生负面影响。到目前为止,执法机构不得不严重依赖历史数据,如逮捕模式和犯罪率,以确定易受犯罪影响的地区。为了打击犯罪,政府机构和公共卫生官员不仅需要了解当前犯罪“热点”的位置,还需要了解这些“热点”在未来的转移情况。可以使用地理预测来预测这些事件,以便部署适当的资源并制定有针对性的干预措施。

许多研究已经确定了吸毒,特别是可卡因、海洛因和可卡因的使用与商店行窃、盗窃和卖淫等犯罪之间的联系。吸毒和犯罪之间的联系强度因使用的毒品类型而异。过去25年的荟萃分析表明,犯罪率与吸毒之间存在一致的正相关关系。然而,由于缺乏可用的数据源和监测和报告工具的有效性,现有的犯罪监测方法在空间模式和时间监测方面存在若干局限性。有必要探索最先进的技术来监测药物滥用行为,并最终产生创新和成本效益高的战略,以实时监测和识别高犯罪率地区。


社交媒体是指“促进用户之间的互动以分享信息、观点和兴趣”的网站和在线工具。社交媒体的出现为创新的分析工具和科学方法让路,例如实时挖掘和分析大量用户数据。社交媒体也显示出作为监测公众和预测事件的创新工具的潜力。这种监测方法可用于监测犯罪率,并可为暴发地区提供额外资源。

推特(Twitter)是最受欢迎的社交媒体网站之一,它是一个微博平台,允许用户向公众或一小群追随者发布名为“tweet”的简短消息。截至2017年,推文的长度可以达到280个字符;然而,在我们进行研究的时候,这一限制是140个字符。截至2017年,推特在全球拥有3.28亿月度活跃用户(2018年第一季度至2017年第四季度全球推特月度活跃用户数(百万)。推特用户在城市、年轻人、非裔美国人或西班牙裔人群中不断增加,这是犯罪率较高的人群。这表明推特可以成为监测犯罪率的有价值的数据来源。年轻群体和犯罪之间的联系已经在文献中得到了证明。如今,犯罪受害是许多年轻人生活中的一个共同特征。他们经历了基于发生在他们身上的事情和看到发生在他们周围的事情的犯罪。青少年对犯罪的影响不仅是经验,也是目击者。推特吸引了很多年轻的中产阶级。


Twitter等社交媒体服务的使用一直在迅速增长,研究已经表明,来自这些技术的数据可以被用作公共卫生监测的一种新方法。从2012年到2014年,Twitter的使用量增长了30%,目前美国每四个成年人中就有一个使用这项服务。Twitter与Facebook等其他社交媒体平台的不同之处在于,大多数帖子都是公开的,因此任何人都可以很容易地访问到。目前,Twitter上有大量可访问的数据。此外,之前的研究表明,用户愿意在他们的推文中分享高度个人化的信息,比如性和毒品相关的行为。从tweet中提取的信息,如位置信息、时间和内容可用于监测和预测传染病爆发、与健康相关的结果、电影收视率、学习经历、选举结果,等等。

使用社交媒体监控犯罪是一个新兴的研究领域。包含关于破碎窗户的关键字的推文与报告的犯罪率有关。基于这些研究和社交媒体的日益普及,与毒品有关的推文和犯罪之间的联系可能存在,并提供了使用社交媒体预测和监控犯罪的机会。


我们假设,在对收入不平等和人口密度进行调整的情况下,与毒品有关的推文频率将与2012年和2013年的县犯罪率呈正相关。积极的关联可以作为初步证据,表明社交媒体数据可以用作犯罪监测和预测的额外工具。


方法
这项研究得到了加州大学洛杉矶分校机构审查委员会的批准。2012年的城市犯罪数据来自citydata.com.City-Data收集谋杀、强奸、抢劫、袭击、汽车盗窃和纵火的报告,并计算总体犯罪率。该计算对暴力犯罪(城市数据)给予了更多的重视,并根据来往于城市的游客和日常工作人员的数量进行了调整。该县每个城市的累积City-data.com犯罪指数被用作结果变量。如果2012年没有特定县的犯罪数据,犯罪率将由历史犯罪率指数(过去10年的平均犯罪率)推算。每个城市和任何给定地址或邮政编码的城市数据都可以直接从网站上获得。我们纳入了额外的数据,以调整县级的人口特征(美国人口普查局,2012年)。

推特是在2012年5月26日至12月9日期间使用推特的免费高级编程接口(API)通过“花园软管”方法收集的,这种方法允许实时收集所有推文的1%。我们还收集了与推文相关的元数据,包括用户的IP地址和推文的发送时间。所有推文都进行了编码,以删除潜在的可识别信息。皮尤研究表明,近44%的推文来自18岁至44岁的年轻人群体。


在以前研究中使用的方法的基础上,汇编了与药物和物质使用相关的关键词列表。例如,如果推文包含一个或多个与物质使用有关的关键字(例如,鸦片类药物、海洛因或可卡因),则被归类为“与毒品有关”。由于某些与毒品有关的关键词背景广泛,我们手动筛选了与毒品有关的推文子集,以确保主题的准确性。原始样本包括553,196,061条推文;在这些推文中,有2,157,260条(0.04%)包含地理位置信息。在提供作者地址的推文中,1323条(0.06%)包含至少一个或多个与毒品有关的关键字。两名研究人员独立验证了推文的随机样本,以确保对物质使用的准确描述。与毒品有关的推文包括以下推文:“今天谁想嗨起来?”还有“请多吃点药,多喝点药。”我们数据集中的所有tweet都用纬度和经度坐标进行了地理标记。然后,我们使用Google Maps API提取每个tweet的州和县信息。


为了进行分析,我们为每个县创建了一个观察点。如果观察包括SAS 9.4中通过邮政编码链接在一起的地理编码推文数据、城市级犯罪数据和基尼指数数据,则该观察被认为是完整的。这些数据在县级进一步汇总,并与县级收入数据合并。我们收集了来自453个县的1323条涉毒推文,以及9428条市级犯罪记录。此外,我们还有3222个数据点的县级基尼指数和人口数据。最终的调查包括437个完整的观察数据,包括与毒品有关的推文、基尼指数数据和来自46个州的犯罪数据(占总数3142个县的14%)。


研究表明,收入不平等与犯罪率之间存在正相关关系,如果从大范围和短期衡量,收入不平等与犯罪率之间的关联更强。为了解决这一影响,我们使用了基尼指数的数据。基尼指数是衡量财富不平等和收入分配的指标。该指数的范围为0-1,其中0代表最大收入平等,1代表最大不平等。在横断面分析中,它可以直接影响人口健康和社会福祉,并与犯罪率呈正相关。虽然一些农村地区的县没有基尼指数,但我们的数据集没有受到影响,因为这些县的推文数量非常低。城市地区的犯罪率普遍较高,特别是在市中心,推文密度也很高。

统计分析
数据分析是在2017年2月进行的。皮尔逊相关系数被用来确定聚合的县级犯罪数据、与毒品有关的推文和基尼指数之间的成对线性关系。


一项预先分析表明,犯罪率与州一级与毒品有关的推文之间存在初步的正相关关系。基于这种相关性,我们开发了建模方法,对进一步的关联进行更详细的分析,以便在县级中进行探索。
我们使用负二项回归模型来显示犯罪数据和毒品相关推文之间的关联,同时考虑到犯罪数据的过度分散(Hilbe,2011)。使用基尼指数对县级犯罪数据和推特数据之间的关联进行了建模和调整。我们使用Akaike信息标准(AIC)得分比较了模型的性能,较小的AIC值表明模型的适合性更好。


由于不同地区的推文数量不平衡,我们进一步调整了每个县的一般人口。大城市县通常有更高的犯罪率和更多的推文数量。犯罪率和与毒品有关的推文是分层建模的,数据聚集在州内,考虑到州一级的法律决定了对毒品犯罪的惩罚,从而影响了公众的态度和吹嘘与毒品有关的推文的可能性。我们模拟了每100万人的犯罪率和每100万人与毒品有关的推文发送率之间的关系。然后,我们用多水平回归模型对县级基尼指数进行了调整。对这两个比率进行对数转换,以考虑模型中存在的偏度和过度离散性。我们使用了随机截距和斜率(RIAS)模型,用于在地理位置、政策和文化方面集中在一个州内的县。


正如文献所述,县级的人口特征与犯罪率有关。我们还调整了贡献推文一半以上的年轻人(年龄=15-44岁)的比例,县级人口中白人的比例,以及非裔美国人在人口中的比例。


结果
国家级结果
图1显示了犯罪率指数与毒品相关推文之间的正相关关系。与毒品有关的推文与犯罪指标率高度相关,州一级的相关系数为0.82。我们绘制了每个州与毒品有关的推文和犯罪指数之间的关系。

图1.犯罪率指数与州一级与毒品有关的推文之间的关联

县级结果
共有437份县级汇总完整记录可供进一步分析2012年和2013年的犯罪率。2012年和2013年县级平均犯罪率分别为336.43(SD=184.02,范围=31-1075.2)和341.81(SD=179.93,范围=53.8%-995.3)。2012年县级涉毒推特平均数量为2.54条(SD=3.33,Range=−31)。2012年平均基尼指数为0.44(SD=0.04,范围=0.33~0.60)。表1显示了与毒品有关的推文、犯罪率和基尼指数之间的相关结果。在2013年的数据中,我们包括了前一年的犯罪率。2012年与毒品有关的推文频率与2012年和2013年的县级犯罪指数高度相关。我们在2012年纳入了人口特征(平均年龄、15-44岁的百分比、高加索人和非裔美国人)。如表1所示,这与犯罪率和推文的相关性非常显著。
表1.2012-2013年县级犯罪率、与毒品有关的推文、基尼指数、平均年龄和青年、白人和黑人比例的相关结果

SD:标准差
县级相关:*p<0.05;**p<0.001

总体而言,我们使用了三个负二项回归模型和两个多水平RIAS模型,分别在2012年和2013年检验了县级与毒品相关的推文与犯罪率之间的关联,如表2和表3所示。在这两年的所有五个模型中,与毒品相关的推文与犯罪率之间的关联在统计上都是显著的。最好的表现(曲线下最小面积[AUC])是由模型5实现的-该模型调整了基尼指数、县级年轻人(15-44岁)、白人和非裔美国人的比例。在表2和表3中,多水平模型(模型4和模型5)的AIC最小,表现更好。此外,我们发现,2012年与毒品有关的推文与2013年的犯罪率显著相关(表3)。预测2013年县级犯罪率的最佳模型(模型5)包括2012年与毒品有关的推文和基尼指数。

表2. 2012年毒品相关推文和2012年县级犯罪率的负二项式分析。

表3. 2013年与毒品有关的推文和2013年县级犯罪率的负二项式分析。

多水平RIAS模型的结果在县级的对数转化犯罪率和与毒品有关的推文之间产生了类似的关联,而固定效应表明犯罪率的平均效应与与毒品有关的推文之间存在正相关(p<.001)。系数的固定效应表明,在控制收入不平等时,犯罪和推文之间存在显著关联-我们预计,当与毒品有关的推文增加10%时,每100万人口的犯罪指数率将增加9.5%。随机效应截距与斜率的相关系数为−0.14,p值为0.0 1,表明与毒品有关的推文的效果取决于该县的平均犯罪数量。当犯罪指标率高于该州平均水平时,这种关联性正向降低。该模型也发现了类似的趋势,2013年的犯罪率指数经过对数转换。


结论

我们发现,2012年与毒品有关的推文与2012年和2013年的县级犯罪率相关。据我们所知,这是第一项证明使用社交媒体数据(例如,与毒品有关的推文)来监测和预测犯罪率的可行性的研究。我们的发现提供了证据,表明除了现有的工具外,还可以使用社交媒体来监控犯罪。最后,这项研究的结果可以为未来更准确地监测和预测犯罪率的模型的设计提供参考。


我们看到已经试行了类似类型的监测,以监测公共卫生事件(例如,传染病暴发,以便快速检测和应对灾害)。因此,我们监控罪案的方法的一个潜在影响是,这可以帮助政府机构分配适当的资源,以降低高危地区的犯罪率。虽然犯罪本身可以被认为是一个公共卫生问题,但我们预计,处理犯罪爆发的方式与处理传染病的方式会有很大不同。公共卫生危机可能会通过旨在帮助人们的干预努力来解决,比如向他们提供信息,增加获得医疗援助的机会,以及努力降低传播率。通过加强治安、逮捕和监禁,特别是在贫困社区和潜在的有色人种中,使用类似的监测方法来针对犯罪爆发更有可能导致社会控制的加强。因此,重要的是要考虑如何不成比例地利用我们的技术来对付那些已经受到更高水平的社会控制的人群。


这项研究有几个局限性。例如,与毒品有关的推文数据是使用Twitter的API提取的,它提供了大约1%的推文的随机样本。然后,只有在用户启用了地理定位数据的情况下,我们才提取地理定位的推文。因此,在某些地区无法获得与毒品相关的地理定位推文,这限制了我们推广这些发现的能力。虽然与毒品有关的推文是通过关键词过滤的,但更多包含情绪的研究可能有助于改进模型。


这项研究只探讨了与毒品有关的推文与犯罪率之间的关系。进一步的研究应该检查与毒品无关的推文(可能是与枪支暴力、种族主义和性行为有关的推文)和犯罪之间的关系。在本研究中,由于数据来源的限制,我们没有考察与毒品有关的推文与不同类型犯罪的关联性。尽管我们发现了推特和犯罪之间的关系,但我们没有证据表明推特会导致更多的犯罪,而且关于犯罪的推文并不一定能反映犯罪率。然而,以前的研究表明,很大一部分犯罪与毒品有关,这为研究结果提供了支持。

使用Twitter监控和预测犯罪有很多好处,也有很多缺点。社区可能会担心这类监视的伦理影响以及实施该计划的成本。然而,由于社交媒体数据的高可用性,实时预测方法将是值得探索的。在本文中,由于数据的限制,我们没有将年龄组和种族或民族纳入分析范围。考虑到非裔美国人和拉丁裔使用社交媒体的频率越来越高,这一考虑尤为重要

本文使用的数据是从2012年回溯获得的。在推特数据中,除了推文的上下文和时间外,只有IP地址可用。我们的分析中也没有包括“幽灵账户”。在识别与毒品有关的推文时,我们会手动检查毒品的“假名”或街名。然而,我们可能没有包括所有的名字。推文数据只提供由IP地址确定的文本内容和位置。推特用户的身份无法识别。因此,这限制了模型中调整的因素。

在这类研究中需要考虑隐私和伦理问题,特别是考虑到最近涉及社交媒体数据的隐私泄露和伦理问题。推特本质上是一个言论自由的平台;然而,人们可能会对与整个公众分享自己的推文感到不舒服。为了解决这个问题,Twitter允许用户将他们的个人资料设置为私有,这样只有经过批准的账户才能查看他们的推文。此外,Twitter用户还可以在用户设置中隐藏他们的位置数据。虽然许多人在推特上谈论与犯罪相关的内容,但如果他们知道执法部门可能会将他们的数据用于监控和公共安全,他们可能会选择向公众隐藏或分享他们的数据。因此,需要就执法部门和机构如何使用社交媒体数据制定明确和透明的指导方针。这些道德行为准则应以现有证据为基础,并加以标准化,同时考虑不同司法管辖区的各种法律和做法。未来的研究需要进一步探索社交媒体监测中的伦理问题,研究人们为预防犯罪而分享社交媒体数据的态度和意愿。


社交媒体继续变得越来越受欢迎,现在被广泛用于公共卫生领域来预测大型活动的结果。这项研究表明,使用社交媒体识别新出现的犯罪热点是可能的。有一些社交媒体监控公司已经提供在线数据,供执法部门用于监控。这些新的采矿工具可以帮助执法部门提供额外的工具,以确保公共安全。未来的研究可以在这项研究的基础上监测当地的犯罪率,并突出可能出现的新点,以确定执法人员如何将社交媒体数据用作监视工具。最后,我们需要在社交媒体研究中建立良好的道德规范,特别是考虑到社交媒体和个人数据越来越多地被机构和社会控制机构以意想不到的方式使用。


作者披露了为本文的研究、作者和/或发表获得了以下资金支持:这项研究是由美国国立卫生研究院资助的(批准号:U01:5U01HG008488、R01MH106415和R01AI132030)。


作者
王燕(加州大学洛杉矶分校硕士),加州大学洛杉矶分校博士生。她的研究兴趣包括机器学习、数据协调、HIV依从性和儿科口腔健康。


余文超(加州大学洛杉矶分校硕士),加州大学洛杉矶分校博士生。他的研究兴趣包括机器学习和数据挖掘。


萨姆·刘(多伦多大学博士)是维多利亚大学运动科学与体育学院的助理教授。他的研究兴趣包括社交媒体研究和健康促进。


肖恩·D·杨(博士)是加州大学洛杉矶分校家庭医学系的副教授和加州大学预测技术研究所(UCIPT)的执行主任。他的研究兴趣包括机器学习、大数据、社交媒体和艾滋病毒检测。


文章来源: http://mp.weixin.qq.com/s?__biz=MzI2MTE0NTE3Mw==&mid=2651121867&idx=1&sn=b9f730a318baf4048587714ceefebcd2&chksm=f1ae9ff1c6d916e78712a77774e37adaf7f20d4a2d4f28326727cf86de2b6bccd6b5837fd2cb#rd
如有侵权请联系:admin#unsafe.sh