【资料】社交媒体中的心理健康:数据、方法和发现

【资料】社交媒体中的心理健康:数据、方法和发现
2021-06-15 10:42:24 Author: mp.weixin.qq.com(查看原文) 阅读量:218 收藏

网上有越来越多的虚拟社区和论坛。通过社交媒体，人们可以自由地交流和分享自己的思想，提出个人问题，并寻求同伴支持，尤其是那些条件极差、不透露个人身份的人。我们从社交媒体数据的普遍使用出发，研究关于抑郁、焦虑、自杀想法等心理健康挑战的最新研究方法和发现。我们还讨论了这些新颖的思路和方法如何以前所未有的方式帮助提高对心理健康问题的认识。具体而言，本章描述了在用户公开中表达的语言、视觉和情感指标。本章的主要目标是展示如何利用这一新的数据来源来改善医疗实践、提供及时的支持和影响政府或决策者。在心理健康问题的社交媒体背景下，本章对所使用的社交媒体数据进行分类，介绍了不同部署的机器学习、特征工程、自然语言处理、调查方法和未来研究方向。

社交媒体■心理健康■在线社交网络■福祉

1、导言

社交媒体是在线传播信息的流行渠道。有数以亿计的用户相互交流，以分享他们的思想、想法和个人经验，这些信息使这些渠道过载。当涉及到心理健康问题时，有一些显著的挑战。越来越多的研究关注于如何利用社交媒体活动来分析和改善人们的福祉，包括心理健康。有了社交媒体数据，研究心理健康问题的趋势和帮助研究人员从社交媒体获取信息来研究心理健康问题变得更加容易。社交媒体的方便访问和使用允许用户更新他们的社交媒体资料，没有时间或空间的限制。这使得社交媒体成为研究人员进行调查的首选媒介。此外，它对信息寻求者来说是划算的。用户可以很容易地获得与健康有关的信息。

1.1 社交媒体及其分析

社交媒体已经成为数据收集的好来源。存在可以从社交媒体使用的不同类型的数据，例如文本、图像、视频和音频。社交媒体数据的数据量迅速增加。例如，在Twitter上，每分钟生成35万条推文，每天生成5亿条推文。影响社交媒体用户的一个主要因素是他们使用社交媒体的方式，因为社交媒体可以同时非常有益或有毒。例如，积极使用具有双向通信的社交媒体可能对用户非常有益，但它也可能对用户具有破坏性或有毒。

图1社交媒体分析的步骤

图1显示了社交媒体分析中常见的步骤。它从数据集审查开始，研究人员需要选择合适的数据集进行实验。第二步是数据预处理，这意味着准备用于实验的数据，诸如去除停止词或单词/句子标记。下一步是从社交媒体数据中选择有意义的特征，例如图像或文本特征。在选择了正确的特征之后，就是数据挖掘分析，包括部署各种技术来开发期望的模型。最后一步是评估，采用不同的度量，例如准确性、召回、准确性、Fl分数。

1.2 心理健康问题

心理健康已成为当今社会普遍关注的问题。人们开始思考心理健康问题的重要性及其对我们社会的影响。这不是一个小问题；相反，这是一个非常严重的问题，有助于心理健康。例如，当今的研究生可能面临焦虑、抑郁和压力，因为学术界竞争激烈，工作时间长，并且缺乏顾问的支持。这些研究显示，不仅学生，甚至雇员都面临着自己的问题，当局需要加紧努力，以帮助这些群体。心理学领域的研究人员已经研究了这个课题几十年了。随着社交媒体数据的日益普及，这个问题也引起了许多计算机科学家的关注。用户积极地与在线社区分享和交流，研究人员发现，利用社交媒体数据来研究这个问题是一个明智的想法，以便同时帮助在线社区和当局。这有助于在克服这一问题方面作出巨大改变。研究人员已经开始通过社交媒体数据调查心理健康问题，例如创伤后应激障碍(创伤后应激障碍(PTSD))、抑郁障碍、自杀意念、精神分裂症和焦虑。

本章分为五节。第二节将社交媒体关于心理健康的数据分为三类，即语言、视觉和组合。第3节介绍了心理健康研究研究者所使用的一套方法。此外，评价指标和结论在第4节讨论。最后，研究结束，第五节列出了今后可能进行的工作。

2 、社交媒体关于心理健康的数据

研究人员已经使用各种类型的社交媒体数据来研究心理健康。现有的工作可以根据所利用的社交媒体数据的类型分为三组：

(1)基于语言的数据；

(2)基于视觉的数据；

(3)语言和视觉数据的组合。接下来，我们将分别讨论每个问题。

2.1 基于语言的数据

过去几年来，危机信息学研究利用语言作为媒介，了解重大危机事件在受影响人口中如何展开，如何通过传统媒体以及博客和社交媒体网站等在线媒体对其进行报道，研究表明，社交媒体可以为寻求支持的人提供一个舒适的环境，特别是在涉及使他们不愿与周围的人分享的污名化问题时。

因此，社交媒体被用来理解用户的心理健康问题。Coppersmith等人有趣的研究是在Twitter上使用他们的帖子的用户中研究自杀企图，甚至是想法。作者从美国各地30个地理位置获取了至少100条推文。然后，他们使用自然语言处理技术来比较试图自杀的用户的行为与以前声称他们被诊断为抑郁和神经典型控制的用户。在另一项工作中，Park等人侧重于研究在线社交网络(OSN)对抑郁症问题的影响。因此，他们收集了两种不同的数据：

(1)基于互联网的筛选测试的数据，其中包括69名被要求填写问卷的参与者的信息，其中包括与抑郁症相关的问题；

(2)收集了2009年6月至2009年7月在Twitter上发布的推文，其中包括关键词“抑郁”。通过对收集到的数据进行定性和定量分析，表明社交媒体数据可用于理解用户的心理健康问题。

Nadeem使用社交媒体数据来研究个人的主要抑郁障碍(MDD)问题。Diey使用由计算语言学和临床心理学(CLPsych 2015)的共享任务组织者构建的可公开获得的数据集，Ulis数据集包括诊断患有抑郁症的Twitter用户的信息。在另一项工作中，Amir等人使用Twitter研究抑郁和创伤后应激障碍(PTSD)，Diey调查用户的帖子与他们的心理状态的相关性。特别是，他们调查推特是否可用于预测用户是否受到抑郁和创伤后应激障碍(PTSD)的影响。De Choudhury等人还显示，社交媒体可以用Twitter数据来预测另一种心理健康状况，即重度抑郁症(MDD)。在本文中，作者使用众包技术为他们的实验提供了基础真相。在另一篇著作中，作者使用Twitter数据来研究基于性别的暴力。死者使用Twitter的流媒体API，根据联合国人口基金(人口基金)定义的一组关键短语，对一组与性别暴力有关的推文进行抽样，

另一个著名的社交媒体平台是Reddit，它是一个基于论坛的社交媒体平台，它捕获原始帖子与在线程上留下评论的用户之间的通信。每个线程讨论一个特定的主题，这个主题被称为“subreddit”。De Choudhury和De的死亡作品使用Reddit调查用户如何在网上论坛寻求心理健康相关信息。Diey使用Reddit的官方API和Python包装器PRAW爬行心理健康子编辑。在另一项工作中，De Choudhury和Kiciman使用Reddit来研究用户在讨论论坛上留下的评论语言风格对自杀意念的影响。这项工作填补了在线社会支持如何有助于这个具体问题的空白。作者使用分层倾向得分分析来确定用户是否受到评论的影响。Diey还基于用户的协方差估计用户将接收治疗的可能性。Diere是De Choudhury等人的一项研究，专门研究心理健康问题，如r/抑郁、r/心理健康、r/双极化、r/ptsd、r/精神病。根据时间戳，数据分为治疗组和对照组。根据因果分析进一步划分这些群组，以便分析评论对先前帖子的内容的影响，其中用户在其数据集中分享和接收评论。

Saha和DeChoudhury的另一部作品使用Reddit数据来研究枪支暴力对大学生的影响以及他们在社交媒体上表达经验的方式。作者从Reddit收集相关数据。然后，他们发展了一种归纳转移学习方法，通过计算平均精度值来查看应力表达的模式。特别是，他们首先建立一个分类器，将柱子中表示的应力标记为高应力和低应力。然后，他们采用经过训练的分类器对从Reddit收集的帖子进行分类，以识别在拍摄事件之后表达更高压力水平的帖子。Lin等人的另一项工作侧重于在线社区如何影响社交媒体内互动的发展。这项工作调查新成员是否会对社会动态和较低的内容质量带来干扰。作者据此生成了与用户接收、讨论内容和交互模式相关的三个问题。他们使用来自GoogleBigQuery的Reddit数据，在2013年至2014年期间选择前十名子编辑。他们研究Reddit用户的用户接收、发布内容和评论模式。这项工作研究基于历史数据的在线社会支持的作用及其对未来健康的影响。它还利用两个同行审评社区的数据，调查在线社区的语言随时间的变化。Cohan等人通过对论坛帖子内容的分析，基于自我伤害思想的符号来研究心理健康。他们的主要目标是研究在线论坛对自我伤害思想的影响。他们考虑后内容的四个严重程度。作者建立了一个包含词汇、心理语言、语境和话题建模特征的模型。他们的数据来自澳大利亚著名的心理健康论坛，即ReachOut.com。

2.2 基于可视化的数据

基于视觉的社交媒体的普及迅速增加。用户往往通过张贴照片在社交媒体上进行交流。照片共享为理解人们如何策划和表达个性的不同维度提供了一个独特的镜头，人们使用照片来定义和记录他们的身份、维持关系、策划和培养自我表现，以及表达自己。

发送图片已经成为社交媒体用户之间交流的一种方式。“自拍”的定义是用户自己拍的照片。Kim等人使用Instagram数据来研究自拍的行为。这项工作使用自拍来预测在社交网站（SNS）上传自拍的用户的意图。在开始设计实验之前，这项工作定义了五个假设。这些假设是：对自拍行为的态度、主观规范、感知的行为控制和自恋，这些假设可能与在社交网络站点(社交网络站点(SNS))上发布自拍的意图有关。最后一个假设是在社交网络站点(SNS)上发布自拍的意图，与社交网络站点(SNS)上的实际自拍行为正相关。他们从89个Instagram用户开始。他们根据同意招募这些用户作为研究的一部分。两个编码器分析每个用户的帐户，并且总样本大小为(n＝85)。参与人数中，男性9人，女性76人。他们还计算每个用户在6周的时间戳上张贴的照片总数。要求每个用户基于回答与标准计划行为理论(TPB)变量相关的问题列表，例如态度、主观规范、感知行为控制和未来意图，

Reece等人的另一项研究使用视觉数据在社交媒体上研究心理健康。作者使用166人的Instagram数据，其中有43,950张照片。为了研究抑郁的指标，他们使用机器学习工具将用户分类为健康和抑郁组。他们开始他们的实验是在同意后，从每个用户的帐户爬取所有的帖子。参加者还必须回答与抑郁有关的问卷，该问卷载有基于纳入标准的具体问题。在实验的最后一步，爬行的Instagram照片使用亚马逊的机械土耳其公司（AmazonMechanicalTurk，AMT）员工提供的众包服务进行评分。

2.3 基于语言和视觉的组合数据

除了仅使用视觉数据或语言数据之外，研究人员还结合这两种数据来研究社交媒体对心理健康的影响。社会学家还声称，不可能只用单词进行交流；人们还用图片互相交流，Burke等人的一篇作品在Facebook的数据中使用了不同的功能，如墙壁帖子、评论、“喜欢”和朋友内容的消费，包括状态更新、照片和朋友与其他朋友的交谈，以研究一对之间定向交互的作用。这项工作区分了两类活动：直接交流和消费。为此，他们从Facebook招募了1199名英语成人作为他们的研究参与者。

Andalibi等人研究Instagram上的抑郁相关图像。他们使用图像数据和匹配的标题来分析用户是否患有抑郁症或在过去曾面临过这种问题。他们热衷于调查这群用户是否参与支持网络，以及如何利用社会计算来鼓励用户之间的这种支持交互。他们使用Instagram的API收集了24,920个独特用户在一个月（2014年7月）上传的95, 046张带有抑郁标签的照片。从这些照片中存储每个图像的所有公共细节，例如用户ID、点赞数和评论，

创建日期/时间和标记。在进行数据收集之后，他们通过分析图像及其文本标题开始实验。他们还开发了包括100个样本图像和标题的码本。这些编码器然后手动讨论码本，以便为实验提供最佳结果。然后，他们再添加100个样本图像并重复相同的步骤。

同样，Peng等人使用Instagram图片和字幕调查宠物、关系状况和有孩子对用户幸福的影响。他们使用#mydog、#mypuppy、#mydoggie、#mycat、#mykitten、#mykitty等标签在Instagram上收集宠物主人的照片。对于非宠物所有者，使用#自拍、#me和#life 等标签来爬取数据。在开始实验步骤之前，他们首先对数据进行分类。作者还提供了被处理的人脸数据，称为脸库，供其他研究人员使用(见表1)。

Manikonda和De Choudhury使用流行的基于图像的媒体数据来研究心理健康披露。从语料库中的每个图像中提取出三个主要的视觉特征。这些特征包括视觉特征(例如，颜色)、主题和情绪。作者使用Instagram的官方API从Instagram上获取数据。本文的主要研究重点是基于视觉特征、情感表达以及视觉主题与社交媒体帖子中语言的对比研究心理健康披露。他们特别从Instagram上挑选了10个心理健康方面的挑战，然后才从特定的媒体上获取200万张公共图片和文本数据。这些疾病类型包括焦虑障碍、双相障碍、饮食障碍、非自杀性自我伤害、抑郁障碍、恐慌障碍、强迫症、创伤后应激障碍(PTSD)、自杀和精神分裂症。在开始实验之前，他们查阅《精神疾病诊断与统计手册》，以便确认他们的最终疾病类别是可靠的。

表1 与心理健康有关的社交媒体数据和现有数据集清单

总之，用户生成的社交媒体数据是异构的，由不同的方面组成，例如文本、图像和链接数据。表1总结了研究人员使用社交媒体研究心理健康的不同数据集。

3、社会媒体的心理健康研究

随着社交媒体数据最近成为在网上社区之间传播信息的主要媒介，研究人员还采用了多种方法来研究相关问题。本节探讨社会媒体研究心理健康的途径。在本节中，我们详细阐述了在他们的研究中使用的技术或工具的类型。图2显示了社交媒体分析的分类，即机器学习方法、特征工程和调查方法。接下来，我们介绍如何将社交媒体分析用于社交媒体中的心理健康分析。

图2社交媒体分析方法

3.1 机器学习方法

我们讨论了机器学习方法在分类，聚类和预测与社交媒体数据用于研究心理健康问题。

分类

为了估计数据集内用户中抑郁的可能性，Nadeem的工作使用四种类型的分类器(决策树、线性支持向量分类器、Logistic回归和朴素贝叶斯)。他们呈现一组属性来表征两个类的行为和语言差异。为此，作者使用scikit-learning，这是一个流行的工具，有许多有监督的和无监督的机器学习算法。

聚类

De Choudhury等人在社交媒体上的用户中聚集自我网络。通过对自我网络进行聚类，研究了基于自我中心度量的图的特征，如追随者数、追随者数、互惠性、威信比、图密度、聚类系数、2跳邻域、嵌入性和自我分量数。另一项研究研究社会联系与心理健康的相关性，发现抑郁的人倾向于聚集在一起。

预测预报

Reece等人的工作使用照片细节来预测抑郁，例如颜色分析、元数据成分和算法面部检测。在另一种方法中，中的作者根据行为的差异将用户分成两类。对于每个用户，他们使用一组行为度量，例如基于用户1年Twitter历史的平均频率、方差、平均动量和熵。为了避免过度拟合，作者采用主成分分析法（PCA），并与几种不同的参数和非参数分类器进行了比较。

3.2 特征工程/自然语言处理(NLP)方法

自然语言处理在语言社交媒体分析中起着非常重要的作用。本小节讨论用于研究心理健康的社会媒体的特征表示技术。

N-Gram

这个文本表示技术被广泛采用，基本上是一组在给定窗口内的协作词。使用该技术提取的特征基于字频计数。在中，作者计算了所有Reddit帖子中最频繁的单线图，并使用负二项式回归作为预测模型。

Saha等人建立了监控机器学习模型，将社交媒体帖子中的压力表达分为高应力和低应力的二进制标记, 为了建立迁移学习框架，他们借鉴了领域适应文献中的技术，测量了语言等价性。为了构建训练集，作者从爬行的Reddit帖子中提取500个n克。他们计算余弦相似度，并在300维向量空间中将其数据与GoogleNews数据集进行比较。作者发现，使用社交媒体内容来检测心理压力是可能的。另一方面，由于Twitter数据每个帖子具有有限的字符数，另一作品设计字符n-gram语言模型(CLM)以获得每个短文本的分数。这个特定的方法检查字符序列，包括空格、标点和表情符号。例如，如果我们具有来自两个类的一组数据，则通过识别字符序列来训练模型。类似的字符序列将被分类到相同的类。对于一个新的文本，模型可以估计类可以生成和生成所有文本。

此外，作者提取n-gram(n＝3)以检查他们的语料库的适用性和可靠性。提取的n-gram被进一步用于调查他们是否面临心理健康披露。为了从数据集中提取视觉特征，作者对OpenCV和加速鲁棒特征(SURF)。这种方法能够从图像中识别有意义的主题。为了研究基于视觉主题的语言情感，本研究采用心理语言学词汇《语言探究与词汇计数》和《TwitterLDA》。这两种方法有助于作者衡量主题和图像如何相互一致。

词汇袋

词汇袋（BOW）是研究者广泛使用的文本的一种基本文本表示。当实现此方法时，创建直方图以指示在文本中存在特定单词的频率，先前进行的工作表明，词袋方法可以有助于识别抑郁。有作者利用单词出现频率通过组合所有单词和测量每个单词的频率来量化来自Twitter数据的内容。类似地，使用Bag-of-Words(BOW)从其数据集中提取特征。这项工作还使用用户的内容严重性，以帮助论坛主持人识别那些热衷于自我伤害的关键用户。

主题建模

最著名的主题建模方法之一是潜在Dirichlet Allocation(LDA)，它通过为文档中的每个单词绘制分发主题来工作。

然后，基于分布值对词进行分组。类似的词在同一主题类别中。Cohan等人使用潜在Dirichlet分配(LDA)模型从它们的数据收集中找到一组主题。通过将潜在DirichletAllocation(LDA)主题模型训练在其数据集上的整个论坛帖子上，他们能够将主题模型用作实验的附加特征，从而提高了他们的系统的性能，并证明了主题建模的有效性。此外，Manikonda和DeChoudhury使用TwitterLDA从数据集中提取语言主题，以查看在Instagram上披露心理健康问题时视觉和文本是否相互一致。

Amir等人采用称为非线性子空间嵌入(NLSE)方法的模型，其能够基于Twitter帖子历史来量化用户嵌入。作者使用User2Vec(u2v)、Para-graph2vec的PV-dm和PV-dbow模型来评估用户嵌入。他们还利用Skip-Gram来构建向量。基于包嵌入的另一种设计是通过使用潜在Dirichlet分配(LDA)来指示在用户的帖子中呈现的主题，它们利用潜在Dirichlet分配(LDA)来识别Reddit上的社会支持的类型。他们还通过描述精神疾病自我披露的特征，考虑人们与社区分享的做法的信息。作者发现Reddit用户讨论不同的主题。这些讨论可以像讨论日常例程一样简单，但也可以变成一个严肃的讨论，涉及诊断和治疗的查询。

此外，Lin等人的一项研究语言变化及其数据，作者使用了一些后级度量，包括帖子的交叉熵和邻近帖子之间的Jaccard自相似性。然后，作者使用潜在Dirichlet分配(LDA)模型来比较帖子与一般Reddit帖子样本之间的主题分布。他们还跟踪亚社区的语言变化。为了研究交互网络的结构变化，他们计算网络的幂律度分布中的指数a，给出网络的图形密度[11]，Reddit允许用户对每个帖子和评论进行投票，并且作者通过计算平均得分和投诉评论百分比来利用这一特性，以调查社区对新来者产生的内容的反应。

语言探究与词汇计数

它是一个文本分析应用程序，可用于提取心理健康的情绪属性。这个工具将能够提取心理语言特征，Manikonda和De Choudhury对跨越不同视觉主题的与心理健康图像相关联的文本使用语言查询和词计数(LIWC)。语言查询和词计数(LIWC)还可以刻画用户帖子中的语言风格、Park等、使用语言查询和词计数(LIWC)从Twitter数据中量化抑郁情绪的水平。他们通过测量工具提供的类别的平均情绪分数来比较正常组和抑郁组。语言查询和词计数（LIWC）包含几千个词的字典，提供给这个工具的每个词将被扩展到六个预定义的类别：社会、情感、认知、感知、生物过程和相对性。每个标准都有自己的类别和子类别。对于每个子类别，语言查询和词计数(LIWC)将为每个词分配特定的分数。作者使用语言查询和词计数(LIWC)研究Twitter用户的情绪状态。然后，他们使用逐点互信息(PMI)和对数似然比(LLR)从自己的语料库中提取更多的特征。ElSherief等利用语言查询和词计数(LIWC)来通过区分感知的用户和实际的用户特征来测量用户之间的人际意识。

De Choudhury和De的一项研究通过测量单字图来捕获其数据的语言属性，然后采用心理语言学词汇语言查询和词计数(LIWC)。他们选择语言查询和词计数（LIWC），因为它可以分类Redditors的情绪。他们还研究了推动社会支持心理健康Reddit社区的因素，作者通过测量语言查询和词计数(LIWC)中最常见的语义类别，建立了一个统计模型。本文作者采用语言查询和词计数(LIWC)词汇，从语料库中研究各种社会语言学特征，然后进行测量，分析亚群体之间的差异。Coppersmith等人还使用语言查询和词计数(LIWC)来结合从数据集生成的心理类别来研究语言的模式。本文运用语言查询和词计数（LIWC）来解释语言从给定的心理范畴将如何被他们建立的分类器评分。同样，Saha和De Choudhury调查心理语言特征的量化。他们采用语言查询和词汇计数的方法来理解社交媒体中的心理属性。

斯坦福CoreNetLP

Peng等人的研究对图像和文本情感进行了分类，以了解这些因素对减少个体压力和孤独感的重要作用。为了从字幕中解释用户的快乐，他们还使用情绪分析方法，即Valence Aware Dictionary and Sentiment Reasoner(VADER)。Saha和De Choudhury使用Stanford CoreNLP的情绪分析模型来检索帖子的情绪类别。

Face++

基于深度学习的图像分析工具，对于人脸识别研究非常有用。它是用卷积神经网络（CNN）构建的开源人脸引擎。在ElSherief等人的研究中，作者使用Twitter用户的简档图片来预测用户的人口统计信息，使用Face++API。根据基于性别的暴力(GBV)内容，他们利用这些职位的语言细微差别，调查用户参与性别暴力相关职位的情况。Face++还用于中，通过提取用户信息(例如人口统计推断、用户关系状态，如果用户有孩子)，然后分析用户幸福感，来进行面部分析实验。

3.3 调查方法

本小节讨论使用人力情报（HUMINT）任务（HIT）进行分析的工作，即亚马逊的Mechanical Turk 和基于问卷的分析。我们还讨论了所使用的工具。

Amazon Mechanical Turk (AMT)

它是广泛使用的众包平台之一。在AmazonMechanical Turk(AMT)上，工作块称为人力情报（HUMINT）任务(HIT)或微任务，该技术被用于标记数据集中与精神疾病有关的单词。此外，Amazon的 Mechanical Turk用于进行一项标准的临床抑郁症调查，随后是关于抑郁症史和人口统计的几个问题。拥挤的员工可以选择要么包括他们的公共Twitter配置文件，要么不在分析过程中。Reece等人，使用AmazonMechanicalTurk(AMT)服务来评估为他们的实验收集的Instagram照片，Raters被要求以0-5比例来判断每张照片看起来多么有趣、可爱、快乐和悲伤。

问卷分析方法

调查问卷对于研究人员了解他们研究的主题很有帮助。例如，在[36]中的作者使用此技术来测量在语义上差异尺度(例如，差/好、愉快/不愉快)上对自拍张贴的态度。通过使用自恋人格问卷(NPI)，他们以7点Likert量表(l=“强烈反对”到7=“强烈同意”)来衡量自恋和参与者的反应。作者使用AMOS 22来测试他们的假设，并查看他们对主要问题的态度、主观规范、感知的行为控制和自恋之间的关系，即用户在社交网络站点(SNS)上发布自拍的意图和行为。在另一篇论文[52]中，作者使用流行病学研究中心抑郁量表(CES-D)来筛选受试者抑郁用户组的抑郁水平。合格的参与者被要求分享他们的Instagram用户名和历史。调查中嵌入的应用程序允许参与者安全登录他们的Instagram帐户并分享他们的数据。

Burke等人进行了一项调查，分析社会福祉与社交网站(SNS)活动的关系。每个用户被要求使用来自UCLA孤独量表、利克特量表和Facebook强度量表的格式回答调查问题，他们分析他们的数据而不分析用户的私有数据，例如朋友网络或可识别信息。他们测量每个用户在社交网站（SNS）上花费的朋友数量和时间，以便他们能够得到他们的研究问题的答案。在另一篇著作[45]中，作者使用CES-D来测量抑郁症状，并且还使用CES-D来确定抑郁水平通过向Amazon Mechanical Turk (AMT)一项抑郁调查，对拥挤工人进行了调查。总之，表2显示了我们在本节中讨论的方法和工具。

表2.应用心理健康研究的方法和工具摘要

4、评价方法与评价结果

在本节中，我们讨论了上述论文中所使用的评估度量和结论。图3表示社交媒体中心理健康研究的使用评估度量。本节首先概述评估度量。然后，我们讨论前人的研究成果。

4.1 评价指标

在数据挖掘分析中有各种评估指标。我们讨论了使用社交媒体数据来研究心理健康的评价指标。最常见的预测度量包括精度、召回、Fl得分和接收者操作分类(接收器-操作者特性(ROC))曲线。等式1示出了定义为真阳性数(TP)除以所有阳性预测、TP和假阳性(FP)之和的精度的计算。等式2定义为真阳性数(TP)除以集合中的所有阳性、真阳性(TP)和假阴性(FN)的总和。等式3通过考虑精度和召回来测量Fl分数。

Fl分数是精度和召回的谐波平均值，并且F1分数在1处达到最佳值。在等式4中表示称为调节的R-平方的另一度量。调整后的R-平方通常用于解释目的，并解释所选独立变量如何很好地解释因变量中的可变性。在经调整的R-平方中，n是观测的总数，k是预测器的数目。调整的R-平方总是小于或等于R-平方。

一些工作为他们的实验实现了这些度量，De Choudhury等通过预测来自其岗位的个体抑郁水平来评估他们建议的分类方法。他们使用精确度、召回度、精确度和接收器-操作者特性(ROC)进行评价。实验结果表明，它们的分类器在抑郁预测中具有良好的性能。De Choudhury和Kiciman[21]的另一项研究测量了最正或负z分数，以区分对自杀意念(SW)使用者和精神健康使用者具有影响风险的心理健康。相反，由[45]进行的研究使用来自回归模型的系数来预测流行病学研究中心抑郁量表(CES-D)评分。然后，它通过测量经调整的R-平方(等式4)和p-值来评估所提出的方法。另一工作测量关于心理状况的Fl和二元Fl，以测量用于实验的不同模型的性能。

此外，在[27]中的作者测量每个tweet的喜爱率和转发率，以便分别计算tweet被喜爱和转发的次数。这些指标用于探讨用户参与Twitter上基于性别的暴力(基于性别的暴力)内容的情况。Saha和DeChoudhury[55]测量准确性、精度、召回、Fl-得分和ROC-AUC，以查看它们的应力预测分类器的性能水平。同样，Coppersmith等人[16]绘制了接收器-操作者特性(ROC)曲线，用于区分试图自杀的人与年龄和性别匹配的对照。为了比较所有数据和模型预测中的预诊断的准确性，[52]测量召回、特异性、精度、负预测值(NPV)和Fl-分数。

此外，Manikonda和De Choudhury的一项研究[40]计算Spearman等级相关系数，以比较所有视觉主题对的最频繁的标签，这些视觉主题属于与心理健康有关的帖子的六个视觉主题。Burke等人基于SNS总体活动，提出了用于连接和结合社会资本和孤独的普通最小二乘(OLS)回归[10]，此外，[39]研究新来者对现有在线论坛如Reddit的影响。他们利用回归分析，通过计算调整后的R-平方，以测量投票后平均得分和对子编内容的投诉评论百分比。在另一项工作中，Andalibi等人计算Cohen的Kappa系数来分析抑郁相关图像以及文本标题。

4.2 产出和结论

在本节中，我们将根据所使用的数据类型讨论以前工作的产出和结论。正如我们在第二节中所讨论的，我们根据作者在实验中使用的数据对工作进行分类。这里，我们首先讨论使用语言数据的现有作品的发现。然后，我们回顾视觉数据的发现。最后，我们讨论了使用组合数据的结果。

基于语言的发现

通过关注基于语言的实验，[45]得出结论认为，人们不仅揭示了抑郁情绪，而且揭示了关于自己的非常私人和详细的信息，如治疗历史。对于患有抑郁症的参与者，他们发现他们的推文高度使用与负面情绪和愤怒相关的词语。最终，抑郁的用户往往比普通用户发布更多的关于自己的推文。同样，De Choudhury等人[22]的工作表明，Twitter可以作为衡量个人抑郁症程度的平台。为了建立预测框架，作者从语料库中计算四个统计值，包括选择的特征的均值、方差、动量和熵。然后，他们比较抑郁和非抑郁类之间的这些值。他们发现，社会活动少的个体往往具有更大的消极情绪、更高的自我关注焦点、更多的关系和医学关注以及宗教思想的高度表达。我们可以得出这样的结论：社会活动确实对个人的心理健康起着重要作用。这种社会活动较少的人群有着紧密的网络，这些网络通常与听众紧密相连。作者得出结论认为，通过测量社交网站的社交活动和表达，来自社交媒体的有用信号可以用来表征人物角色的抑郁发作。这种实验表明社交媒体在寻找解决方案和帮助需要帮助的个人方面能够为知识体贡献多少。

同样，De Choudhury和Kiciman的一项工作[21]报告说，评论在支持方面发挥了重要作用，特别是在心理健康社区中。他们指出，获得在线论坛支持的用户在社会上更加活跃，并与社区接触。此外，Nadeem[43]表明，Twitter可以作为预测用户中抑郁症(MDD)的工具。本文的创新之处在于本文提出的文本分类系统，它能够对来自用户的tweet在本质上是否令人沮丧进行分类。他们得出结论认为，社交媒体可以捕捉到个人目前的心态。文本分类系统也是有效的，因为Twitter用户使用这种媒体来表达他们的感受。此外，这项研究表明，使用社交媒体数据研究心理健康相关问题是可靠的。Amir等人[2]的另一项研究提出一种新的模型，从被称为用户嵌入的用户推文中提取用户特征，并进一步调查其与抑郁和创伤后应激障碍(PTSD)有关的心理健康状况。结果表明，所捕获的嵌入与用户的心理健康状况相关。

此外，ElSherief等人[27]表明，人们在社会媒体上讨论与性别暴力有关的问题。与GBV相关的标签帮助Twitter用户表达自己的感受，特别是分享经验和寻求支持。事实证明，最表达的情感是愤怒。另一个研究表明用户之间的交流对心理健康起着重要的作用[13]，他们的结果表明，当用户更积极地与其他用户交流时，有助于降低内容的严重性。在另一项研究中，[39]比较了网络社区增长对当前网络的影响，表明用户感知仍然是积极的，增长会影响用户的注意力。作者还发现，高度的适度性有助于在违约之后保持对社区内容的积极感知，并且在大规模增长之后，社区的语言不会变得更通用或更类似于Reddit的其他语言。

Saha和DeChoudhury[55]表明，与事件发生前相比，在大学校园发生的枪支暴力事件后发表的帖子包括更高的压力。作者还发现，当校园人口减少时，自我关注和社会取向的增加。此外，观察到更多学生参与与死亡有关的对话。在另一篇论文[16]中，研究人员发现，试图自杀的人较少参与对话，这表明这群用户的推文中指向其他用户的比例较小。这项工作演示了社交媒体数据如何有助于理解心理健康相关研究。De Choudhury等人[20]还发现，每种类型的社会支持都有差异。他们还指出，Reddit社区更加重视与自我关注、关系和健康问题有关的职位。此外，他们发现负员额比正员额受到更多的关注。通过研究所有帖子的用户反馈，他们得出结论认为，某些类型的披露从在线社区得到更多的社会支持。

基于视觉的结果

Kim等人[36]利用计划行为理论(TPB)[1]研究使用社交媒体数据的行为意图。他们发现，他们所概述的所有假设都影响社交网络上的自拍意图。另一篇著作[52]从社交媒体平台上用户共享的每个图像中提取特征，并表明很容易区分健康用户发布的照片和抑郁用户。这项研究的结果表明，与倾向于共享亮度较低的灰色图像的抑郁用户相比，健康人将共享色调值较高的照片。这些结果表明通过视觉社交媒体数据检测抑郁症是可能的。这些发现证实了社会媒体数据可用于心理健康相关研究的事实。

基于组合的结果

Andalibi等人[3]的一项研究发现，Instagram用户知道自己的受众。值得注意的是，用户在帖子的标题中如何处理受众的关切。他们发现，张贴了大量标题的图像与支持寻求和积极表达有关。他们的结果还表明，Instagram上的特定标签不仅被用作语义标记，而且被用作对公众进行内容分类的一种方式。同样，Manikonda和De Choudhury[40]发现，用户使用图像来表达他们的感受，例如情绪困扰和无助。用户的帖子可以进一步用来理解他们是多么的脆弱和社会孤立。结果还表明，带有各种视觉线索的图像有助于用户在Instagram上表达自己。作者最后得出结论认为，Instagram是心理健康问题用户寻求帮助并获得他们需要的心理社会支持的媒介之一。Burke等人[10]的另一项工作表明，直接通信通过让用户与其他用户绑定来积极影响用户。这可以进一步帮助用户减少孤独感。他们的结果还表明，与他人互动次数较少的用户往往更多地观察他人的生活。在另一项工作中，Peng等人[48]通过调查社交媒体上发布的图片，研究养宠物对人员幸福的影响。他们比较用户的快乐分数，发现宠物主人比不养宠物的人稍微快乐。这些结果显示了社交媒体数据对理解用户行为和心理健康相关问题的有效性。在下一节中，我们总结了我们的研究结果，并讨论了在此期间扩大研究的潜在方向。

5、讨论及未来方向

本章概述了使用社交媒体数据和机器学习的心理健康相关工作。我们讨论了使用社交媒体数据进行心理健康研究的三个要点，即数据、方法和发现。在本章的其余部分中，我们简要讨论了今后的工作。

5.1 讨论探讨

社交媒体可以以多种不同的方式影响用户。主要关心的是社交媒体是否有利于克服用户的心理健康问题。在[61]中，当涉及到网络欺凌和用户糟糕的睡眠模式时，Facebook被评为负面。但是，在社交支持和建立网络社区方面，Facebook确实提供了帮助，并得到了积极的评价。因此，重要的是确保以能够有益于用户的良好方式使用社交媒体。社交媒体有助于心理健康的一些重大影响包括：(1)社交媒体通过与其他用户积极交流可以减少用户的压力[13]，并提供信息捕捉个人的当前心态[43]；(2)社交媒体是用户寻求帮助和分享关于污名化问题的信息的流行渠道。社交媒体的匿名性给予用户表达其感受的自由，并且可能在污名化的主题讨论中得到改善[20]，(3)使用具有积极交流的社交媒体可导致分享和理解他人感受的能力的提高[10]，Grieve等人[31]的研究表明，Facebook的连通性可减少抑郁和焦虑。与在线社区接触还可以通过被理解来给予用户社会欣赏的感觉[5]。

另一方面，一些早期的研究指出了社交媒体对用户的负面影响。一项发现是，当用户在社交媒体上花费太多时间而没有与在线社区进行积极交流时，他们可能存在社会隔离问题[16，22]，在不与其他用户交互的情况下增加社交媒体的使用可能会导致抑郁、焦虑、睡眠问题、饮食失调和自杀风险。Primack等人[49]报告说，在主观社会孤立或感觉的社会孤立(PSI)方面，在社交媒体上花费的时间增加会导致传统社会经验的减少，从而增加社会孤立，并加剧排斥的感觉。

图4各类心理健康问题及相关工作概览

图4显示了使用社交媒体数据和分析的不同类型的精神疾病和相关工作。现有的研究归纳为心理健康问题的类别：(1)情绪障碍[22，43，45，52]，(2)创伤后应激障碍(PTSD)[15，33，46]，(3)焦虑[20，27，56]，(4)精神障碍[41]，(5)进食障碍[11]，(6)性和性别障碍[27]，(7)自杀行为[16，21，37]，和(8)注意力缺乏症，有限的工作集中在精神障碍，饮食障碍，注意力缺陷和多动障碍（ADHD）。这些研究还可以利用社交媒体数据，因为它提供关于个人语言和行为的数据[33]，研究人员使用社交媒体数据预测心理问题的类型[11，22，23，36]，在[43]中，使用社交媒体数据估计用户心理问题的严重性。在[41]中报告了类似的发现，利用社交媒体数据中可用的网络信息来研究心理健康问题[22，35]。

5.2 未来方向

使用社交媒体研究心理健康问题具有挑战性。尽管近年来出现了大量利用社交媒体数据调查心理健康问题的工作，但仍存在有待进一步调查的挑战。一些潜在的研究方向建议如下：

-社交媒体的日益普及允许用户参与在线活动，如创建在线档案、与其他人互动、表达意见和情绪、分享帖子和各种个人信息。这些平台上使用过的数据内容丰富，可以显示用户心理健康状况的信息。然而，很少关注收集适当数量的用户信息，特别是关于心理健康的信息[16, 43]，一个未来的方向是收集适当数量的标记用户数据作为基准，这需要心理学家和计算机科学家之间的合作[42]。这些数据可以包括从社交媒体平台收集的用户的行为信息以及专家提供的他们的心理健康状况信息。编写此类数据使计算机科学家和心理学家有机会从社交媒体平台上生成的大量数据中受益，以便更好地理解心理健康问题，并提出解决这些问题的解决方案。

-用户生成的社交媒体数据是异构的，包括不同的方面，如文本、图像和链接数据。现有的大部分工作只是通过纳入社交媒体数据的一个方面来调查心理健康问题。例如，文本信息在[2, 15, 16, 20, 22, 27, 43, 45, 55]中使用，图像信息被利用[3, 36, 52]，以及链接数据在[22, 35]中使用，以理解用户生成的信息如何与人的心理健康关注相关联。一个潜在的研究方向是研究如何利用异构社交媒体数据的不同组合(例如，图像和链接数据的组合、文本和链接数据的组合等)来更好地理解人们的行为和心理健康问题。另一个未来的方向是探索来自社交媒体数据的每个方面的发现如何彼此不同，例如，比较调查结果w.r.t链接数据的结果w.r.t文本数据。

-大多数现有工作采用人机交互技术或者数据挖掘相关技术。例如，访谈和调查用于帮助进一步研究社交媒体中的心理健康相关问题[10、20、22、36、45、52]，利用统计和计算技术了解用户的行为以及心理健康问题[2、35、43、55]，然而，可以进一步开展研究，利用两种技术了解社交媒体中的心理健康问题[22、45、52]，并开发专门的社会媒体理解数据和心理健康问题。

- 本章展示了如何利用社交媒体数据研究不同的心理健康问题。图4使用社交媒体数据表示不同类别的心理健康相关问题。更多的心理健康问题可以研究，如精神障碍，饮食障碍，性和性别障碍。

社交媒体数据有助于心理健康研究。现有工作表明，通过利用大型社交媒体数据理解和分析心理健康问题，利用机器学习算法理解、测量和预测心理健康问题，研究心理健康是可能的。对使用机器学习的社交媒体分析进行更多的研究，将有助于通过多学科协作、研究和开发来推动这一重要的新兴领域。

感谢亚利桑那州立大学（ASU）数据挖掘机器学习研究实验室（DMML）的所有成员对此工作的不断支持和反馈。特别感谢实验室成员李俊东、戴维斯和亚历克斯诺对本章早期版本的详细反馈。这项工作得到了马来西亚高等教育部和马来西亚帕汉大学的部分支持。

原文PDF及机器翻译文档已上传小编知识星球

长按识别下面二维码加入知识星球

可下载近千篇文档

文章来源: http://mp.weixin.qq.com/s?__biz=MzI2MTE0NTE3Mw==&mid=2651122959&idx=1&sn=6c77dc8d459c1cdb5317f5f767072fa6&chksm=f1ae9a35c6d91323b3e17c667155111ddb240daf062ef47baa684dea91e2d3f55321b130f728#rd
如有侵权请联系:admin#unsafe.sh