【摘要】
社交媒体为社会和人类行为和服务的研究创造了一个新的环境背景。虽然社会工作研究人员对使用社会媒体来解决社会问题越来越感兴趣,但他们对分析社会媒体数据的灵活和方便工具的适应一直比较慢。它们也没有充分注意到许多多媒体数据集固有的偏见和表现方式。
本文介绍了社交媒体的可视化与文本分析 (VATAS) 系统,这是一个基于 Web 的开源平台,用于标记或注释社交媒体数据。我们使用案例研究方法,将 VATAS 应用到伊利诺伊州芝加哥的一项研究中,该研究涉及 Twitter 上帮派的青年交流,以突出 VATAS 的特点和跨学科合作的机会。VATAS 是高度可定制的,可以私有地保存在安全的服务器上,并允许直接导出到 CSV 文件中以进行定性、定量和机器学习分析。提出使用社交媒体资源进行研究的意义和影响。
关键词:社交媒体,数据分析,定性,机器学习,多媒体
社会工作研究人员寻求严谨和创新的方法来研究社会现象和人类行为的复杂性、人口健康和更广泛的社会问题。传统的定性和定量方法的研究结果影响了健康、心理健康和社会不平等领域的社会政策、实践和研究。近年来,美国社会工作和社会福利学会(2018)已经将技术用于研究和实践作为一个重大挑战,认识到该领域需要创新,以“加快社会发现的步伐”。尽管近年来数据的类型、数量和可用性成倍增加 -社会工作研究不再局限于耗时和昂贵的数据收集方法,如调查、图表回顾、面对面访谈——用来回答社会工作研究问题的数据类型,已经缓慢地改变了。
社会媒体是有用的,对于社会工作研究是有价值的,但未充分利用的数据来源。社交媒体(也被称为社交网站)“利用移动和基于网络的技术来创建高度互动的平台,通过这些平台,个人和社区可以分享、共同创建、讨论和修改用户生成的内容”。三个核心特征定义了社交媒体:(a)用户生成内容和分享;(b)由平台维护的用户创建的简介;(c)通过将用户与其他个人或团体联系起来而创建的在线社交网络。流行的社交媒体网站包括但不限于Facebook、Twitter、Instagram、Tumblr、Reddit、微信和Snapchat。社交媒体产生几种类型的数据,包括用户生成的内容或“帖子”、用户简介和用户之间的关系。用户生成内容的一个例子是“tweet”,这是一种基于文本的Twitter评论,长度不超过280个字符,用户可以针对几乎任何主题创建评论。社交媒体数据的收集,有或没有额外的元数据(例如,来源、时间或注释),形成一个社交媒体数据集。社交媒体数据集的一种常见类型是社交媒体语料库,它被定义为使用系统方法收集的社交媒体帖子(有或没有元数据)的集合。社交媒体数据集在社会工作和社会科学研究领域越来越受欢迎,因为数十亿人的访问已经改变了研究人员可以收集和分析的社交数据的数量和类型。许多形式的用户生成的社交媒体数据是自愿和非主动发布的,这可能会提供不同于其他定量和定性研究和数据收集方法对人们的生活的见解。
社交媒体数据集主要由计算机科学和数据科学的研究人员收集和分析,大量社交媒体数据的可用性为机器学习提供了先进的方法。计算机科学家已经开发了一种高效的基于web的工具来收集额外的信息(例如,标签,边框),这些信息可以用来捕捉个人和群体的行为。
内部的注释人员可能会给社交媒体贴上标签,这项任务可能会外包给 Amazon Mechanical Turk 等众包网站,在这些网站上,注册用户(进行数据收集的研究人员不知道这些人)获得报酬以执行注释。尽管这些系统对于注释大量社交媒体数据非常有用,但它们通常需要某种形式的支付,并且不是为单个项目的复杂分析而设计的。
此外,在我们这个社会工作和社会科学研究频繁发生的最边缘化和系统资源不足的社区,要想识别出在语言使用、表情符号、图像和音乐方面具有所需理解的人群工作者,几乎是不可能的。因此,尽管通过提供心理健康、创伤和人际暴力等主题的新数据点,社交媒体的使用在加强社会工作研究方面有很大的希望,而不考虑帖子中嵌入的背景和文化情况下分析数百万条社交媒体帖子,可能会导致危险的假设,给边缘化社区带来严重后果。尽管社会工作者培训敏感等语境因素,社会工作研究人员一直在缓慢适应灵活、方便的工具注释社交媒体数据,特别是考虑到需要解决多媒体数据集中的偏见和表达。
在本文中,我们描述了社交媒体可视化和文本分析【Visual and Textual Analysis of Social Media (VATAS)】工具的开发,这是一个灵活的、基于web的解决方案,用于分析和注释社交媒体数据。我们分享了VATAS的开发和部署代码,并演示了如何将VATAS用于对社交媒体语料库的严格科学研究,特别是来自边缘化社区的语料库。VATAS是免费的,旨在与机器学习方法协同工作,允许研究人员根据他们的需求(例如,提取文化、细微差别和当地上下文)选择和训练注释器,并使用带注释的帖子来训练机器学习模型或运行统计分析。我们解释了如何组织这样的合作,并相信,总的来说,我们的研究为加强跨学科研究提供了一个很好的例子,特别是在注释社交媒体数据的背景下。
社交媒体数据的收集和注释方法
总体目标是对包含图像并需要领域专业知识(例如,本地语言或亚文化)或特定教育背景(例如,社会工作或社会科学)的社交媒体数据进行注释,并以定性分析的方式进行。直接输入注释数据以供计算机科学家自动处理。这个并发过程依赖于收集特定类型的注释,例如边界框或多项选择答案,这些注释可以以易于自动处理的格式(例如 JSON 或 CSV)导出。在本节中,我们概述了收集和注释社交媒体数据的方法。这些方法包括机器学习、众包、众包开源项目、定性数据分析和手动图像注释工具。
机器学习
机器学习是人工智能的一个分支领域,统计方法被用来从给定的数据中“训练”统计模型(如逻辑回归、支持向量机或神经网络)。在这种情况下,数据指的是任何数字信息,包括传感器测量、音频文件或图形结构。在本文中,我们将重点关注社交媒体帖子形式的数据。
在社交媒体帖子上训练机器学习模型的一种常见方法是,将单个帖子分配到预定义的类别或标签。标签的例子包括情绪类别,如“消极的”、“中性的”和“积极的”,或各种情绪反应(如“大拇指向上”、“大拇指向下”等)。在某些情况下,社交媒体网站上的标签很容易获得,但标签通常必须手动添加到数据中——这一任务称为标注。在机器学习中,一个数据集通常包含数据和标签。在社交媒体数据集上训练统计模型,需要将社交媒体帖子尽可能准确地映射到相关标签的特定规则更新模型参数。
最终目标是获得一个能够可靠预测标签的模型。例如,推特上的帖子(即推文)可以根据他们的情绪被标记为消极、积极或中立。然后,在标记好的推文上拟合一个模型,目的是检测新推文的情绪。另一个经典的例子是用包含对象的矩形(称为边界框)来标记图像中的对象(例如,一辆车)。这种手动向图像添加边界框信息的任务称为边界框注释。有了足够数量的边界框注释,计算模型就可以训练来预测给定类型对象图像中的边界框。
众包
在数据分析和注释的背景下,众包可以被视为一种由众包人员(在Amazon Mechanical Turk等众包网站上注册的个人,从事在线注释任务,获得金钱奖励)对项目进行注释的方法。在这种方式下,众包网站成为愿意从事有偿注释工作的众包工作者和提供有偿注释工作的人或机构之间的枢纽。
标注数据的重要性日益增长,尤其是在计算机科学领域,这可能促进了许多此类网站的兴起,而众包已经成为标注大量数据的一种成熟方法。这在机器学习的背景下尤其明显,在机器学习的背景下,几个著名的数据集主要是通过众包建立的(例如,邓等人的ImageNet, 2009;微软COCO由Lin等人,2014年;和Krishna等人的Visual Genome, 2017),以及众包工人的投票已被用于各种评估任务,如评估数据集质量(Zhao, Yao, Gao, Ding, & Chua, 2016)或评估模型预测的质量(Mathews, Xie, & He, 2016)。
众包工人和内部注释人员之间有一些重要的区别。顾名思义,众包注释者通常被视为一个“群体”——一个不为人知的匿名群体,可能分布在世界各地。通常情况下,在进行项目的研究人员和提供注释的众包工作人员之间没有直接的沟通(例如直接短信或电话)。这样做甚至可能会被禁止,就像Amazon Mechanical Turk所做的那样。因此,在众包研究中,研究者和注释者之间的关系通常不那么直接,唯一的交流是通过注释任务。这意味着结果没有与众包工人讨论,也许更重要的是,这个距离可能会影响注释者的动机。众包的另一个特点对动机有明显的影响:注释者通常是按注释付费的,这意味着人群倾向于快速完成注释。
尽管众包可能是一种快速完成一些非关键任务的合理方法——例如标记图片是猫还是狗——人们必须记住,众包工作者习惯于短时间的任务,并且往往在简单的注释场景中表现得更好。然而,即使在这种情况下,众包标注也不是完全可靠的。文献通常认为,不可靠的注释来自不道德的垃圾邮件发送者,有目的地破坏或影响标签工作的恶意工作者,以及不合格的工作者,他们提交不精确或任意的标签,以最大限度地提高他们的财务效率。
值得注意的是,不合格的工人,尽管他们尽了最大的努力,无法产生一个可接受的注释质量。缺乏专门知识对边缘化社区或其他需要社会工作领域常见的专门培训或背景知识的关键领域更为重要。糟糕的性能随后被传播到机器学习模型中,因为模型在统计上拟合结果数据集,以学习标记样本的目的,就像注释器所做的那样。因此,不可靠的标注会导致模型的分类精度低和预测有偏差。这个问题就是为什么社会工作应该推动社交媒体对数据和结果的注释和解释,特别是当它涉及到最具挑战性的社会问题时。
由于这些质量问题是众所周知的,在众包中有几种提高质量的机制是常见的,例如为每个样本收集多个注释,或者排除在不合理的短时间内完成任务的注释者。另一种选择是,研究人员指定哪些答案对一小部分数据是可接受的,然后排除那些可接受答案比例过低的注释者。尽管如此,每个样本的多个观点并不一定表明系统解释偏见(例如,由于缺乏领域专业知识),众包平台并不是为深入的注释者培训而设计的。此外,当依赖亚马逊Mechanical Turk等常见网站时,很难对短暂的人群劳动力有必要的程度的控制。因此,我们提倡适当地选择和培训少数注释者,而不是依赖许多未经培训的个人,特别是在分析社交媒体或注释偏见可能具有关键影响时。
原则上,在一些众包平台上,通过创建一个访问任务的私人链接,并只与特定的人分享这个链接,可以与经过挑选和训练的内部注释人员合作。但这样的众包平台通常还是需要付费的,更重要的是,不能提供我们想要的灵活性。例如,以与原始社交媒体平台相同或相似的风格显示社交媒体帖子,区分专家和非专家,以及对采样注释的项目进行精确控制,都具有挑战性。
众包开源项目
开源软件指的是在许可许可下发布的具有公开可访问源代码的计算机软件,允许其他人修改和共享软件。通常,开源项目通过GitHub或GitLab等网站提供代码,其他人可以下载并贡献代码。由于源代码可以自由访问和修改,开源软件通常提供了很大程度的灵活性。然而,与商业解决方案相比,适应开源软件通常需要更多的技术熟练度,特别是当需要更改代码级别时。
众包软件有几个开源项目,包括《纽约时报》研发实验室(The New York Times R&D Lab)的“hive”(https://github.com/nytlabs/hive)、ProPublica的“transcriable”插件(https://github.com/propublica/transcribable)、Zooniverse的“Scribe”(https://github.com/zooniverse-glacier/Scribe)、以及Scifabric的“PYBOSSA”(https://github.com/Scifabric/pybossa)。但是,除了PYBOSSA之外,这些项目需要进行大量的定制来处理社交媒体数据,而且它们的源代码似乎没有得到维护。
关于后一个项目,PYBOSSA旨在建立众包网站,众包人员可以在网站上注册并完成可用的任务。PYBOSSA可能适合使用内部注释器而不是众包工人来完成所有注释,但它的源代码由超过45000行代码组成;我们估计,将这样一个复杂的框架适应到我们的案例中可能要比构建一个新的轻量级系统做更多的工作。(相比之下,完整的VATAS源代码大约有3000行。)一些注释网站确实建立在PYBOSSA上(例如,https://crowdcrafting.org/),可以用来收集注释;然而,这将带来上一节中概述的相同问题。
定性数据分析
定性方法是社会工作研究的核心内容。定性方法的原则采取更以人为本的方法,优先考虑上下文、深度、整体视角,以及归纳而不是演绎推理。在对社交媒体数据进行分析时,这一点尤为重要,因为在这些数据中,对文本的误解或标签中的偏见可能导致用户被定罪,特别是来自边缘化背景的个人。有几个定性的数据管理系统可以用于社交媒体的使用。例如,Dedoose是一个收费服务,基于web的系统,允许研究人员导入和分析社交媒体数据。Nvivo也提供了类似的收费服务,但只能在Windows和Mac操作系统上使用。DiscoverText允许研究人员分析非结构化的社交媒体,为用户提供数据分析参数的控制,以适应他们的研究问题。
然而,Dedoose和Nvivo并不是为社交媒体数据设计的,Nvivo也没有为自然注释提供一个用户友好的平台。另外,从标注任务到社交媒体帖子的原始页面来回切换也很困难。Nvivo要求安装软件,这可能会给需要技术支持的注释器带来访问挑战。尽管DiscoverText为Twitter分析提供了创新的功能,但如果是与不太熟悉分析软件的社区或组织一起编写或分析文本,则该平台的用户友好性较差。
手动图像标注工具
许多机器学习方法依赖于带注释的数据来构建计算模型。特别是对于图像,有各种常见的注释类型,它们都与构建不同类型的机器学习模型有关。例如,在标注期间,可以手动将图像分配到预定义的类别,或者将图像的每个像素分配到一个类别(例如,“房子”、“汽车”、“街道”)。
在当前的研究中,我们特别感兴趣的是收集边界框信息(例如,感兴趣的对象周围的矩形,以及对象属于哪个类的信息)。图2给出了一个特定边界框注释的例子。有许多工具可以用于这个注释任务(例如,Russell等人的LabelMe, 2008;Ciocca、Napoletano和Schettini设计的IAT, 2015年;和Dijkshoorn, Boer, Aroyo, & Schreiber的Accurator, 2017),但这些工具大多存在两个主要问题。首先,通常不可能用图像显示文本,或者以其他方式定制用户界面来显示完整的社交媒体帖子。其次,很难将这些工具扩展或集成到一个更全面的注释系统中,在这个系统中,注释者可以登录并查看Twitter上的原始tweet,进行边界框注释,并回答一系列其他问题。Kota Yamaguchi的box-annotator(代码可从https://github.com/kyamagu/bbox-annotator获得)是在图像中标记边界框的一个特定代码库,它包含了我们在图像中标记概念所需的大部分功能。我们将这段代码用于注释系统的边界框组件。
VATAS注释工具
标注工具开发流程
我们的研究团队最初用Excel电子表格定性分析了参与帮派的年轻人的推文,以捕捉文字和表情符号。这个过程效率很低,并且很难从动态的、自然的角度来可视化数据。为了克服这一局限性,我们开发了一种系统的方法,来分析Twitter上参与帮派的青少年中发生暴力的途径,将注解者置于Twitter用户的角度。通过访问之前的Twitter帖子,用户的社交网络、图片和对话可以提供重要的上下文线索,了解内容在Twitter上是如何变得具有攻击性的。
我们社会工作形成一个跨学科的研究小组和计算机科学家和创建了一个视觉概念的列表(例如,枪支或手势,可见在一些图片与微博相关联),用于识别社交媒体上的暴力和以后可以自动检测到。在这个项目中,我们希望选择和训练注释者,以便根据视觉概念和通信代码列表对tweet进行注释,并回答有关项目的其他定性问题。收集这些注释的目的有两个。首先,我们想要使用注释来构建自动检测方法,避免因偏见(例如,由于缺乏上下文数据而产生的偏见)而造成的误解。其次,我们希望为社会工作研究和实践提供一些见解。
我们每周开会讨论建立一个由文本和图片组成的推特数据集,目标是在芝加哥,伊利诺伊州,社区暴力发生率高的社区,提高对青少年被攻击和攻击性帖子的反应的检测。要创建与被攻击和攻击相关的推文的视觉本体,就需要对一些推文进行手工标注。我们想要一个更强大的注释过程,它将超越将推文标记为攻击或被攻击相关,并将包含注释相关图像中概念周围的边界框的能力。其结果是VATAS,一个适合于私人注释的系统(即,只有来自社区的专家和来自我们小组的研究助理对数据进行注释),能够提取更深层次的上下文含义、文化和嵌入在推特及其周围的复杂细微差别。为注释创建VATAS还具有其他优点,例如增加了隐私性和关于系统功能的最大灵活性。
VATAS的关键特性
VATAS是一款开源软件,用于构建社交媒体数据注释网站;它是专门为需要更深入地理解上下文信息的情况而设计的,比如领域专业知识。完整的代码和技术细节可以在GitLab上找到:https://gitlab.com/blandfort/VATAS。VATAS的主要特点包括:
•直观注释:当与领域专家合作时,这一点尤为重要,因为他们可能没有多少技术知识,而且没有足够的时间来适应注释过程。
•基于Web的:注释器无需安装任何东西,可以通过Web浏览器在任何地方提供注释。
•灵活性:系统是开源的,完全可定制。特别是,研究者完全可定制性控制注释任务和订购的物品在每个任务中,他们可以实现更复杂的系统行为(例如,搬到注释任务B,工作时如果某个反应是在任务)。可定制的注释器布局模板用于显示任务,这些模板可以在任务之间共享。
•注释者角色:对于每个任务,任何VATAS用户都可以被分配为“普通”注释者或领域专家。对于这两组中的每一组,可以分别指定每个项目要收集的注释数量。
•用户管理:每个VATAS用户可以拥有标准权限和管理权限。这种区别用于决定用户可以处理哪些任务,以及可以查看和编辑哪些注释。所有VATAS用户都可以处理分配给他们的注释任务,并查看和编辑他们已完成的注释。管理员可以访问所有的标注任务,查看和编辑所有其他用户的标注。
•处理注释冲突:管理员可以查看冲突的注释,并通过提供额外的注释打破绑定。
•导出注释:任何任务的注释都可以直接导出为带有表格数据的文本文件(例如,CSV)。在这个过程中,注释会自动与相应的社交媒体数据配对。
•隐私:用户可以自己托管系统,因此不会与任何第三方共享数据。
•免费:VATAS为商业或非商业目的免费。
VATAS工作流
设置VATAS和添加注释任务的详细说明可以在GitLab上找到。在这里,我们概述了一个涉及社会工作和计算机科学研究人员的跨学科研究的基本工作流程。
项目的目标
为了确定项目的范围,团队应该决定主要的研究问题或目标。我们建议一个问题与社会工作有关,一个问题与计算机科学有关,并且问题或目标应该相互关联并从中受益。例如,计算机科学家可能会利用定性分析的见解来改进检测方法,而社会工作者可能会将检测模型用于实际应用或更容易地找到额外的数据。
数据收集
一般来说,社会工作团队应该制定收集合适的社交媒体数据的标准(例如,识别种子用户进行滚雪球抽样)。然后,计算机科学团队可以实现并运行数据收集。
VATAS设置
用户需要访问驻留VATAS的Web服务器。计算机科学团队在服务器上设置标注系统,包括下载最新版本的VATAS源代码、创建数据库和调整设置。(详细信息可以在项目的GitLab页面上找到。)
注释的任务
设计注释任务需要将具有技术知识的人(通常是计算机科学家)和具有领域知识的人(通常是社会工作研究人员)包括在讨论中,以确保以合理的努力实现最终的任务,同时保持过程中的领域专家知识是可行的。并确保最终任务能够满足双方的研究兴趣。将任务添加到VATAS应该由计算机科学团队完成,因为它涉及服务器端的技术步骤。
培训
社会工作团队对注释人员进行VATAS使用、处理每项任务的方法以及在VATAS系统中注释社交媒体数据的道德规范(例如,揭示他们的注释偏见、在私人空间中注释和机密性)的培训。
注释的过程
注释员负责完成任务,社会工作团队和计算机科学团队负责监控输入的注释,并解决分歧。我们建议注释者和社会工作管理员在整个注释过程中进行迭代讨论。
数据导出和分析
在VATAS中,任何具有管理权限的用户都可以下载CSV格式的单个任务的所有注释。导出的注释由社会工作团队进行分析,计算机科学团队将这些注释用于培训检测器和/或运行统计分析。两个小组应该共同讨论他们的发现。
案例研究:芝加哥推特语料库
为了说明如何采用VATAS进行严格的研究,我们描述了一个合作项目,该项目使用该工具来注释和分析来自边缘社区的社交媒体数据。尽管VATAS是在这个项目期间开发的,但为了让读者更容易地将该过程转移到他或她的个人案例中,我们是从VATAS代码已经创建的角度来编写这篇手稿的。我们在这项研究中获得了一个机构审查委员会的例外,因为我们所有的社交媒体数据都是公开的。
项目目标
在我们的研究中,我们提出了这样一个问题:生活在社区暴力发生率较高的社区的黑人和拉丁裔青年如何应对失去亲人并在社交媒体上表达攻击性?为了回答这个问题,我们组建了一个跨学科的团队,包括社会工作研究人员和学生、计算机科学家、青年和外展工作者。跨学科问题包括:“在线攻击如何导致离线暴力?”以及“我们如何使用机器学习来检测网络攻击?”在计算机科学方面。我们一起注解了年轻人之间的社交媒体互动,这揭示了暴力的根本原因(如贫困、创伤),并为机器学习分析提供了训练数据,用于预测社交媒体上的行为模式。
数据收集
为了从这些人群中获取社交媒体数据,我们从Twitter上的一个种子用户开始,她自称参与了帮派,拥有大量的Twitter粉丝,她的故事(包括她的死亡)被全国媒体报道。然后,我们在推特上通过回复和提及找到了她的顶级沟通者。使用她的Twitter账户和账户的传播者,我们用雪球抽样技术发现芝加哥其他表达了类似的自我认同为暴力团伙或者有暴力团伙参与经历的Twitter用户,建设我们的社会媒体语料库。
在我们的社交媒体语料库中,我们确定了279名生活在芝加哥暴力发生率高的社区的Twitter用户。我们创建了两个数据集:文本社交媒体语料库和图像数据集。对于我们的文本社交媒体语料库,我们收集了每个独特用户的最后200条推文(或更少,取决于每个用户有多少条推文);对于我们的图像数据集,我们收集了1851条带有图像的推文,从我们的总样本中随机抽取173个用户。社交媒体文本语料库中的tweets与图像数据集中的tweets之间没有重叠,尽管文本语料库中确实包含了一些带有图片的tweets。
VATAS设置
计算机科学团队按照GitLab页面上项目的说明在大学服务器上安装了VATAS。我们的研究项目需要各种角色来保持VATAS和注释过程的顺利运行。反复咨询系统管理员,以确保托管VATAS的服务器正常高效地运行。社会工作团队的领导(一名社会工作教授和博士生)每周开会讨论基于注释的新见解对VATAS系统的改变,并将这些需求传达给计算机科学团队。我们团队的计算机科学家们在收到社会工作小组的反馈后,负责调整和修改注释任务、角色和权限。
设计和添加注释任务
一旦建立了注释系统,我们就可以设计注释任务并将它们添加到系统中。在社会工作团队和计算机科学团队就研究问题和分析类型进行对话后,开发并组织了注释任务,以满足每个研究团队的需求。我们设计了四个注释任务:全文注释、压缩文本注释、全文图像注释和压缩图像注释(见表1)。我们创建了完整的注释任务,以捕获用于描述性和主题定性数据分析的详细、健壮的注释。完整的注释任务(例如,研究具有当地社区上下文和含义的单词)有许多问题,需要集中精力和时间,而压缩注释任务用于训练和开发自动检测文本标签和视觉概念的计算系统。压缩标注任务速度快,需要对暴力、社交媒体语言和背景等领域和主题/内容有广泛的了解(例如,对各种帮派和团伙之间的关系有广泛的了解),以最大限度地减少标注错误。
对于所有注释任务,我们首先从语料库中提供一个社交媒体帖子。每个注释者都可以看到文本和/或图像,以及原始文章的在线链接。这些帖子可能包括标签、表情符号、链接、图片和视频。在全文和图像标注任务中,标注者按照时间顺序分析每个独特用户的所有帖子,而压缩标注任务的标注者则随机显示帖子。每个任务的每个问题都可以在屏幕左侧看到所提供的社交媒体帖子(和图片)。对于所有的任务,每个社交媒体帖子都至少由两个不同的注释者标注,有时甚至更多。
本节的其余部分将描述每个任务,包括我们给注释器的指令。VATAS支持多种注释功能,包括基于领域知识的高级自由文本解释;对定性分析生成的代码进行数值评分;和对象规范,如图像边界框。这种多样的注释功能集可以很容易地定制,以支持其他社交媒体研究。
第一印象(文字和图像)
文本和图像注释任务都是通过询问注释者对社交媒体帖子的第一印象(见图1)开始的。如果帖子出现在他们自己的社交媒体动态中,他们最初的解释是什么?在看到它之后,他们会想到什么?我们从这开始,以捕获注释者的基线解释,评估假设,并揭示可能影响注释者如何看待帖子的偏见。一旦我们的注释者承认了这些最初的解释、假设和偏见,他们就可以在其余的任务中考虑这些问题。在分析来自边缘化和弱势社区的数据时,注释步骤尤为重要,因为注释和标注可能会对这些社区的人们产生进一步的有害影响。
图1所示VATAS (Visual and Textual Analysis of Social Media)全图像标注任务截图
社交媒体说明的上下文分析(文本和图像)
我们的话语和文本分析试图揭示关于每个社交媒体文本和图像的上下文信息,其中包括分析每个文本和图像的各个组成部分。为此,我们开发了社交媒体上下文分析(CASM)方法,以分解社交媒体帖子中的上下文。CASM包括对原始社交媒体帖子、帖子的用户、用户的同伴网络、任何被引用的离线事件、病毒式传播(喜欢和转发)和参与(评论和回复)的深入研究。我们在每组任务的开始为我们的注释者概述了这些指导性步骤,以便这些步骤不会被遗忘。我们要求我们的注释者使用网站、搜索引擎和各种其他资源来发现社交媒体帖子的潜在含义。虽然注释器不需要为该任务直接输入任何内容,但如果这一步没有彻底完成,那么注释器将无法有效地完成以下任务。
位置(图片)
在我们的图像注释任务组中,我们要求注释者反映图像中所表示的位置。主要活动在哪里举行?或者,如果图像中没有发生任何事件,可见的主体或对象的位置是什么?我们将图像分为三个位置类别:内部、外部或其他(例如,文本和表情包图像)。一旦我们的注释者选择了这些类别中的一个,我们要求他们写下精确的位置并描述它。例如,如果注释者将图像归类为“室内”,他们可能会写“浴室”,并描述导致他们理解图像是在浴室拍摄的特征。我们想要捕捉图像的位置,以便分析图像在不同位置和相应文本的任何主题中所发生的模式(例如,物质使用和悲伤的表达)。
一般描述(文字和图片)
一旦注释者完成了CASM,他们被要求反思和评估他们对帖子的最初解释。这项评估是通过综合他们发现的每一个描述社交媒体帖子含义的上下文细节来完成的。他们的任务是提供导致他们解释帖子的证据,包括完全捕捉社交媒体帖子含义的标准英语改写。对于图像,我们要求注释者描述图像中发生的事情以及图像与帖子中的文本的关系(如果有任何关系)。
威胁等级(文本和图像)
在注释者描述了他们对社交媒体帖子的基本评估和最终解读后,我们请他们对帖子的威胁级别发表评论。注释器以0.1的增量表示威胁级别,从0(完全没有威胁)到1(极端威胁);他们有机会提供一个开放式的答案来解释他们给出的威胁级别。我们希望注释者能够明确地考虑威胁,即帖子有多大可能导致某人受到伤害或实施攻击。尽管一个帖子可能会表现出攻击性,但它可能是模糊的,不会立即构成威胁。相反地,一个显示攻击性的帖子可能是可信的和具体的,导致高威胁级别。我们对威胁级别感兴趣,以确定帖子中导致注释器将帖子视为威胁的模式。
精准度指示器(仅图片)
我们对数据集中的物质使用特别感兴趣,因为在使用社交媒体时改变的心态可能会导致某些内容的主题和模式。Lean——一种将异丙嗪与可待因、苏打水或果汁混合的饮料——被我们社交媒体数据来源社区的年轻人使用。因此,我们希望注释者通过异丙嗪容器或通过带有紫色、红色或黄色液体的容器和杯子在社交媒体帖子中显示精准信息的时间来记录。因为我们可能不能完全确定图像中是否存在精准,所以我们给我们的注释器一个从 0(完全不可能)到 1(完全可能)的刻度,增量为 0.1。如果注释者将图像排在零以上,他们需要在一个开放式答案框中提供他们这样做的证据。
边界框(仅图像)
我们感兴趣的是自动检测视觉概念——人、纹身、手势、枪支、钱、大麻(原始)、关节/钝物/香烟,以及与我们数据集中的用户相关的图像。训练VATAS要做到这一点,我们的注释器必须手动标注图片画边框的视觉概念(参见图2)。一旦我们有足够的注解图像,我们可以开始训练VATAS图像中自动检测这些概念而不用人工注释。我们还能够对与图像中描述的概念相关的文本内容进行比较分析。
图2VATAS中限定框问题的截图(社交媒体的视觉和文本分析)
代码(文本和图像)
注解者被要求选择最能代表每个社交媒体帖子本质的定性代码。如果有必要,他们可以选择不止一个,但被要求尽最大努力只选择一个。编码范围从“成长”、“悲伤”、“攻击”到“健康”、“情绪”和“社会行为”。我们使用定性代码来跟踪数据集中的主题和模式。
压缩代码(压缩文本和图像)
压缩编码的文本和图像标注主要用于加速标注数据的处理,用于训练计算检测方法。该任务为主题/内容专家注释器或领域专家注释器保留,因为快速完成该任务所需的基础知识和领域特定知识尽可能少。在我们的社交媒体数据集中,来自芝加哥高暴力率社区的年轻人,我们特别感兴趣的是对攻击性、失去和物质使用的编码(见图3)。
图3VATAS(社交媒体的视觉和文本分析)中压缩任务的截图
培训
为了启动注释过程,我们的注释者在个人笔记本电脑或平板电脑上访问注释网站,使用用户名和密码登录,并选择要工作的特定注释任务。我们的研究有两组注释者:社会工作硕士学生研究助理(RAs)和专家注释者(主题/内容专家和领域专家)。RAs将大部分时间用于完成全文和全文图像的注释任务,而专家注释者则完成压缩的注释任务(文本和图像)。
尽管RAs将他们自己的专业知识运用到他们的注解中——包包括他们在暴力预防、青年发展、社会系统和生态框架方面的知识——但他们需要在其他领域接受培训,然后才能开始完整的注释。培训包括对社交媒体数据起源领域(芝加哥、各种工作人员/帮派和地理空间)的概述、对他们作为社交媒体数据注释者的角色的解释、VATAS 的广泛教程以及流程会议以防止在注释过程中偏向某些组或内容。
在最初的培训之后,RAs通过观察社交媒体上的帖子,学习Twitter的不同功能和年轻人交流的方式,进行了深度的社交媒体沉浸。最后,RAs练习了注释100个社交媒体帖子,为官方数据集做准备。在整个培训过程中,trainer监控每个RA的进度,并提供迭代反馈以提高标注质量。在RAs完成2 - 3周的训练后,他们准备开始全文和图像标注任务。RAs的任务是每周完成100份注释;他们每周与培训师会面,讨论注释的过程和内容,克服挑战,并讨论需要改进的地方。
专家注释人员具有领域和内容的广泛知识。我们的内容/主题专家评注员是一位社会工作教授,专攻社交媒体和暴力,以及一位社会工作博士生,他有超过9年的有色人种青年组织、指导和建议经验,以及3年的社交媒体和暴力经验。由于他们在暴力、社交媒体语言和语境分析方面的广泛知识,他们完成了压缩文本和图像注释。内容/主题专家批注者还负责协调由RAs标记的社交媒体帖子。在VATAS中,当RAs对发布在社交媒体上的代码不同意时,有一个指标。然后,主题/内容专家可以浏览这些帖子,并通过选择与他们对帖子的理解最匹配的标签来化解分歧。
我们还聘请了领域专家对帖子进行注释;这些人居住或工作在暴力发生率高的社区,并有专业或个人暴力经历。由于学校、家庭义务、社区服务和工作等原因,领域专家通常有有限的时间来注释。虽然他们可以完成我们的注释工具中涉及的所有任务,但我们希望确保我们不会占用他们更多的时间。在我们的具体研究中,领域专家花费了他们的时间来完成压缩图像注释,这是一个快速的任务,他们能够利用他们所有的领域专业知识,并为社交媒体帖子提供用于训练VATAS的图像标签。
数据导出与分析
每当社会工作或计算机科学团队想要导出已完成的注释时,管理员会登录注释网站,登录自己的帐户,单击页面顶部的export选项卡,以CSV文件的形式下载数据。管理员可以根据自己的需要导出各种注释组:全文注释、全文图像注释、压缩文本注释或压缩图像注释。
当我们的团队导出包含通过VATAS标注的数据的CSV文件后,这些文件被用于定性分析以及机器学习训练和实验。社会工作小组通过Excel访问CSV文件进行定性主题分析,在标注的数据中寻找模式(例如,社交媒体中提及死亡的帖子在关于睡眠问题的帖子之前的频率),以告知暴力预防和干预实践,并适应未来的标注重点。计算机科学团队用Python分析了CSV文件,并使用部分数据来训练和分析计算方法。特别是,使用限定框图像注释(以及相应的社交媒体图像)训练计算机视觉模型来识别注释的视觉概念和压缩注释(以及原始推文)。这作为训练和测试数据,用于将推文分类为丢失、攻击性、物质使用或其他类别。然后对这些分类器进行分析,以找出文本和图像中的哪些概念对各自的代码最有指示意义。
讨论
局限性
VATAS有几个局限性。首先,它是由研究人员开发的,是众包平台的非商业性替代品。因此,该系统可以免费使用,但没有技术支持。使用VATAS的研究团队负责其设置、配置和维护。如前所述,这需要一定的技术技能,包括至少对编程有基本的了解。此外,需要一个Web服务器来托管VATAS。然而,与开发和维护VATAS相关的技术技能为社会工作研究人员提供了一个机会,与计算机科学同事创建新的研究合作和伙伴关系。
其次,我们之前解释了为什么众包不是我们调查的可行选择。然而,在某些情况下,当注释任务足够简单时,众包可能更合适,因为有大量可用的众包工人,可以更快地收集注释。特别是,我们一般的注释方法,即让人工选择和训练的注释器对所有项目进行严格的分析,可能并不直接适用于大规模数据集的注释。
道德
VATAS不仅需要技术和方法上的考虑,而且也需要道德上的考虑。伦理考虑包括社交媒体研究可能直接或间接影响研究人群的方式,明确每个人群特定的伦理义务,以确保研究不会造成进一步的边缘化或伤害,以及采用机制来保护研究人群(如隐私)。虽然我们只使用公开的推文,但我们的工作有可能吸引更多的注意力到用户身上——在我们的案例中,黑人青年可能已经面临边缘化、刑事化和在线和离线的监视。
社会工作研究人员在寻求利用社交媒体数据进行研究的新方法时,几乎没有得到道德指导。《国家社会工作者协会(2017)道德规范》并未对社交媒体研究的道德提供指导。2017年,全国社会工作者协会、社会工作理事会、社会工作教育理事会、临床社会工作协会发布了一份关于社会工作实践技术的报告,其中只简单提到了社交媒体和在线调研。此外,机构审查委员会在获得拥有公共账号的社交媒体用户的同意方面往往缺乏明确的指导方针;在某些情况下,对社交媒体数据进行编码可以免除全面审查。
尽管缺乏关于伦理的制度和组织指导,当使用VATAS时,我们强烈推荐一个严格的伦理审查过程和咨询机构审查委员会,人类研究保护专家,来自社交媒体数据来源社区的领导人确保社交媒体用户的安全和保护仍是研究的中心。为了保护用户免受我们研究和使用VATAS所带来的潜在伤害,我们对本文中的每个社交媒体帖子进行了去识别处理,从而使文本无法搜索。去识别社交媒体帖子涉及删除每一篇帖子中的可识别信息(例如,社交媒体用户名、替换图片、用假名替换姓名)。由于Twitter的高级搜索功能,任何tweet都可以根据用户、文本和日期进行搜索,我们通过改变tweet的文本而不影响其含义,从而使每条tweet无法被搜索。然后,我们通过一段一段地迭代搜索新生成的推文,看看是否找到了原始的推文,来测试这条推文是否真的不可搜索。这份手稿中展示的所有图片都来自Flickr: Creative Commons,而不是我们的数据集。我们只与合作伙伴组织和其他签署了概述其研究目的和意图的谅解备忘录的研究人员共享我们的数据集和计算工具。使用VATAS进行社交媒体数据注释和分析,需要我们深刻理解我们的道德义务,以防止我们的非自愿参与者面临潜在风险。
结论
随着创新的通信、共享和连接方式继续在整个社会中传播,我们理解数据和赋予数据意义的方法也必须进步。尽管这些模式在很大程度上依赖于技术,但它们的核心仍然是独特的人类,其错综复杂的环境因素以及独特的文化成分是相互依赖和波动的。社会工作研究人员需要从数据科学世界中寻找线索,开发出自己的创新方法来捕获强大的社交媒体数据,这些数据可以与数据科学工作协同工作。社会工作研究团队可能不熟悉一些需要克服的技术障碍,这进一步强调了与数据科学团队高度协作和互利关系的必要性。
尽管技术和数据科学将继续提高我们使用和理解文本、图像、音频和视频数据的能力,但基本需要跨学科合作来理解这些信息。独特语言文本的定性信息特征提供了有助于开发自动化系统的洞察力,并为定性研究人员提供了在新的自然环境中深入了解社会现象的机会。在最好的情况下,这个过程是一个互惠互利的多学科过程,由社会工作研究人员推动的深入见解创造了新的“软”特征,用作学习/训练模型的一部分,不仅可以提高数据科学模型的准确性,还可以提高数据科学模型的准确性。提高机器学习和人工智能的准确性、有效性和道德使用。VATAS 是开发这种新方法工具箱的第一步,该工具箱需要使用新数据流并让其对社会工作研究人员可用。
VATAS 发展的关键是社会工作研究人员、领域专家和计算机科学家之间的跨学科合作。我们认为,这种独特的合作产生了更好的科学,对社会现象产生了更深入的理解,并有能力更精确地衡量社会问题,从而产生更大的影响。社会工作研究作为一个领域,有机会利用其对背景、文化和与社区的关系的深刻理解,为可能导致社会变革的新方法和技术模型提供信息。社交媒体数据为社会工作研究人员提供了在自然环境中更多地了解其目标人群的新机会。VATAS 等工具通过在解释社交媒体时结合捕捉社会和文化背景的机制,支持社会工作和社交媒体研究的严谨和有意义的进步。不同领域加强合作可能会开启下一代伟大的社会工作、流行病学、社会学和心理学研究。VATAS促进了多学科团队之间的交流,并帮助使用不同专业语言和方法的领域建立真正有意义的伙伴关系,以解释可能被忽视的社会现象。
作者简介:
德斯蒙德·巴顿(Desmond U. Patton)博士,哥伦比亚大学社会工作学院和社会学系副教授。
菲利普·布兰德福(Philipp Blandfort),理学硕士,是德国凯泽斯劳滕理工大学认知科学与心理学系和德国人工智能研究中心的博士生。
威廉·弗雷(William R. Frey)是哥伦比亚大学社会工作学院的博士生,社会福利工作者。
罗萨诺·希法内拉(Rossano Schifanella)博士,都灵大学计算机科学系助理教授。
凯尔·麦格雷戈(Kyle McGregor)博士是纽约大学朗格尼健康中心儿童和青少年精神病学系的助理教授。
常世福(Shih-Fu U. Chang)博士,哥伦比亚大学计算机科学与电气工程学院。
有关这篇文章的信件请发送到Desmond Upton Patton, 1255 Amsterdam, New York, NY 10027,理查德·迪克(Richard Dicker)教授或通过电子邮件发送到[email protected]
完整原文PDF文档和机器翻译已上传小编知识星球
长按识别下面的二维码可加入星球
里面已有近千篇资料可供下载
越早加入越便宜哦