【开源技术】从事数据科学:框架和案例研究
2022-1-19 15:45:52 Author: mp.weixin.qq.com(查看原文) 阅读量:11 收藏

数据科学:框架和案例研究

作者:Sallie Ann Keller、Stephanie S. Shipp、Aaron D. Schroeder和Gizem Korkmaz

摘要

今天的数据革命不仅仅是关于大数据,它是关于各种规模和类型的数据。虽然摄取大量数据带来的容量和速度问题仍然普遍存在,但需要更多关注的是第三种类型所带来的快速发展的挑战。需要一种全面的方法来发现、访问、重新利用和统计整合所有种类的数据,这导致我们开发了一个数据科学框架,该框架构成了我们从事数据科学的基础。该框架中的独特功能包括问题识别、数据发现、数据治理和提取以及道德规范。案例研究用于说明实际的框架。最后,我们讨论了数据敏锐度的重要作用。

关键词:数据科学框架、数据发现、伦理、数据敏锐度、劳动力

媒体摘要

用 Thomas Jefferson 的话来说,“知识就是力量”,鉴于数据科学正在迅速成为合理决策和政策制定的新价值,数据科学家对此非常了解。但并非所有数据都是平等的。

今天的数据革命不仅仅是大数据,而是各种规模和类型的数据的出现。信息技术、计算和统计方面的进步现在使访问、集成和分析随时间和空间的大量数据成为可能。此外,大规模再利用(将数据用于收集目的以外的目的)正成为一种越来越普遍的做法和关注点。这些数据通常不完整、有缺陷、难以访问且不具代表性。

这种困境正在推动具有数据素养的人群从简单的数据分析转向真正“从事数据科学”的巨大需求。为了实现这一点,弗吉尼亚大学生物复杂性研究所和倡议的研究人员开发了一种研究模型和数据科学框架,以帮助成熟的数据科学。数据科学框架和相关研究过程从根本上与解决实际问题相关,强调数据发现是大多数数据科学框架中必不可少但经常被忽视的步骤,并将伦理考虑作为研究的关键特征。最后,随着数据正在成为我们经济中的新货币,弗吉尼亚大学研究团队强调数据科学家有义务启发决策者对数据的敏锐度(素养)。

今天的数据革命更多地是关于我们如何“进行数据科学”,而不仅仅是“大数据分析”,这是一个对试图解决复杂社会问题的政策制定者或社区没有什么价值的流行词。有了适当的研究模型和框架,就有可能将全数据革命带到所有组织,从地方、州和联邦政府到行业和非营利组织,扩大其范围、应用、理解和影响。

1.简介

数据科学是典型的转化研究领域,始于转化——真正需要解决的问题。它涉及许多利益相关者和实践领域,适合团队科学。数据科学已经发展成为一项强大的跨学科研究。本文分享了我们开发的一个框架,以帮助理解仅仅做数据科学意味着什么。

我们已经学会了如何在弗吉尼亚大学生物复杂性研究所的一个相当独特的研究环境中进行数据科学,它是统计学家、社会和行为科学家的有意集合,他们对引导数据科学以提高决策对公共利益的影响有着共同的兴趣。我们的数据科学研究方法基于解决实际的、非常实用的公共政策问题。这是一种研究模式,从翻译开始,直接与社区或利益相关者合作,关注他们的问题。这导致了“研究拉动”与“研究推动”的对比,为数据科学奠定了研究基础。研究推动是传统的研究范式。例如,生物学和生命科学的研究从基础的实验室科学转向实践。对于数据科学,正是通过在多个领域解决多个问题,才能产生协同效应和总体研究需求,

通过我们执行多种不同的以政策为重点的案例研究,跨问题领域的协同作用和研究需求已经浮出水面。已经出现了一个数据科学框架,并在本文的其余部分中介绍了一个案例研究来说明这些步骤。这个数据科学框架保证围绕数据伦理和数据敏锐度(素养)完善科学实践。对这些主题的简短讨论结束了本文。

2.数据科学框架

正在提出概念模型来捕捉数据科学的生命周期,例如,伯克利信息学院 (Berkeley School of Information) (2019) 和 Berman 等人。(2018 年)。对“数据科学”的简单 Google 搜索会显示页面和图像页面。这些数字具有重叠的特征,能够很好地总结数据科学过程的几个组成部分。我们发现超越概念框架并创建一个可用于数据科学实际实践的框架至关重要。

我们的数据科学框架(参见图 1)为解决数据科学问题提供了一种综合方法,并构成了我们研究的基础(Keller、Korkmaz、Robbins 和 Shipp,2018 年;Keller、Lancaster 和 Shipp,2017 年)。这个过程是严格的、灵活的和迭代的,因为每个阶段的学习都会影响前后阶段。我们的框架有四个不同于其他框架的特性,我们将对其进行详细描述。

首先,我们指定要解决的问题并将其始终存在于框架中,从而将数据科学研究置于要解决的问题中。

其次,我们将数据发现、对现有数据源的搜索作为一项主要活动而不是事后考虑。

第三,治理和数据提取在建立信任和建立数据共享协议方面发挥着关键作用。第四,我们积极地将数据科学伦理与框架的所有组成部分联系起来。

图 1. 数据科学框架

数据科学框架从研究问题或问题识别开始,并通过以下步骤继续:数据发现——清单、筛选和获取;数据提取和治理;数据整理——数据分析、数据准备和链接以及数据探索;适用性评估;统计建模和分析;沟通和传播结果;和伦理审查。

在下文中,我们描述了数据科学框架的组成部分。尽管该框架是以线性方式描述的,但它远不是由集成过程的圆形箭头表示的线性过程。我们还为弗吉尼亚州费尔法克斯县的青少年肥胖和体育活动提供了一个案例研究示例,该示例遍历了框架的各个组成部分,以展示如何严格执行数据科学所采取的步骤,以确保研究的透明度和可重复性。

2.1 问题识别

数据科学将学科和社区聚集在一起进行跨学科研究,为当前和未来的社会挑战提供新的见解(Berman 等人,2018 年)。数据成为跨学科交流的通用语言(Keller,2007;Keller 等人,2017)。数据科学过程从识别问题开始。使用相关理论和构建假设是通过传统的文献回顾来实现的,包括回顾灰色文献(例如,政府、行业和非营利组织报告)以寻找最佳实践。主题(领域)专业知识在将获得的信息转化为理解数据中的潜在现象方面也发挥着作用(Box, Hunter, & Hunter, 1978)。领域知识提供了定义、评估。

领域知识对于将数据用于解决实际问题至关重要。它可以采取多种形式,从理解理论、建模或在数据中观察到的潜在变化。例如,当我们重新利用地方行政数据进行分析时,社区领导者可以解释数据中的潜在因素和趋势,如果没有背景知识,这些因素和趋势可能并不明显。

案例研究应用——问题识别

弗吉尼亚州费尔法克斯县的卫生与公众服务部 (HHS) 有兴趣开发数据驱动方法的能力,通过描述县和县级的社会和经济因素并创建为政策选择提供信息的统计模型。费尔法克斯县是一个大县(406 平方英里),拥有 110 万所有收入群体和种族的人口。

自 1970 年代以来,美国的肥胖率稳步上升,原因是食物供应的增加和随着人们年龄的增长而发生的身体活动减少。该项目旨在确定与当地政策和计划制定相关的地区肥胖相关的趋势和活动。HHS 赞助商为费尔法克斯县决策者确定感兴趣的地理区域提供了见解和背景。他们没有使用传统的人口普查区来分析子县的趋势,而是要求分析基于费尔法克斯县的高中出勤区和政治区。如下所述,这导致了我们研究的创新,通过创建合成信息技术来按这些地理维度对齐数据。

2.2 数据发现(数据清单、筛选和采集)

数据发现是识别可能与感兴趣的特定主题相关的潜在数据源。数据管道和相关工具通常从数据获取或提取点开始(Weber,2018)。我们的数据科学框架的一个独特功能是通过数据发现启动数据管道。数据发现过程的目标是对所有数据进行广泛而富有想象力的思考,捕获可能对手头问题有用的全部潜在数据种类(数据革命的第三个v ),并从字面上组合这些数据的列表来源。

做数据科学的一个重要组成部分是首先关注在概念开发工作中对现有数据的大规模再利用。数据科学方法提供了处理这些数据并将它们应用于研究问题的机会。与传统的研究方法相比,数据科学研究允许研究人员在考虑设计新的数据收集之前探索所有现有的数据源。这种方法的优点是数据收集可以直接针对当前的知识和信息差距。

Khan、Uddin 和 Gupta(2014 年)解决了数据科学资源多样性的重要性。即使在相同类型的数据中,例如行政数据,问题(研究问题)也推动了信息内容的使用和适用于正在解决的问题。这种程度的多样性推动了可以进行哪些领域发现(“Data Diversity”,2019 年)。Borgman (2019) 指出,数据是人类构建的。研究人员和主题专家决定“什么是特定目的的数据,如何解释这些数据,以及什么构成适当的证据。” 类似的观点是,数据是“相关的”,它们的含义取决于它们的历史(数据如何产生和演变)、它们的特征以及分析时对数据的解释(Leonelli,2019)。

整合来自不同来源的数据涉及创建基于统计原则的方法来评估数据的可用性(联合国欧洲经济委员会,2014 年,2015 年)。这些集成的数据源提供了观察社会状况和回答过去一直难以解决的问题的机会。这突出表明数据的有用性和适用性取决于其用途和领域。使用重新调整用途的数据存在障碍,这些数据通常不完整、难以访问、不干净且不具代表性。最后,由于跨多个机构和组织的治理的必要性,数据访问、数据链接和重新分配也可能存在限制。

当一遍又一遍地面临数据发现和重新利用任务时,了解数据是如何产生的变得势在必行。为此,我们发现将数据定义为四个类别(设计、管理、机会和程序)很有用。这些定义在表 1 中给出(Keller 等人,2017,Keller 等人,2018)。数据发现和再利用的预期好处是使用及时且频繁的低成本(现有)数据、大样本和地理粒度。结果是更丰富的数据来源,可支持解决问题并更好地为研究计划提供信息。需要注意的是,与新数据收集相比,还需要权衡重新利用现有数据的成本,质疑新实验是否会比查找和重新利用数据提供更快的结果和更公正的结果。根据我们的经验,

表 1. 数据类型

设计数据涉及统计设计的数据收集,例如调查和实验,以及有意的数据收集,例如天文观测、遥感和健康登记。

管理数据由实体收集用于管理组织或计划,例如提供服务的政府机构、跟踪订单的公司以及记录注册学生的大学。

实时数据源自基于 Internet 的信息,例如网站和社交媒体,并通过应用程序编程接口 (API) 和 Web 抓取获取。

程序数据侧重于流程和政策,例如医疗保健覆盖面的变化或概述存储数据所需的程序和元数据的数据存储库政策。

改编自凯勒等人。(2018 年)

数据类型(设计的、管理的、机会的和程序的)提供了一种系统的方式来思考可能的数据源和数据发现步骤的基础。数据清单是首先通过头脑风暴、搜索和滚雪球过程识别数据源的过程(参见图 2)。

进行了一组简短的数据清单问题,以评估数据源对支持特定问题的研究目标的有用性。该过程是迭代的,从数据清单问题开始,以评估数据源是否满足项目在数据类型、数据的重复性、所需时间段的数据可用性、地理粒度和需要分析单位。如果数据符合基本标准,则对其进行额外筛选记录数据的来源、目的、频率、差距、在研究中的使用方式以及数据的其他用途。我们采用“数据地图”来帮助推动我们的数据发现过程(参见图 3)。在整个项目过程中,随着新想法和数据源的发现,它们会被清点和筛选以供考虑。

现有数据源的获取过程取决于所访问数据的类型和来源,包括下载数据、抓取 Web、直接从赞助商处获取数据、或从聚合器或其他来源购买数据。它还包括必要时制定和启动数据共享协议。

图 2. 数据发现过滤器

数据发现是确定候选数据源的开放式和连续过程。数据清单是指与研究问题有关的最广泛、最深远的信息“愿望清单”。数据筛选是一个评估过程,通过该过程从更大的候选数据集池中筛选出符合条件的数据集。数据采集是从赞助商处获取数据、购买数据、使用应用程序编程接口 (API) 下载数据或抓取网络的过程。

案例研究应用——数据发现

数据图的创建突出显示了我们希望为该项目“发现”的数据类型(参见图 3)。这是由文献综述和费尔法克斯县主题专家指导的,他们是该项目的社区学习数据驱动发现 (CLD3) 团队的一部分(Keller、Lancaster 和 Shipp,2017 年)。此数据图立即捕获需要集成到分析中的多个分析单元。数据图可帮助团队识别潜在的隐性偏见和道德考虑。

图 3. 数据图

数据图突出显示了研究所需的数据类型,并用作数据发现的指南。这些清单是可能影响青少年行为的社会决定因素和物理基础设施。该地图突出显示了需要在分析中捕获和链接的各种分析单元。这些包括个人、团体和个人网络,以及地理区域。

数据识别、筛选和采集

然后,数据图指导我们识别、清点和筛选数据的方法。我们筛选了每一个以评估其与该项目的相关性,如下所示。

对于调查和管理数据:

数据是县级还是县级?(注:这个问题筛选出了在研究所需的地理粒度上不可用的几个国家数据来源。)

数据可用的年份是多少,即它们与美国社区调查 (ACS) 和费尔法克斯青年调查的年份相同?

我们能否在项目的时间范围内(例如 3 月至 9 月)获取和使用数据?

对于基于地点的数据:

有提供地址吗?

可以识别企业类型吗?

我们可以在项目的时间范围内获取和使用数据吗?

在数据发现步骤之后,我们确定并获取了要在本研究中使用的调查、管理和基于地点(机会)的数据。这些在表 2 中进行了总结。基线数据是 ACS,它提供了人口普查区和人口普查区级别的人口和经济数据。我们通过使用财产税评估管理记录来描述费尔法克斯县的住房和租赁存量。地理编码的基于地点的数据是从网络上抓取的,包括杂货店、便利店、餐馆(全方位服务和快餐)、娱乐中心和其他体育活动机会的位置。我们还获得了费尔法克斯县青年调查汇总(在高中边界级别)和费尔法克斯公园管理局的行政数据。

表 2. 选定的数据源

数据源

地理

美国社区调查数据(人口普查),2012-2016* 人口普查区和街区组

美国时间使用调查 (BLS),2017 国家的

CDC 青少年风险行为监测系统,2015 年 状态

2017 年县健康排名 县

费尔法克斯县建筑环境,例如杂货店、补充营养援助计划 (SNAP) 零售商、娱乐中心、社区花园*  地址级别

来自管理和预算部的费尔法克斯县出租单元数据*  地址级出租单元数据

来自 CoreLogic 的费尔法克斯县房地产税评估数据  地址级自有住宅单元数据

来自管理和预算部的费尔法克斯县房地产税评估数据*  地址级自有住宅单元数据

费尔法克斯县开放数据:分区、环境、水、公园、道路*  形状文件

费尔法克斯县青年调查,2016 年;8、10、12 年级学生*  高中就读区

费尔法克斯县公园管理局数据,2017*   地址级别

国家教育统计中心,2014-2015   中学

弗吉尼亚州教育部,2017   中学

* 表示最终分析中使用的数据

2.3 数据治理和摄取 

数据治理是建立和遵守有关数据访问、传播和销毁的规则和程序。在我们的数据科学框架中,数据源的访问和管理是在与利益相关者和大学的机构审查委员会 (IRB) 协商后定义的。数据摄取是将数据引入数据管理平台的过程。

结合不同的数据源可能会引发有关隐私和机密性的问题,这通常来自研究人员和赞助商之间的利益冲突。为清楚起见,隐私是指个人允许其他人访问关于他们自己的个人信息的数量,而机密性是数据生产者和研究人员为保护个人数据隐私而遵循的过程(国家研究委员会,2007 年)。

对于一些人来说,考虑可以链接和集成的大量个人数据记录会变得令人陶醉,从而产生关于遵循特定个人行为模式的想法,例如社会工作者可能想要做什么。这使我们制定了数据科学指南,将确保研究和政策分析数据的机密性与案例工作等实时活动区分开来(Keller 等人,2016 年)。个案工作需要识别个人和家庭才能使数据有用,而政策分析则不然。对于个案工作,必须建立信息系统,以确保只有社会工作者才能访问这些私人数据并获得访问许可。我们的重点是政策分析。

数据治理需要工具来识别、管理、解释和传播数据(Leonelli,2019)。需要这些工具来促进有关处理和评估数据的不同方式的决策,并阐明数据源之间的冲突,将研究重点转移到不仅要考虑出版物,还要考虑数据基础设施和数据管理。我们围绕数据治理和提取的最佳实践包含在对所有研究团队成员的培训中,也包含在正式的数据管理计划中。

从原始数据源生成的修改后的读写数据或可以生成修改后数据的代码将存储回安全服务器,并且只能通过安全的远程访问进行访问。对于涉及受保护信息的项目,除非获得特别授权,否则研究人员无权直接访问数据文件。对于这些项目,数据访问是通过使用托管在我们自己的安全服务器上的不同数据分析工具来调节的,这些工具通过经过身份验证的协议连接到数据服务器(Keller、Shipp 和 Schroeder,2016 年)。

案例研究应用——数据治理和提取

从表 2 中的数据源中选择的变量进行了分析和清理(用星号表示)。在研究中发现并包含了两组需要仔细管理的独特数据。首先是费尔法克斯县青年调查,每年对 8 年级、10 年级和 12 年级的学生进行管理。访问这些数据需要遵守特定的治理要求,从而为每所学校提供汇总数据。这些数据包括有关花在活动上的时间的信息,例如家庭作业、身体活动、屏幕时间;每周吃的食物种类;家庭结构和其他支持;以及有关危险行为的信息,例如使用酒精和药物。其次,费尔法克斯县公园管理局的数据包括其九个娱乐中心的使用数据,包括上课、使用的服务。

2.4 数据整理

执行数据分析的数据科学框架活动以评估质量、准备、链接和探索的这些下一阶段很容易消耗项目的大部分时间和资源,并有助于评估数据质量(Dasu & Johnson,2003) . 许多作者现在都可以轻松获得数据整理的详细信息,此处不再赘述(例如,DeVeaux、Hoerl 和 Snee,2016 年;Wickham,2014 年;Wing,2019 年)。评估数据的质量和代表性是数据争论的一个重要组成部分(Keller、Shipp 和 Schroeder,2016 年)。

2.5 适用性评估 

数据的适用性是在 1990 年代从管理和行业的角度引入的(Wang & Stone,1996),然后由 Brackstone(1999)扩展到官方统计数据。使用适用性首先评估将使用的特定统计方法对数据施加的限制,以及是否要做出推断,数据是否代表推断所涉及的人群。这种评估从简单的描述性表格和可视化扩展到复杂的分析。最后,适用性应该表征结果中的信息内容。

案例研究应用程序 - 适合使用

在链接和探索数据源之后,选择了一个数据子集进行适用性分析,以对数据进行基准测试。我们无法访问个别学生级别的数据以及重要的健康信息(即使是汇总的),例如体重指数(BMI 是身高和体重数据的组合)。随后整个团队进行了隐含的偏见讨论,鉴于这些限制,决定将哪些数据带到分析中是通过重新调整项目的重点来描述各个高中的社会、经济和行为特征,他们的出勤率区和县政区。这些特征可用于针对新的计划和政策制定。

2.6 统计建模与分析 

统计和统计建模是使用不完整信息得出可靠结论的关键(Adhikari 和 DeNero,2019 年)。统计数据为描述观察和结论之间的关系提供了一致且清晰的词语和定义。适当的统计分析是研究问题、数据用于支持研究假设的预期用途以及特定统计方法所需的假设的函数(Leek & Peng,2015)。道德维度包括确保问责制、透明度和不存在算法偏见。

案例研究应用——统计建模和分析

我们使用基于地点的数据来计算和绘制家庭与政治区和高中出勤区感兴趣的位置之间的距离。这些数据包括身体活动机会的可用性以及获得健康和不健康食物的机会。图 4 给出了每个政治区内从家到快餐店与农贸市场的距离示例。

图 4. 探索性分析

基于住房单元位置的基于地点的数据的直接聚合。箱线图显示了费尔法克斯县 9 个政治区中的每一个从每个住房单元到农贸市场或快餐店的距离。得出的结论是,人们住的地方离快餐店更近,而不是农贸市场。

综合信息方法

与基于地点的数据不同,调查数据不直接与感兴趣的地理区域对齐,例如 9 个主管区和 24 个学校出勤区。为了将数据和随后的综合指标重新调整到相关地理区域,我们使用综合信息技术来估算社会和经济特征,并将其附加到全县的住房和出租单元。基于迭代比例拟合构建了多组关于费尔法克斯人口的代表性合成信息,以允许估计误差范围(Beckman、Baggerly 和 McKay,1996 年)。合成数据的某些特征与 ACS 边际表完全匹配,而其他特征是使用在不同聚合级别收集的调查数据统计生成的。

创建综合指标。综合指标可用于组合数据以创建感兴趣概念的代理,例如全县弱势群体的相对经济地位(Atkinson、Cantillon、Marlier 和 Nolan,2002 年)。创建了两个综合指标,第一个代表经济弱势群体,第二个代表弱势学生比例较高的学校(见图 5)。我们将指标定义如下:

经济脆弱性是四个因素的统计组合:住房负担超过家庭收入的 50%、没有车辆、接受补充营养援助计划 (SNAP) 福利和贫困的家庭百分比。

高中脆弱性指标是作为参加有限英语能力课程、接受免费和减餐、医疗补助、接受贫困家庭临时援助以及移民或无家可归经历的学生百分比的统计组合而开发的。

图 5. 弗吉尼亚州费尔法克斯县的学校和经济脆弱性指标。经济脆弱性指标按 24 个高中出勤区和颜色绘制;颜色越深,区域越脆弱。重叠的圆圈是位于高中位置的高中脆弱性指标。圆圈越大,高中人口的脆弱性越高。

图 6 显示了可能影响肥胖的因素之间的相关性。

图 6. 可能影响肥胖的因素的相关性。这些因素包括身体活动水平(每周不活动或 5 天以上)、过去一周消耗的食物和饮料、不健康的体重减轻和粮食不安全。例如,左下角显示没有身体活动与粮食不安全之间存在正相关关系。

分析的下一阶段是建立统计模型,根据来自青年调查的信息,深入了解身体活动与健康饮食之间的关系。基于全套数据,使用了几种机器学习模型。

重新审视适用性评估。 

虽然我们被要求检查青少年肥胖,但我们无法获得县级或学生级的肥胖数据。然而,我们决定从描述性分析转向更复杂的统计建模,以评估现有数据是否仍能提供有用的结果。首先,我们使用了随机森林,这是一种有监督的机器学习方法,可以构建多个决策树并将它们合并在一起以获得更准确和稳健的预测。我们的随机森林结果没有预测任何合理或具有统计意义的结果。接下来,我们使用 LASSO(最小绝对收缩和选择算子),这是一种回归分析方法,它同时执行变量选择和正则化(添加信息的过程),以提高其生成的统计模型的预测准确性和可解释性。然而,LASSO 方法始终选择具有零预测变量的模型,这表明没有一个有用的模型。当不使用组件时,偏最小二乘回归具有最佳性能,反映 LASSO。偏最小二乘回归不是使用原始数据,而是将预测变量简化为一组较小的不相关分量,并对这些分量执行最小二乘回归。

我们的结论是,更复杂的统计建模并没有提供超出(仍然明显有用的)描述性分析的额外信息。如下所述,需要 BMI 数据和利益相关者输入来确定综合指标组件的相对重要性,以扩展建模。

2.7 沟通与传播

交流涉及共享数据、记录良好的代码、工作文件以及通过会议演示文稿、出版物和社交媒体进行传播。这些步骤对于确保流程和调查结果透明、可复制和可重现至关重要(Berman 等人,2018 年)。此步骤的一个重要方面是通过传达研究和发现的背景、目的和影响来讲述分析的故事(Berinato,2019;Wing,2019)。视觉效果、案例研究和其他支持证据强化了这些发现。

沟通和传播对于建立和维护实践社区也很重要。它可以包括通过门户、数据库和存储库、研讨会和会议进行传播,以及创建新期刊(例如,哈佛数据科学评论)。潜在的沟通和传播是保护研究的隐私和道德层面。

案例研究应用——沟通与传播

我们总结并展示了我们在数据科学生命周期的每个阶段的发现,从提出的问题开始,通过数据发现、分析、探索性分析、适用性和统计分析。我们向县官员提供了有关潜在政策选择的新信息,并继续探索我们如何获得数据共享协议以获取敏感数据,例如 BMI。

本研究中使用的数据对于描述性分析很有价值,但使用适应性评估表明,统计模型需要更精细的学生级数据分辨率才能获得更好的预测测量,例如体重指数 (BMI) 或身高和体重数据。前面描述的探索性分析为费尔法克斯县卫生和公共服务部提供了许多有用的见解,这些见解涉及每个政治区和高中就读区的身体活动和健康食品选择的接近程度。我们鼓励 Fairfax County Health and Human Services 制定新的数据治理政策,允许研究人员访问敏感数据,同时确保数据的隐私和机密性得到维护。

在我们可以访问 BMI 或身高和体重数据之前,我们建议寻求利益相关者的意见以制定综合指标,例如本例中描述的经济脆弱性指标。这些综合指标将使利益相关者和决策者了解高危人群的居住地,以及随着时间的推移,这些人群在经济自给自足、健康、获得健康食品和获得身体健康机会等各个方面的变化。活动。

2.8 伦理审查 

伦理审查提供了一套指导原则,以确保在整个项目生命周期中就该主题进行对话。由于数据科学涉及跨学科团队,因此围绕道德的对话可能具有挑战性。每个学科都有自己的一套研究诚信规范和实践。为了协调这些领域,数据科学伦理涉及数据科学实践中的每一个组成部分和步骤,如图 1 所示。这在整个案例研究中都有说明。

在获取和整合数据源时,伦理问题包括对大规模监控、隐私、数据主权和其他潜在后果的考虑。研究诚信包括改进日常研究实践和对所有科学家的持续培训,以实现“更好的记录保存、审查实验设计、减少偏见的技术、对严谨研究的奖励以及对共享数据、代码和协议的激励——而不是而不是努力寻找和惩罚一些不良行为者”(“社论:自然研究诚信”,2019 年,第 5 页)。通过在整个研究过程中实施这些实践来提高研究诚信,而不仅仅是通过 IRB 过程。

Salganik (2017) 提出了一种基于原则的伦理方法,包括围绕数据使用、分析和解释的标准和规范,类似于与实施数据科学框架相关的步骤。同样,在 2017 年彭博会议上制定的“道德数据共享社区原则”基于四个原则——公平、利益、开放和可靠(Data for Democracy,2018)。实施这些原则的系统方法是确保科学数据是公平的:

使用常用搜索工具“可查找”;

“可访问”,以便可以探索数据和元数据;

'互操作'来比较、整合和分析;

通过元数据、代码和使用许可证的可用性,其他研究人员或公众可以“重复使用”(Stall 等人,2019 年)。

FAIR 原则的基础是还对整理和共享数据给予赞扬,并将其视为与期刊出版物引用一样重要(Pierce、Dev、Statham 和 Bierer,2019 年)。FAIR 运动已经在一些科学学科中站稳脚跟,在这些学科中,围绕机密性或隐私的问题并不普遍。另一方面,社会科学面临挑战,因为这些原因数据访问经常受到限制。然而,目标应该是在所有学科中发展 FAIR 原则并根据需要进行调整。这需要创建存储库、基础设施和工具,使 FAIR 实践成为国家和国际层面的规范而非例外(Stall 等人,2019 年)。

基于这些原则,我们制定了一份数据科学项目伦理检查表(示例见附录)。我们发现在“进行数据科学”的每一步中,有两件事情对具体化道德规范很有用。首先,我们要求我们的研究人员参加 IRB) 和负责任的研究行为培训课程。其次,对于每个项目,我们制定了一份清单,以在研究的每个阶段实施伦理审查,以解决以下标准:

平衡简单性和充分的标准,以确保道德行为和决策。

在研究的每个阶段,将伦理考虑和对隐性偏见的讨论作为项目的积极和持续的一部分。

当研究团队无法令人满意地回答伦理问题时,请寻求专家帮助。

确保整个项目的文档、透明度、持续讨论、提问和建设性批评。

纳入来自相关专业协会的道德准则(例如,参见 ACM 职业道德委员会。(2018 年)、美国物理学会(2019 年)、美国统计协会职业道德委员会(2018 年)、

创建清单是研究人员就一系列原则达成一致的第一步,并提醒人们在整个项目中进行对话。这有助于解决与来自不同学科的研究人员合作的挑战,并允许他们通过各种视角来处理伦理问题。附录中给出的数据科学伦理检查表可以适应特定的数据科学项目,重点是社会科学研究。负责任的数据科学涉及使用一组指导原则并解决整个数据生命周期的后果。

案例研究应用——伦理

伦理审查的各个方面是一个持续的过程,在案例研究的早期步骤中已经涉及到,特别是对所用方法的伦理审查,包括变量的选择、合成人群的创建和使用的模型。此外,根据与团队、我们的赞助商、费尔法克斯县官员和外部专家的内部讨论,对我们的调查结果进行了审查、审查和完善。贯穿始终的主要问题是我们是否在研究中引入了隐性偏见。我们同意某些研究结果可能会出现偏见,例如有关种族和民族身体活动水平的研究结果。

然而,在这种情况下,这些调查结果对学校官员和政治代表很重要。

3. 数据敏锐度

在进行数据科学的过程中,我们了解到这项研究的许多消费者没有足够的数据敏锐度,因此可能会不知如何利用数据驱动的洞察力。认为大多数决策者都是数据科学家是不现实的。即使拥有领域知识,数据科学领域的一些素养也是有用的,包括概率和统计学的基础,为不确定性下的决策提供信息(Kleinberg、Ludwig、Mullainathan 和 Obermeyer,2015 年)。

数据敏锐度,传统上被称为数据素养,似乎在 2000 年代首次引入,因为社会科学开始接受和使用公开的开放数据(Prado & Marzal,2013)。我们将数据敏锐度定义为对数据的使用做出良好判断以支持问题解决方案的能力。它不仅是统计和定量分析的基础;它是改善社会的关键机制,也是了解统计数据的必要第一步。随着所有类型数据源的大规模再利用,对具有数据敏锐度的政策制定者和其他决策者的需求也在增长(Bughin、Seong、Manyika、Chui 和 Joshi,2018 年)。

我们发现跨三个级别或角色概念化数据敏锐度很有用(Garber,2019)。第一类是数据科学家,受过统计学、计算机科学、定量社会科学或相关领域的培训。第二类是受过特定领域培训的研究人员,例如公共卫生或政治学,他们还接受过一系列数据科学培训,通过硕士学位、证书课程或动手课程(例如弗吉尼亚大学的数据)获得公益科学计划 (UVA, 2019)。第二组通过汇集多学科团队发挥桥梁作用。第三组是数据科学应用程序的消费者。第一组和第二组在技能、专业知识和应用方面可能重叠。第三组需要对数据科学有基本的了解,即

数据敏锐度既是基线概念,也是总体概念。具有数据素养的人应该在概念上理解数据科学的基础知识(例如,图 1 中描述的数据科学框架是一个很好的指南),并且能够阐明需要数据提供证据的问题:

问题是什么?

支持该问题的研究问题是什么?

哪些数据源可能会为这些问题提供信息?为什么?

这些数据是如何产生的?有哪些偏见和伦理考虑?

结果如何?它们有意义吗?我相信他们吗?我该如何使用它们?

具有数据素养的人了解整个过程,即使他们不具备进行统计研究的技能。数据敏锐度需要了解数据是如何产生的,以及为什么这对于评估正在解决的研究问题的数据质量很重要。随着许多类型的数据被发现并重新用于解决分析问题,数据素养的这一方面变得越来越重要。具备数据素养对于了解为什么我们的直觉可能并不经常是正确的很重要(Kahneman,2011)。我们认为,培养决策者的数据能力和敏锐度是数据科学的一个重要方面。

4.结论

没有应用程序(问题),就不会有数据科学。我们的数据科学框架和研究过程从根本上与实际问题的解决相关联,并且可以在不同的环境中使用。我们提供了一个使用当地数据来解决县官员提出的问题的案例研究。一些正式使用数据科学框架的对比示例是应用于行业供应链同步以及衡量开源软件的价值和影响的应用(Keller 等人,2018 年;Pires 等人,2017 年)。

我们已经强调数据发现是大多数数据科学框架中一个关键但经常被忽视的步骤。如果没有数据发现,我们将求助于方便的数据源。数据发现通过考虑许多新的数据源,而不仅仅是设计的数据源,从而扩展了数据科学的力量。我们还通过采用基于原则的方法将道德考虑作为整个数据科学生命周期的关键基础特征来开发新的行为。数据科学框架的每一步都涉及对决策、使用的方法和发现的记录,从而为数据的再利用和重用、共享和可再现性提供机会。

我们的数据科学框架为进行数据科学提供了严格、可重复且灵活的基础。当我们共同努力迎接不断变化的数据环境时,该框架可以作为数据科学领域不断发展的路线图。它还强调了支持利益相关者、主题专家和决策者发展数据敏锐度的必要性。

完整原文PDF文档和机器翻译已上传小编知识星球

长按识别下面的二维码可加入星球

里面已有近千篇资料可供下载

越早加入越便宜哦


文章来源: http://mp.weixin.qq.com/s?__biz=MzI2MTE0NTE3Mw==&mid=2651126725&idx=2&sn=0cb2ad5e96dc9c21d1c6698c282b6761&chksm=f1ae8cffc6d905e938001ab65841022c959a776a064922d4f2f3783866a78e3d8cab5b397e68#rd
如有侵权请联系:admin#unsafe.sh