【资料】自然语言处理与安全和防御有关的经验教训
2021-08-02 07:30:00 Author: mp.weixin.qq.com(查看原文) 阅读量:11 收藏

本文提供了从兰德公司使用自然语言处理(NLP)工具和方法的项目中学到的经验。它是作为实践者的参考文档编写的,并不是关于概念、算法或应用的初级读本,也不是与NLP或数据分析相关的所有课程的系统清单。它是基于一个方便的NLP从业人员样本,这些人在兰德花费或花费大部分时间在与国防、国家情报、国际安全或国土安全相关的项目上;因此,所吸取的教训主要来自这些领域的项目。虽然很少的课程是专门适用于美国国防部(DoD)及其NLP的任务,很多可能对国防部尤其突出,因为它的术语是非常特定域的,充满了行话,机密或敏感的数据,其计算环境是更多的限制,它的信息系统通常不是为支持大规模分析而设计的。这个视角解决了这些问题中的每一个和更多。

我们使用NLP作为一个总称,指的是使计算机能够分析人类语言的工具和方法的范围。NLP任务可以松散地分为两类:

1. 自然语言理解(NLU),包括文档分类、信息检索、问答、摘要和内容分析

2. 自然语言生成,包括翻译、文本到语音和聊天机器人。

兰德公司的NLP任务几乎都是NLU类型的。

大多数任务都涉及某种类型的文档分类,例如,

•对合同数据进行分类,了解军队人力结构

•根据书面评估预测军官晋升

•根据指挥官的意见,预测军事单位和组织的准备情况

•从推文中识别可能的俄罗斯喷子

•在社交媒体平台上发现阴谋论

•预测Twitter用户的活动,从推文中提取

•确定心理学家是否使用循证治疗,根据他们的临床记录

•确定由联邦机构支持的开展卫生服务研究和初级保健研究的研究。

其他NLP任务是

•比较被选和未被选为营指挥官的军官的书面评估报告中使用的语言

•从飞机维修日志中检索信息

•总结文本并确定生物恐怖政策的主题

•总结云供应商对联邦机构要求提供信息的回应

•从网络跟踪案件中检索信息

•利用新闻报道回答关于大规模枪击和其他重大暴力行为的问题

•收集用于人类评估的文件,并可能纳入全球健康计划的文献综述。

每一个项目都或多或少地包括四个主要步骤:

1. 数据收集

2. 数据处理(例如,为建模做准备的特定于nlp的文本处理)

3.模型开发

4. 应用程序开发和部署

我们对所学教训的描述被组织成这四个步骤。我们还提供了一些适用于每个步骤或一般NLP过程的总体经验教训。

有针对性的数据收集可产生更好的培训数据,进而通过减少数据稀释风险,减少对当前问题的相关观察,从而产生更好的模型。

1.数据收集

数据收集需要一个策略。

在大数据时代,普遍的态度是越多越好。虽然在资源不受限制的情况下这可能是正确的,但作为一个实际问题,它并不起作用,原因有几个。第一个也是最明显的原因是资源——至少兰德的资源——不是不受约束的。第二,可能不太明显的是,有针对性的数据收集可能产生更好的训练数据,通过减少与当前问题相关性较低的观察数据稀释数据的风险,进而产生更好的模型。在一个研究社交媒体阴谋论的项目中,一位语言学博士建立了一个训练数据的语料库,该语料库源自人类话语理论,产生了一个用于检测社交媒体阴谋论帖子的高度精确模型。这项工作的关键是理解人们如何谈论有争议的想法——例如,他们是在推广这些想法,分析它们,还是反对它们。因此,不仅要搜索“COVID”或“deep state”等关键词,还要根据立场和语气对帖子进行抽样。

然而,更多并不总是更好的另一个原因是,用于处理大量数据(下一节的主题)的时间可能过多,特别是在不能并行执行进程的情况下。文本文件可能非常大。小样本数据的测试处理和建模代码可以显示最终语料库在遇到实际约束之前有多大,目标数据收集可能会产生更好的训练数据。最近一个研究白人民族主义者在社交媒体上威胁的项目使用了第三方通过应用程序编程接口(API)收集的数据集。这些数据被标注了立场标签——可能有帮助——但数据集有数百gb,甚至在研究人员探索这些数据之前,下载和打开都需要相当长的时间。如果一个组织要为国防部用户收集和管理数据集,它将有助于提供较小的具有代表性的数据样本。

许多系统的设计不是为了能够大规模收集数据;对于数据主要是文本的系统,这通常是一个特别的问题。与私营部门不同,国防部和其他政府组织没有从他们的数据中获取价值的商业模式。许多系统不提供支持自动数据提取的API。一种解决方案是抓取网站。一些复杂的(通常是开源的)工具可以做到这一点。Selenium是一个跨平台、多语言(Java、Python、Ruby等)的网站测试工具,可以模拟人类行为,也可以用于web抓取。它对于动态生成的内容尤其有用。我们还发现更简单的scraper,如BeautifulSoup(一个Python库),可以很好地处理静态内容。然而,web抓取有很大的局限性,通常不是最好的选择。网页抓取往往是一个脆弱的过程,如果目标网站的格式改变,代码就会中断。在某些网站许可和订阅条款下,网页抓取甚至可能被禁止。关于机密系统的信息尤其难以获取,因为可能不可能安装必要的软件来获取信息,而且服务器响应时间往往要慢得多。在某些情况下,我们不得不让一个人系统地下载查询结果,这可能需要数小时到数天的时间来构建数据集。对于不是为大规模收集数据而设计的系统,最好的方法(但并不总是有效)是要求系统所有者提供数据的副本。所有者自己可以使用您提供的标准查询数据,或者如果数据库不是太大的话,简单地给您一个整个数据库的副本。

文本收集和提取可能需要一套工具,包括自定义算法过程。可能需要自定义代码从更大的集合中识别相关文档和相关文档中的数据。搜索引擎的结果通常会产生大量的假阳性(例如,我们搜索关于枪击的新闻故事时,不可避免地会检索到关于篮球、曲棍球和高尔夫的故事),而将结果作为提取、转换、加载(ETL)过程,而不是试图在初始集合中使用更精确的搜索词。一旦收集了文本文档,数据可能会被锁定在机器无法读取的图像文件中。对于较旧的行政文件,如工作描述、人事评估、合同和工作单,尤其如此。如果文本不是机器可读的,则需要光学字符识别(OCR)。Tesseract是一个非常精确的跨平台引擎,可以支持复杂的OCR任务,如管理布局、表格和图形标题。Apache Tika是一个多功能的工具,可以从各种文档类型(包括pdf)中提取文本。Adobe Acrobat支持也可以用来从pdf文件中提取文本,但我们发现这是最好使用Adobe pdf文件转换为Microsoft Word文档,然后使用Python库来处理Word文档模型数据,因为Python库给了我们更多的控制我们如何使用我们的代码中的内容。即使在执行了OCR或执行了其他初始收集和提取之后,也可能需要大量的算法过程来提取感兴趣的文本元素。我们的一个项目需要两名程序员工作超过100个小时来完成数据提取过程。

必须收集或生成元数据或其他标识符,以便将文本链接到其他文件。除了这些文件的内容外,您可能还需要生成元数据,以便将内容与其他数据关联起来。例如,在另一个项目中,一个军队与我们分享了他们的人事评估,但这些评估被存储在一个单独的数据库中,与军队的人力资源数据系统不一致或不相连。不仅我们自己的团队需要付出额外的努力去链接数据,而且缺乏链接也说明组织很难利用它的评估来进行人才管理。

数据工程是它自己的学科,有专门的技能和工具。在我们的许多项目中,数据工程师(构建平台、服务和框架以为模型提供数据的人员)和数据建模人员是同一个人。数据收集和ETL可能需要一周左右的时间,前提是数据是机器可读的格式,并且可以批量收集。数据可能存储在本地笔记本电脑或研究小组共享的目录中。甚至可以快速更新数据,这取决于数据更改的频率和访问方式。然而,在某些情况下,这种安排是次优的,甚至是不可行的。数据可能非常大,以至于必须在分布式Hadoop集群中进行处理,这就需要专门的技能才能访问。数据可能是短暂的,例如发给官员晋升委员会的个别数据包;数据的及时性可能很重要,比如监控恐怖袭击的新闻报道;数据库可能太大了,无法按需收集全部数据,比如许多社交媒体平台。在这些情况下,需要一些正在进行的过程来收集和ETL数据。这给我们带来了两个挑战。

首先,兰德的研究人员很少长期从事一个项目:相反,他们通常同时从事几个项目,每个项目持续几周到几年。

其次,兰德的研究人员是特定领域的专家,如军事准备或飞机维护,以及6种方法,如单词嵌入和注意力模型,但较少通过api与服务器通信,使用Apache风流或类似工具安排工作流程,或者管理Amazon Web Services (AWS)上S3 (Simple Storage Service)桶的读写访问。(在数据科学的各个方面都很熟练的人被戏称为“独角兽”——如果他们真的存在的话,那是极其罕见的。)RAND的一些信息服务人员致力于帮助多个研究团队管理他们的数据收集和存储过程,如果这些人了解DevOps(结合软件开发和信息技术运营)和数据建模,这将特别有帮助。例如,它们可以帮助将一次性数据提取转换为动态集合,该集合可以定期更新和优化,以供多个团队和项目使用。

2.数据处理

数据处理的第一步可能是处理个人身份信息(PII)。文本数据给个人带来了风险,还有身份被盗的风险和PII的其他一般问题。轻率的社交媒体帖子可能会导致解聘和其他后果。消极的工作评价会导致尴尬和声誉的损失。即使PII与文本内容一起存储(例如存储在单独的字段中),这也是一个问题,但有时PII可能嵌入到内容本身中。在社交媒体上,当描述人们所说或所做的事情时,用名字来指代他们是很常见的。由于这些考虑,RAND的一些数据只能存储和处理在特定的服务器上或使用特定的资源。在一个查看军官工作评估的项目中,记录被存储为图像,因此在表单处理完毕之前,无法将数据与表单顶部的PII分离。为了保护PII,我们在计算机上对表格进行了冗长的数字化。这个过程进行了多次迭代,以确保它在较老的、低质量的表单上工作良好。

简单的文本处理,如术语频率-反文档频率(TFIDF),甚至只是单词包,通常对文本分类任务非常有效。文本实际上与“自然语言”相距甚远。每个项目符号必须在一行内,并且允许使用缩写、首字母缩写和单词片段。因此,我们对开源NLP工具的探索通常没有发现任何对这个应用程序有帮助的工具。相反,我们发现基本的TFIDF模型执行得和更复杂的方法一样好,甚至更好,而且它的优势是更容易向观众解释,也更容易理解。在更自然的语言环境中,我们经常通过在构建TFIDF之前排除停止词和词干词来改进模型。在一些大量使用行话的情况下,我们并没有看到这样做的改进——甚至失去了信息——因为在行话语言中,同一个词的不同语法用法可能表明完全不同的意思。这些更简单的技术处理强度更低,可以提供更易于解释的结果(这也取决于使用的模型类型)。

单词嵌入可能会让人失望。使用算法(如GloVe、Word2Vec或fasttext)预先训练过的词嵌入,在设计和解决类比或找到相似术语的能力方面令人印象深刻。在实践中,它们对于简单的NLP任务(例如基于搜索词的文本检索)可能非常有效。但即使是在文本分类和类似的任务中,它们的用处也被证明是有限的。在大型语料库(如维基百科或布朗大学现代美国英语标准语料库)上预先训练的嵌入过于通用,即使在一项关于健康信息的推文研究中也是如此。另一个选择是使用特定主题的语料库训练自定义嵌入。对于一些项目,我们发现这提高了模型性能;对于其他人,我们没有。一项关于军事准备的研究使用兰德公司支持国防部的研究部门(包括美国陆军、空军、国防部长办公室、联合参谋部和战斗指挥部)20年的出版物建立了自定义词嵌入。这些嵌入方法在类比和词相似任务上的表现明显优于常规语料库嵌入方法,但在文本分类任务上并没有提高表现。尽管如此,由于单词嵌入对于简单任务(如文本检索)的性能很好,因此构建定制的词嵌入仍然很有意义,而且这样做有相当大的灵活性。构建双格词和其他n-词可能特别有用,如Air_Force、Department_of_Defense和collective training。这无疑提高了我们在类比和单词相似任务上的自定义嵌入的性能。另一个可用于自定义嵌入的选项是字典的大小和包含它的单个单词的最小出现次数。对于像我们这样的小语料库,我们发现将发生阈值设置得相当低——3到5达到了正确的平衡。

除了预先训练的词嵌入,其他的文本处理工具也可用,而且许多工具可以定制。这些工具包括标记器、词干、词理分析器、词性标记器、HTML解析器、停止词列表和实体提取器。但与单词嵌入一样,这些其他工具可能需要根据特定的任务进行定制。例如,许多标记化者忽略或分离非字母数字符号,因此标签和提及可能从社交媒体数据中丢失。自然语言工具包(NLTK)有一个叫做tweet标记器的东西,可以扩展空间标记器来查找标签。重要的是要记住,引理就像单词嵌入一样,是基于一般的语言用法的,可能具有有限的效用,否则就需要对使用专用语言的主题进行定制。停止单词是另一个可以使用的工具,因为单词嵌入对于一个简单的任务(比如文本检索)来说性能很好,所以构建定制的单词仍然很有意义,而且这样做有相当大的灵活性。8小心。英语中没有标准的停止词列表,它们可能需要针对特定的应用程序进行定制。此外,停止词提取可以改进使用一个词袋或其他丢失词序的方法的模型,但对于保留词序的模型,否定(是否)是关键的。如果您拥有或能够创建训练数据,还可以定制实体提取器。在审查关于大规模枪击事件的新闻报道时,我们意识到训练一个实体识别器(我们使用的是spaCy的内置标签)对案件中的具体事实,如武器、目击者和受害者,是很有帮助的。需要注意的是,大量的工具可用于英语和汉语,但用于其他语言的工具很少。

最小化数据的自定义修改以将其放入公共数据处理管道中,这支持跨数据源的可重复性。在一个分析社交媒体内容的项目中,我们使用了来自多个平台的数据。不管平台是什么,api通常以无模式JSON文件的形式提供数据。使用无模式数据库,即使来自单个平台的观察结果也可能有不同的字段,而且不同平台之间的差异很大,但我们需要对所有数据执行相同的分析。一种选择是从头到尾为每个平台构建一个自定义管道。这将使我们能够将多个文本处理步骤放入单个用户定义函数,甚至是单个代码行中,但这种方法也将使确保跨不同数据源的可重复性变得更加困难。相反,我们最小化了必须为每个平台编写的自定义代码的数量,以便将其全部转换为一种通用的半iraw格式,然后通过单个处理管道提供各种文件。随着新数据源的添加,我们为每个特定数据源编写最小数量的自定义代码,以使其准备成管道所期望的格式。这个原则也适用于管道的输出:数据应该被索引和存储,以便它们可以被合并或与其他数据源一起使用。

文本处理对模型质量有显著影响,特别是在处理不平衡的数据集时。数据建模师可能与数据工程师不同,他们可能想要试验数据的多种转换。甚至数据转换也可能有需要优化的超参数,例如在确定模型使用哪个数据时对假阳性和假阴性的敏感性。例如,一项寻找特定类型卫生服务研究的文本分类任务发现,通过不仅基于整个语料库,而且还基于仅在积极和消极观察中出现的词汇频率设置词数包含阈值,模型的准确性显著提高。这一步并没有向整个语料库词典中添加很多单词(只有几百个),并确保模型观察到的单词具有高度的辨别能力,但经常只出现在一个或另一个类别中。当处理不平衡的数据集时,这似乎是最重要的,因为其中相对较少的文本是特定的类。

真理不一定是真的。在人工智能(AI)中有一种假设,即人类标记的数据是基本事实,因此有助于训练机器学习算法。不同的模型算法、架构和超参数被测试,以尽可能接近人类如何标记数据。但是检查数据——无论是提前检查还是在模型出错的特定情况下——可能会发现一些数据被错标了。是否值得或适当的再培训模型的重新标签的数据是有争议的和非常具体的情况。在一个文本分类任务中,我们让一位美国海军水面战主题专家手动标记100个观察结果,我们将他的标记与模型和原始来源的标记进行比较。由于模型表现相当好,F1得分(精确度和回忆)接近80%,我们对观察结果进行了大量过度采样,发现模型出现了错误。在大约一半的“错误”模型结果中,我们的主题专家同意模型而不是原始来源。这是一个探索性的项目,所以我们没有进一步建模,但如果我们构建一个生产系统,我们可能已经使用重新标记的数据重新训练了模型,或者排除了我们认为标记错误的观察结果。

文本处理应针对具体的研究问题和模型。在建立一个模型来识别通过社交媒体操纵舆论的俄罗斯喷子时,我们面临着确定合适的分析单元的问题。它是个人推文,还是个人推文的整个历史,还是介于两者之间?我们最终将每个人的推文聚合成大约1000个符号块,将每个符号块作为独立的观察,这些观察来自于之前的语言学研究,该研究发现,人们话语风格的差异在1000个单词左右就开始显现出来。在另一个社交媒体项目中,目标是在留言板上找到与白人至上主义者的已知词汇和短语一起出现的新词和短语。我们又一次面临着是否要将文本聚合起来的问题,如果要聚合,又该如何聚合。我们可以将每一篇文章视为单独的观察,也可以根据个人或讨论线索进行汇总。我们觉得基于线程聚合更有意义,但并不是所有的社交媒体都是围绕线程组织的。我们最终在可以聚合的线程的基础上聚合,但在不能聚合的用户的基础上聚合。因为这是一个简单地寻找搭配术语的非监督学习模型,这种方法似乎是可以接受的,但如果我们有一个监督学习模型,它可能不会工作,使用的训练数据已经以这样或那样的方式聚合。

3.模型开发

计算基础设施可能会限制可以使用的模型类型。在受限制的计算环境(如分类计算系统或用于处理其他敏感数据的机器)中,建模库更难以安装、更新和使用。一种解决方案是在联网机器上创建一个包含所有必要库的虚拟环境,然后在受限机器上传输虚拟环境并进行建模。要使这种方法工作,虚拟环境必须适合便携存储设备。我们能够使用这个过程来雇佣TensorFlow机密电脑但不能使用先进的语言模型,如XLNet或伯特(双向编码器陈述变压器),因为可用的参数不适合在我们的便携式存储,所以我们在模型中使用了更简单的词嵌入。在另一个项目中,我们与国防部赞助商合作,建立了一个数据仪表板,并收到了关于国防部计算机10系统可用的编程语言和库的混杂信息。除了创建虚拟环境之外,另一个选择是建模工具的完整容器化。我们没有尝试与国防部赞助商合作,但我们自己有能力在运行在AWS实例上的容器中进行数据处理和建模。

图形处理单元(gpu)对于大型建模工作越来越有必要。对于计算机的项目来说,使用基于注意力的语言模型作为文本的嵌入层可能是不可行的,即使它们适合便携式存储。这是因为,即使是简单的单词嵌入,一些模型架构也要在cpu上运行几个小时,而且我们不能在一个分类的环境中访问gpu。创建定制NLP模型的挑战之一是训练所需的时间。使用GPU大大加快了这个过程,允许更多的迭代来发现和修复问题。不幸的是,使用gpu的机器比只使用cpu的机器贵得多。由于数据和模型可以在更宽松的环境中运行,云计算是一个很好的选择。目前的云计算供应商每月提供这些机器的价格在650美元到9000美元之间,这取决于GPU的类型以及是否需要多个GPU才能在内存中容纳训练数据。部署一个完整的模型用于推理也得益于在GPU上运行。然而,云提供商很少考虑GPU使用的自动缩放特性,这导致要么过度供应云资源以满足峰值需求,要么过度利用资源,导致最终用户体验变慢。与为训练过的模型服务相比,微调模型需要更强大的硬件(多个gpu并行)。

NLP模型特别适合人类的评估。

自然语言天生是为人类接受、解释和理解而设计的。因此,与人工智能的任何其他现代分支相比,NLP模型可能更倾向于复制人类活动。一个NLP模型的输入和输出都应该被一个真实的人理解。当一个主题专家审查一个预测军队准备情况的项目的假阳性和假阴性样本时,他发现在一些情况下,他认为原始标签(而不是模型结果)是错误的(“地面事实并不总是正确的”)。在modeler中回顾了假阳性和假阴性的样本项目预测人员选择命令,他意识到某些词非常歧视为真阳性但没有足够频繁发生在整个语料库包含在原始模型(“英语教学可以改善模型性能”)。除了微调超参数、增加模型复杂性、为更多时代进行训练,以及采用其他标准方法来提高许多类型机器学习任务的模型性能,NLP模型可能会从人类对数据和模型预测的审查中受益匪浅,特别是假阳性和假阴性。

4.应用程序开发和部署

不是所有的NLP项目都有一个真正的建模阶段;有些基本上是从数据处理到应用程序开发。大规模的最新语言模型通常可以在NLU任务的现有状态下出色地执行,而无需进行任何特定任务的微调。微调可能会提高模型性能,但也可能在人力时间和计算资源方面付出很高的代价。因此,根据任务的性质,一旦收集和处理了数据,下一步很可能是应用程序开发。例如,在从大规模枪击事件的新闻报道中提取信息的项目中,我们不仅可以使用预先训练过的语言模型,甚至还可以使用开源api (Farm and Haystack)来提问,并从语料库中获得答案。由于时间和资源的限制,我们没有对模型进行优化,而是直接构建了一个简单的web界面(Streamlit和Flask是两个很好的开发选项),并将其部署到AWS上的Docker容器中,供多个团队使用。当汇总云供应商对联邦机构的信息请求的响应时,我们使用了开源的汇总工具,并专注于在这些工具之上构建用户友好的界面。

在文本分类任务的应用阶段,报告类别概率比报告预测类别更有用。不仅模型容易出错,而且人们对过度信任模型(即使是高性能模型)保持警惕也是正确的。向终端用户(在许多情况下,他们不是开发人员)报告某个观察结果是真实的、错误的、积极的、消极的、一个人、一个喷子等等,可能会引起不信任感,从而阻碍与工具的交互。这似乎是一个可能的风险,因为我们考虑的应用程序,将纳入我们的模型的军事准备基于指挥官的意见。通过聊天机器人(chatbot)报告模型结果时,可能会与部队指挥官进行更好的互动,比如“根据你的评论,你的部队很可能处于准备状态三级”,而不是说“根据你的评论,你的部队处于准备状态三级”。在多类别文本分类任务的情况下,报告概率甚至更为重要,因为对于任何给定的观察,概率可能不超过50%。

元观察

以下观察结果不属于上述数据科学步骤的任何一类,而是作为多种努力的广泛观察结果提供的。

在所有阶段都需要考虑隐私、安全性和许可问题。即使在收集并适当保护数据之后,数据处理(如单词嵌入)或建模(如语言模型)步骤的结果仍然可能包含必须保护的人名、其他PII或术语。我们有些惊讶地发现,即使是部队战备情况报告有时也包含人员名单。至于许可证,尽管许多工具是开源的,但数据通常不是,下载大量数据可能违反订阅条款或网站许可证。即使是开源工具,在用户必须遵守的条款上也各不相同,特别是当某些东西被分发给最终用户时。

对自然语言处理工具的潜在需求可能很高。NLP任务往往是产生额外分析输出的“上游”活动。例如,问答工具的设计是为了帮助我们自己的分析人员构建事件和嫌疑人的概要,分析人员需要知道案件中的具体事实,比如嫌疑人是否认识他的受害者或是否有之前的逮捕记录。一个对职位空缺进行分类的文本分类工具被用来评估各种技能的相对需求,这反过来又是另一项分析任务的输入。NLP工具可能有很高的潜在需求,在某种意义上,已经作为更大的任务或项目的一部分执行的活动可以通过使用NLP工具更快、更准确地完成,或在更大的规模上完成,但从事这些活动的人可能不知道可用的NLP工具,或没有能力使用它们。

算法可能从训练数据中“学习”不公平,但也可能提高潜在过程的公平性。我们都被教育要对机器学习算法做我们不希望他们做的事,但是在我们的分析中使用的语言评价的军官,(1)研究表明,促进系统基本上是公平的对种族和性别,(2)官员记录中的信息受到严格监管,并明确包含在评估绩效的目的中;(3)人类法官有自己的特点,可能因各种原因而犯错误。因此,在了解官员绩效的过程中使用校准良好的机器学习工具,并不一定会对人不公平,甚至可以增强系统的公平性。在这个项目中,我们推荐了一些额外的实现策略,以进一步减轻担忧,例如将随机性纳入标记记录的过程中,以进行手工审查。

过分关注战术层面会忽略更广阔的视角。在整个国防部,文本分析工作(通常是在使用社交媒体的信息环境中的大型行动中)通常限于个人层面:特定的消息或参与者。这当然很重要,特别是从部队保护的角度来看,但它也将NLP的努力限制在纯粹的战术层面。它忽略了整个操作和战略层面:整个话语、具有特定语言规范的言语社区、具有共同目的或说话方式的公共或倡导团体。除了考虑人际网络中的参与者之外,关注社区和元社区的网络也很重要。

NLP工具更擅长于确定语言是关于什么的,而不是如何使用它。现有的工具在实体提取、内容分析和文本分类方面相当出色。他们通常不善于察觉讽刺;识别复杂的情感,如后悔;或分析修辞模式或策略。在我们对可能是外国赞助的喷子的社交媒体活动的分析中,在预先训练过的语言模型上添加标签,表明该语言是如何被使用的,这提高了模型的表现和可解释性。

NLP问题在很大程度上被视为工程挑战,几乎没有理论空间。计算机科学(CS)方法倾向于CS-only解决方案,而NLP实践者有一定程度的“数据使理论变得无关”的信念。新兴语法理论将语言结构视为动态的和社会协商的新兴语言,为自然语言处理和文本挖掘工作提供了丰富的信息。至少在目前,好的理论仍然对NLP有贡献。来自CS背景的NLP从业者应该在跨学科团队中协作,并对有关方法组合、分析单元以及分析和检测范例的有用见解持开放态度。与此同时,领域专家需要更多地了解CS方法,并能够与CS NLP从业者进行富有成效的合作,而不是守卫地盘,并对机器和人机方法持开放态度。

原文pdf文档及百分点机器翻译文档已上传小编知识星球

长按识别下面的二维码可加入星球下载

里面已有近千篇资料可供下载

越早加入越便宜哦


文章来源: http://mp.weixin.qq.com/s?__biz=MzI2MTE0NTE3Mw==&mid=2651123626&idx=1&sn=a85c563e37e2d093fa3f5da9b5976c42&chksm=f1ae9890c6d9118677cad2b5153d38903c15be69c08f85ac547c56a1ae7ef9f722b1098c8a66#rd
如有侵权请联系:admin#unsafe.sh