【公益译文】应用于国防和国家安全的AI工程

阅读： 5

导读

卡内基•梅隆大学的软件工程研究所（SEI）是美国联邦政府资助的一家研发中心，牵头开发AI工程学科，助力美国国防部充分发挥AI在国防和国家安全方面的优势，为构建切合可行的可扩展且可信的AI系统奠定基础。SEI去年10月举办了首届国防和国家安全AI工程研讨会，并于2020年10月正式发布此次研讨会的成果报告。该研讨会的重点是理解和确立“AI工程化”这一新学科，特别是针对国防和国家安全的应用，小蜜蜂翻译组对报告全文进行了翻译，供业界学习参考。

在国防和国家安全领域，人工智能（AI）大有可为，未来可期。目前，美国已开发了多种AI系统，有些甚至已经开始部署。然而，很难对这些系统进行规范、构建、复制、验证和监控。为了保障构造、机器、程序和系统的安全可靠，有土木工程、机械工程、电力工程以及传统的软件工程，但对于AI，却还没有对应的工程学科，因而，AI的使用情况比较混乱，距离实现国防部提出的安全、可靠、有道德的使用和应用AI的愿景还很遥远。

为何要实现AI工程化？

1956年，约翰•麦卡锡（John McCarthy）将AI定义为“研制智能机器的一门科学和工程”。如今，AI涵盖现代机器学习、知识表示、推理、启发式搜索、规划等传统和未来的AI技术（例如，神经符号推理、强化学习和元学习）。迄今为止，大部分研发工作主要专注于构建AI能力，但在确保这些能力安全可靠利用的工程方面进展甚微。

AI系统的开发和部署可大量借鉴传统软件和系统工程。AI系统包括AI组件和传统软件组件，但在一些重要方面对传统软件和系统工程进行了扩展，而且带来了挑战。

目前，数据是现代机器学习技术的命脉，为很多传统AI技术提供基础支撑。在现代机器学习技术的应用过程中，数据、数据工程和数据管理在系统开发、部署、管理和演进过程中起重要作用。此外，是数据（而不是正式的或功能上的规范）决定了系统在使用机器学习时的行为。

尽管现代机器学习及其模型非常强大，但它们的透明性差、难以解析，存在概率性和典型的不确定性，并且引入了新的安全性和稳健性问题（例如，针对ML系统的对抗性攻击）。典型的软件工程工具和技术，例如静态分析、动态分析和逆向工程，不适用于机器学习算法创建的模型。同样，在由诸如深度学习之类的现代机器学习技术构建的模型中，很难对各种故障模式进行隔离或调试。

知识表示和推理是对AI深度学习等技术的补充。AI系统中的知识涵盖一系列有组织的规则、事实及关系，可用于推动推理或增强机器学习。知识能明确表达，有时透明，而且独立于AI系统中的推理机制。此外，我们可手动编写知识，还可从数据中汲取或从经验和观察中总结知识。

AI系统中的知识既有软件特征，又有数据特征。由于系统和系统使用的知识不断演进，所以，不管是哪种特征，在管理和维护方面都需要与时俱进，不断更新方法。这种复杂性带来了独特挑战。

最后，总的来说，AI技术通过完成本来需要人类完成的任务来提升人类能力。这些任务包括普通或常规任务以及在高压或紧急情况下作出复杂决策。

此外，AI的应用对某些系统部署场景可能至关重要。AI系统要求进行全面工程设计，以确保其使用安全可靠，符合道德规范，特别是用于国防和国家安全时。

研讨会目的

2019年10月下旬，SEI召开了有史以来首次国防和国家安全AI工程研讨会。此次研讨会吸引了国防和国家安全、各行业和学术界的思想领袖，为明确未来计划的挑战和机遇奠定了基础。该报告列明了建议重点关注的领域并介绍了广泛讨论的几个主题。

建议概述

研讨会确认，当前的主要需求是AI技术和系统工程流程、实践和工具，目前在这方面尚有差距。

此外，研讨会还明确指出，AI在国防和国家安全领域的应用带来了特殊的挑战和需求，这些挑战和需求远远超越了AI的典型商用。这并非意味着完全抛弃商用流程、实践和工具（实际上，我们可借鉴在AI的商用过程总结的很多教训和最佳实践），而是明确了国防和国家安全领域需特别关注的方面。为此，研讨会与会者达成共识，提出了以下建议：

为实现可靠的AI系统工程，国防部和相关组织应尽可能地把握机遇实现相关实践、工具和技术的构建、分享、演进和完善。

这一总体建议与国防创新委员会（DIB）在2019年11月发布的以下建议完全一致：“完善和发展AI工程领域。研究与工程副部长办公室（OUSD（R＆E））和服务实验室应通过利用国防部长期以来构建的良好工程实践为AI工程学科的改进和完善提供支持，鼓励AI研究人群广泛参与，为年轻人员提供相应机会，将AI纳入国防部的现有的安全措施和责任，最终将AI技术融入更大规模的复杂系统。”国防部于2020年2月采纳了DIB的建议，决定由联合人工智能中心（JAIC）牵头落实这些原则。

背景和环境

此次研讨会的重点是理解和确立AI工程化这一新学科，特别是针对国防和国家安全的应用。必须对“AI”和“工程”这两个术语的含义达成共识。这两个术语的定义多种多样，但都传达了重要信息。

就研讨会和本报告而言，我们使用《2018年国防部人工智能战略摘要》中给出的AI定义：“AI指机器执行通常需要人类智能才能完成的任务的能力，例如，辨别模式、吸取经验、得出结论，做出预测或采取行动（无论是数字形式还是作为自主物理系统背后的智能软件）。” 该研讨会就AI的以下方面达成了广泛共识：从设备和系统层面到数据管理和机器学习，再到知识表示、推理、规划和自主权。

玛丽•肖（Mary Shaw）对工程学的历史定义进行了分析，并将这些理念融入了工程学定义中：“运用科学知识创建事物服务人类，构建高性价比解决方案解决实际问题。”

与会者

研讨会的与会者包括以下组织和人员：

IBM研究院的彼得•桑塔纳姆（Peter•Santhanam）博士
谷歌
德鲁•康威（Drew•Conway）
海军的首席人工智能官布莱特•沃恩、海军部长（SECNAV）、海军作战司令部办公室（OPNAV）和海军研究实验室（ONR）
麻省理工学院林肯实验室，www.ll.mit.edu
国防高级研究计划局（DARPA）

初始需求和建议

研讨会主要围绕以下三个核心主题提出议题，展开讨论：稳健和安全的AI、可扩展的AI和以人为中心的AI。尽管这些主题可能会扩展或演进，但它们为AI工程学科提供了组织框架。下面总结了每个主题背后的主要理念并重点介绍研讨会上提及的国防和国家安全能力相关的一些特定需求。

AI的稳健性和安全性

现今，AI系统（大多数机器学习或深度学习系统）质量评估主要是衡量其准确性。准确性固然非常重要，但想要开发，采用和部署AI技术的社区应不仅仅只关注准确性。对于国防和国家安全方面的大部分AI应用来说尤其如此。这一观点在研讨会上引发了很多关于AI稳健性和安全性的对话。我们在这里所说的稳健性指AI系统在面临操作环境里的不确定性、创新或其他变化时仍能提供预期性能。

安全性是对稳健性的补充，意指免于危险或不受威胁，也就是说，安全的AI系统在面对特定威胁模型的危险时，可提供机制和缓解措施防御威胁而且具备恢复能力。显然，尽管安全性和稳健性的含义存在交叉，但研讨会参与者明确指出同时考虑这两种特性至关重要。最后一点，稳健性和安全性还包含很多其他相关特性，如可靠性、可信度和稳定性。

对于AI（尤其是机器学习）系统的稳健性和安全性来说，关注的核心是对抗性机器学习。在对抗性机器学习这个研究领域，研究人员设法了解如何攻击机器学习模型以及如何防御这些攻击（例如，DARPA GARD计划）。在这种情况下，攻击指攻击者以某种方式进行操控，进行欺骗或提取模型有关信息，从而损害隐私。

可通过以下两种方式对机器学习系统进行操控：1.训练时进行数据投毒；2.推理时引入精心制作的错误数据特征导致错误分类或欺骗。同样，可对部署的模型进行探测，提取训练数据相关的基本信息和详细信息。研讨会上围绕AI的稳健性和安全性展开的讨论当然涉及对抗性机器学习，但又不囿于此。

需求1：使用工具构筑稳健安全的AI系统

机器学习系统和AI系统出现的故障五花八门，而且攻击者可通过多种方式对这些系统发起攻击、进行欺骗或攻破。要在很多国防和国家安全应用中使用AI能力，必须在系统生命周期的早期解决稳健性和安全性问题。为避免系统故障或漏洞带来负面影响，必须在设计和开发时（远远早于部署或运营阶段）考虑稳健性和安全性。我们已在数十年的传统软件工程发展过程中总结了这些教训，在开发和部署新AI系统时仍然要牢记这些教训。

除了在AI系统生命周期的早期考虑稳健性和安全性之外，我们还需采用工具、技术和方法实现AI系统的稳健性和安全性。

稳健的机器学习是一个新兴领域，但由于整个机器学习领域发展快速，该稳健性进一步受到挑战。除了实现AI系统稳健性和安全性的总体方法，我们还需引入特定方法实现特定的学习、推理、计划等AI算法和技术的稳健性和安全性，从而更好地应对噪声、不确定性、创新和实际攻击者。

要构建更强大的AI系统，我们可对敏捷和DevOps方法进行相应地扩展、调整和改进，将其用于AI系统开发。这些方法提供了构建系统的现成基础，应对其进行扩展，利用机器学习的数据和训练模型，结合AI系统认证和核实以及AI系统行为持续监控，最终构建出AI系统。MLOps是一种持续扩展的新方法，可实现基于机器学习的系统的开发、部署和演进。从根本上说，迭代增量式开发概念（主要针对处于持续监控中的功能系统）可提供一种过程方法，逐渐提升AI系统的稳健性和安全性，其中也涉及后续的AI系统稳健性测试、监控和提升需求。

需求2：使用工具测试、监控和保障AI系统的稳健性

构建稳健、安全的系统很重要，同时也是一个伟大的目标，值得倾力而为。然而，在应用AI和机器学习这个不断变化的领域中，若指望系统开发人员实现完美的稳健性和安全性，则未免幼稚。在构建AI系统的稳健性和安全性时，即使采用了最佳实践，仍难以避免各种故障模式和攻击向量，导致意外和不良后果。如前所述，应开发、使用各种方法，在系统中“内置”稳健性和安全性，不断优化AI系统。此外，还要对系统的稳健性和安全性进行验证和持续监控。

在生命周期后期，需要使用工具来探知系统行为和功能。在AI系统生命周期的测试和验收阶段，除了正常的性能和精度测试外，稳健性和安全性测试机制也必不可少。对于具有AI和机器学习组件的系统来说，更为棘手的是持续监控这些系统，以了解它们在“现实世界”中的行为。这些系统的行为通常具有随意性或不确定性，可能会因为环境的变化、所观察数据的类型甚或敌方对数据、环境或系统的操控而莫名其妙地失效。

最后，除了测试和持续监控AI系统的性能、稳健性和安全性之外，还需要开发技术、模式和工具来缓解AI系统中的故障。有时，可能需要针对特定系统及其运行环境定制缓解策略，这种情况下，系统开发人员和运营商仍有通用模式和最佳实践可循。比如算法敏捷性，假设一个系统同时部署三个算法：当前运行的算法版本、先前稳定算法版本（以备不时之需）以及未来算法开发版本（用于实测和监控）。在此设置中，配置系统基于监控和其他环境感知功能切换算法。此外，还须开发其他策略、模式、技术和工具，确保AI系统的可靠部署和运行，实现快速、迭代、增量开发和部署流程，促进AI系统的持续优化。

需求3：共享AI“事件”

事件响应、安全更新过程和负责任漏洞披露和协调是全球软件生态系统的支柱功能。由响应、分析和协调等各种人员组成的网络有助于识别潜在问题（如漏洞）并协调对这些问题的响应以及对脆弱系统的修复。

随着AI技术和系统的广泛应用，协调与AI系统相关的事件、漏洞和缓解措施也需要类似的功能齐全和充满活力的基础设施和生态系统。然而，在实现这一愿景之前，必须解决一些系统性挑战。其中一大挑战是，AI技术开发和系统集成在很大程度上仍然是一种技术，开发人员和建模人员从大量可用的工具、框架和模型中进行选择，然后根据具体需要定制功能。为这些产品分配版本号并跟踪功能以及确定可能存在的特定问题或漏洞位置异常困难。还有一个挑战显而易见，即对于多数AI系统，“补丁”的概念含糊不清。例如，就某一深度神经网络，如何进行修补？是对权重进行增量更新，还是对原有完整模型进行重新训练，抑或使用其他训练算法？因此，必须同时制定并持续优化生态系统管理机制和协调流程。

可扩展AI

要成功应用AI技术，满足国防和国家安全领域的各种需求，AI技术必须具有可扩展性。但对于AI技术，可扩展有多方面含义。AI技术须根据任务需求的大小和这些任务的支持数据进行调整，根据任务和作战限制所要求的速度执行，能够处理和利用复杂的真实任务场景以及国防和国家安全应用的独特模式和情况。当然，在处理不同方面的可扩展性时—规模、速度、复杂性—AI技术和系统必须具有可构建、可部署、可用、可靠和可信等特性。

除了系统可扩展性问题外，国防和国家安全领域广泛采用AI技术，还带来了如下问题：企业级AI实现问题、低成本能力开发和获取问题、人力准备情况和能力建设挑战，以及有效开发、部署和应用AI技术的民主方法。这些问题必须逐一解决，找到方案，根据具体任务实现AI组件的系统扩展性。

需求4：对于国防应用的弹性监督（Scalable Oversight）

多数情况下，AI的国防和国家安全应用与商业应用之间的主要区别在于搜集、管理、生成足够数据的能力，有了这些能力，才能开发可靠的AI方案。在机器学习的多数商业应用中，互联网公司能够使用其数百万甚至数十亿用户的点击和其他交互模式来创建数据集，为预测、检测或推荐系统开发新版本。在多数国防和国家安全应用中，让数百万或数十亿用户通过与系统的定期交互来“标记”数据集无法实现或不具备可行性。即使是大型互联网公司也承认，对于机器学习系统进行所谓的“弹性监督”是一个重大挑战。

在国防和国家安全应用中，作战环境极其复杂，所使用的传感能力不仅复杂而且精密，使这一问题的难度进一步增大。针对这个问题，有几种解决方法。一种方法是创造性地利用国防和国家安全人力，鼓励在日常工作流中标记操作数据。假以时日，便可以创建非常有用的数据集，用于训练机器学习模型，甚至可以创建知识图谱，为推理等AI能力提供信息。第二种方法是开发方法和算法，以便使用少量数据就能开发系统功能（如小样本学习（Low-Shot Learning））。后者是机器学习人群的一个热门研究领域。还有一种方法对各种问题都有用，即开发和使用演习引擎或其他模拟器来创建数据、提供经验和观察结果，或支持对真实问题的代理环境进行探索。当然，不排除还有其他方法。到目前为止，最常见的方法是利用暴力方法（Brute Force Method）为特定任务或应用程序创建数据集。此方案对于单一应用程序来说效果较好，但成本极高，因为它不能扩展，无法支撑在业务和任务应用程序中广泛采用AI技术。

需求5：数据和模型管理与共享

弹性监督涉及创建数据，为AI和机器学习能力提供信息和驱动力。在这一领域，人们关注的问题包括对数据和模型的管理、复用和共享。扩大机器学习模型采用率的方法有多种，其中一种方法是迁移学习（Transfer Learning）。在迁移学习过程中，针对某一特定问题训练模型，然后用于另一问题（可能需要些微改动）。这项技术很强大，但是在国防和国家安全行业进行推广的话需要开发和制度化管理、跟踪、版本控制机制，甚至还需要分析复用和派生能力。数据和数据集也是如此，可以跨应用重新调整用途。最后，在AI的多项国防应用中，随着新能力从企业到边缘逐步集成到作战能力中，数据和模型管理须成为一项作战任务。

在数据和AI组件的可扩展复用中，还须关注系统集成模式（如应用编程接口[API]、信息需求等）、AI组件构成、共享或复用组件的更新机制以及合理复用中的元数据管理。在全部门范围内提早解决这些问题将极大地推动AI技术的成功应用和普及。这些工具和管理机制应在采用AI技术的早期就建立起来，并随着时间的推移不断迭代，促进AI技术在各种任务中广泛应用。

国防应用还要求在延迟/断网、网络连接不稳定、低带宽（DIL）等环境中部署AI能力。

需求6：可用、可扩展、自适应的AI计算基础设施

AI和机器学习技术商业应用的一个主要推动因素是现成可用的大规模计算能力。要在国防和国家安全领域开发、推广AI技术，离不开对计算资源的访问和使用。尽可能地利用可复用的共享计算基础设施，这样，组织、机构和团队才能更方便地实现AI能力，最大可能地控制实现AI能力的成本。至关重要的是，AI技术开发和部署团队应能获得和使用所需的计算能力，否则工作可能受阻，同时计算能力应得到妥善管理，进行负责任的共享。

此外，有些国防和国家安全应用有特殊的计算要求，如边缘计算能力。最可能的情况是，特殊计算约束条件要求在资源受限机器学习、联合机器学习（Federated Machine Learning）、边缘计算、知识表示和推理（Knowledge Representation and Reasoning）等AI领域进行定制，而研究和工程界目前在这些领域尚未充分行动起来。如果开发并合理配置了专门的计算架构和硬件，就可能获得计算优势，解决许多这样的挑战。

以人为中心的AI

本次研讨会的一个中心议题是营造文化，为实现AI做好准备。对文化的关注包括多个方面，如减少对AI技术的感知恐惧、了解AI技术的行为和功能、教育培训、道德和隐私以及增强（而非取代）人类能力。要创建这种文化，部署对应人力，还有一些更现实的考虑，如计算基础设施和工具的获取、数据准备和可用性、采购政策和实践中的可能变化、降低对不确定性的不安、提升风险承受能力等。

国防和国家安全组织要成功应用AI技术，必须围绕AI技术的理解、适应和采用考虑相关文化因素。某些情况下，技术概念和方案能够并有助于创造AI文化，将AI技术成功应用到业务和任务工作流和能力中。然而，这些文化因素不能单靠技术方案来解决，还需要同时使用组织和社会技术方案。

需求7：AI人力

我们需要对各种国防和国家安全工作人员进行广泛的培训教育，这会产生深远影响。采购和工程人员需要更透彻地了解如何申请（需求）和购买（采购）AI能力，包括在开发和运营阶段采用巧妙（或许还很新颖）的方法进行测试和评估（T&E）。需要注意的是，这种教育不止是工程和采购人员需要。

在领导层和管理层同样要进行AI教育，以确保对于AI能力的期望和未来承诺得到妥善管理和传达。当然，这并不需要深入了解AI技术或相关算法，但需要不断更新对当前AI技术的可能性及其必要限制的认识。

作战人群还须了解AI技术的潜能，知道它们能做什么、不能做什么。对各种类型的机器学习及其支持的能力类型（如决策、分类、预测等）如果能有一个基本的了解，将会大大提高这些技术在作战环境中的采用率和易用性。

除了教育和培养AI人力，还有一些组织原则可促进AI能力的开发、采用和部署。海军确立了“AI DevRon”概念，将采购专家和过渡伙伴纳入能力的整个生命周期。同样，陆军也开始使用“战术数据团队”的概念来获取和搜索近期作战需求。这些模型还需继续探索，持续优化，为国防和国家安全领域的其他活动提供数据支撑。

需求8：道德原则执行机制和框架

研讨会结束后不久，国防创新委员会（DIB）于2019年11月就AI使用道德发布了建议原则。2020年2月，JAIC和国防部正式采纳了DIB建议的AI道德原则。这些原则（负责、公平、可追踪、可靠、可管理）规定了AI方案开发、使用和操作道德的属性和要求。要推动原则落地，我们需要相应的工具、机制和框架，以便在AI的整个生命周期中贯彻落实这些原则。

需要注意的是，DIB提出上述五项建议原则时，同时也建议开发、优化AI工程学科。合理的AI工程学科应包括必要的工具和机制，确保AI技术的开发和使用合乎道德，可安全用于国防和国家安全。

需求9：仪器化、监控、证据生成和可解释性

为了支持道德原则的实施，AI系统须安装仪器，记录其行为和功能方面的遥测数据；须部署监测系统，捕捉和分析仪器产出的信息；还须开发分析和综合推理技术，支持证据生成，确保功能正常，帮助用户理解系统输出（如决策和决策理由）；最后，还要开发工具和技术，为AI系统的行为和输出提供不同层次的解释和说明。这些AI技术开发和运营工具并未得到充分重视，因为AI活动目前的重点是演示AI的某些特定用途。

当然，这些工具将不仅仅支持道德原则的实施，尽管这是此类工具的一大重要用途。此外，监控和解释工具将会支持测试评估、持续验证实践（例如，当系统性能因环境或其他原因而降低时进行检测），促进对人机协作的信任以及在业务和任务工作流中全面采用AI技术。最起码应在采用和部署AI技术时考虑使用这些工具。当然，最好是使用几个通用框架提供企业级工具和基础设施，在整个国防和国家安全部门推广、部署AI能力。

结语

随着国防和国家安全组织加大在AI解决方案方面的投资，AI工程将助力国防部实现其创建可行、可信、可扩展AI系统的愿景。根据本报告建立AI工程学科需要各领域专家的长期合作。在研究行业、学术界和国防研究人员、开发人员和实施者的活动时，我们要总结他们的经验教训并加以整合，以人为中心，开发出强大、安全、可扩展的AI系统。

原文链接：

https://resources.sei.cmu.edu/asset_files/SpecialReport/2020_003_001_648543.pdf

译者声明：

小蜜蜂翻译组公益译文项目，旨在分享国外先进网络安全理念、规划、框架、技术标准与实践，将网络安全战略性文档翻译为中文，为网络安全从业人员提供参考，促进国内安全组织在相关方面的思考和交流。