信号检测理论的应用作为一个增强性能的工具和评价的谍报技术
许多个体和组织对未来事件进行预测,或检测和识别当前状态。例如股票分析师、天气预报员、医生,当然还有情报分析师。这些预测的消费者需要知道预测的预期准确度以及预测和预测探测的信心。那些做出预测的人需要知道自己做得有多好,是否正在改善。在评价被认为能提高预测性能的新方法时,能够评估预测精度尤其重要。然而,在情报界(Intelligence Community)并非独一无二的问题中,记分卡是出了名的不愿保留记分卡的表现,或至少使这些记分卡公开。正如在Tetlock和Mellers中广泛讨论的,情报界(Intelligence Community)指令号203强调在评价情报界性能而不是准确性的过程问责制。本章提出了改进准确性评估的方法。
本章广泛依赖于评估医学预测和检测方面的最新进展,其中信号检测理论和更普遍的循证医学带来了许多进展。虽然医学判断任务并不完全类似于情报界分析,但是有相当强的相似性来使实例有用。正如医生常常必须根据有限的、有时相互冲突的信息来源进行快速评估,而从来没有两个病例是相同的,情报分析员也利用来自不同可信度的来源的部分信息来评估和描述不断变化的情况。
在医学和情报分析中,风险往往很高。加上时间压力,可以对作出预测和检测的人造成相当大的压力。如医学实例所示,使用本章所提议的方法对医生的判断和做法进行严格评估极大地改善了医学结果。将这些方法用于情报分析是合理的。
如果没有积分卡,以及对个人或组织所作许多预测的准确性的评估,对预测者业绩的判断可能基于一些壮观、新闻价值、非典型事件。这些事件更可能是失败的,而不是成功的预测。例如,本世纪对情报界的公开评估主要基于错过9/11恐怖袭击和错误地声称伊拉克拥有大规模毁灭性武器(WMD)。根据几个事件评估预报员的危险是显而易见的。许多日复一日的正确预测被忽视,特别是真正的否定(例如,没有入侵没有这些武器的其他国家,没有给予任何信誉)。此外,一些事件的事后分析也受到事后偏见问题的困扰。最后,或许也是最重要的,一些孤立的事件没有提供足够的数据来评估新方法(例如Intellipedia、A-Space、红细胞分析、设有国家情报局局长总办事处)是否提高了绩效。在情报界保持得分,可能比决策者和公众对他们的信用要好得多。
预测者不仅不愿保持得分,而且经常避免做出足够精确的预测,以允许得分。一个重要的例外是当代天气预报,它涉及,例如,预测的飓风径迹周围的降水和置信带的明确概率。相比之下,其他学科的许多预测过于模糊,无法支持记分法。在这方面,对过去几年未分类的国家情报估计(NIEs)的检查提供了一个有趣的案例研究。Heuer明确警告说:“不确定性的口头表达——例如‘可能’、‘可能’、‘不可能’、‘可能’、‘可能’、‘可能’、‘可能’、‘可能’、‘可能’和‘可能’——是一种主观的概率判断,但它们长期以来一直被认为是模糊和误解的根源……为了清楚地表达自己,分析人士必须学会用数值概率赔率比来表达不确定性。”Sherman Kent(1964年)也有类似的关切并得出结论:
诸如此类的话语和表达是我们的一部分,我们的交流习惯不能被菲亚特禁止。如果使用它们,我们必须在国家情报评估(NIEs)中,让我们尽量谨慎地使用它们,在它们最不可能掩盖我们主要估计段落的要点的地方。让我们正视这些关键估计。让我们准确地孤立和抓住需要估计的东西。让我们努力向读者表明,有关段落是至关重要的——直觉估计,我们称之为我们自己。让我们从几率和几率的角度讨论它,当我们做出最佳判断时,让我们给它分配一个wd或短语,它是从图表上五个大致可能性类别中选择的。
然而,近年来,所有的国家情报估计(NIEs)都有一个样板页,解释道,不使用可能意味着过精确的定量概率估计,而是使用一组概率词(“远程”、“不太可能”、“甚至机会”、“可能、可能”、“几乎肯定”)。图形沿着未编号的概率标度定位这些单词。在国家情报评估(NIEs)中的预测中,如果实际使用这些词语,将允许一些蔑视。然而,对过去几年未分类的国家情报评估1的搜索表明,这些词语的使用很少,更频繁地使用模糊词语,如“可能”,无法评估准确性。样板页上有一句话:“除了在判断中使用 wds 来传达可能性程度外,我们还根据支持我们判断的信息的范围和质量,将‘高’、‘温和’或‘低’置信水平归入。”同样,虽然将这类信心词与预测联系起来会促进轻蔑,但这个问题没有实际意义,因为“信心”一词在搜索一些最近的国家情报评估时没有出现。
本章提出信号检测理论作为保持得分的一种有效方法,在情报分析的背景下发展了一些实例,并描述了在气象预报、医学等其他学科取得的保持得分的好处。
信号检测理论
将信号检测作为在情报分析(特别是检测和诊断,更一般地说)中保持评分(评估预测质量)的方法既不新颖也不令人惊讶。理论是从行动分析发展而来的军用雷达探测飞机的问题。Tanner和Swets的这篇开创性的论文是基于美国陆军信号兵团资助的研究。Lusted(提供了信号检测的早期使用
“当然,概率词可能被用于机密的国家情报评估(NIE),甚至可能包括在这些统计中的未经编辑的国家情报评估(NIE)。本文报告的概率词计数仅基于未分类的国家情报估计。
放射学,证明其对评估放射科医生、经过非正式培训的助理以及放射检查系统的推定改进所具有的价值。放射学和医学诊断方面的许多研究依赖于信号检测概念。最近的几份国家研究理事会关于使用测谎仪进行测谎的报告和评估认知神经科学中识别心理状态和意图的新趋势都使用信号检测概念。
信号检测理论的基本概念
我简要回顾了信号检测理论的基本概念,并在情报分析的背景下加以说明。这并不意味着是信号检测概念的入门,而是关于如何将信号检测措施用于情报界(IC)内的计分方法的介绍和讨论。无论是否采用信号检测来进行评分,对概念的了解可以有效地改变如何对检测和预测的问题进行框架和讨论。Skin和一组同事(2001)和Skin以及另一组同事(2004)提供了群或团队决策的信号检测的极佳应用,其可能与情报界(IC)应用特别相关。
实质上,信号检测量化检测系统(无论是个人、个人团队、测试、过程或设备)区分信号(即,感兴趣事件)和噪声(即,不感兴趣背景事件)的能力。这种量化的最重要方面是将检测系统的真实准确度与系统(或个人)的响应偏差——谨慎和过早的倾向(假警报)与避免狼哭,从而避免预警(失误)分开。这些概念以及它们之间的重要权衡将在下文中详细讨论。
2x2世界观
表4-1描述了信号检测理论相当简单的2x2世界观。事实是,是否存在待检测的信号(例如,dictatX将于下个月被推翻,Y国拥有制造大规模毁灭性武器的材料,卫星照片上的图像是移动导弹发射器)还是存在噪声(例如,独裁者X将继续,Y国没有制造大规模毁灭性武器的材料,卫星照片上的图像是良性的)。学术讨论会a
信号检测理论的应用
表4-1信号检测理论的2x2世界观 | |||
信号 | 真相: 喧闹声 | ||
警报 | 击中 | 错误警报 | |
分析员说: | 安静 | 小姐 | 正确安静 |
信号意味着情报分析员需要提醒某人的“正在发生的事情”,而噪音意味着“没有发生什么”。分析员可以是crect,在真正有信号时发出警报(“命中”)或在真正没有信号时正确地保持安静。
请注意,上述例子似乎有两种类型:探测——探测和识别世界现有状态(例如,Y国确实有制造大规模毁灭性武器的材料)——和预测世界未来状态(例如,独裁者X将于下月被推翻)。与龙卷风相关的气象服务任务说明了两者。天气预报员估计在特定时间段内发生龙卷风的概率,气象观测员试图探测实际形成的龙卷风。只要最终知道预测的有效性,检测和预测之间的区别对于信号检测分析并不重要,不幸的是,该信号检测分析的名称更能反映其二战起源于飞机检测,而不是其目前更广泛的用途。
信号检测的简单2x2世界观强调存在两类误差——误报和误报。存在遗漏错误与佣金错误。如果没有一个完美的检测系统,分析员必须决定是否向错失的方向错误报警。
尽管分析师的决策者的回应是两重性的——警报没有——但证据的强度很可能是一个或多或少的连续等级的回应。分析师的固有问题是决定分级证据何时足够强大,足以发出警告。
命中和虚警率通常使用的检测性能的基本度量是命中率——当信号存在时正确警告的概率——以及当信号不存在时错误警告率。信号检测的医学研究经常报告灵敏度
(相当于命中率,在其他一些领域被称为召回率)和特异性(相当于一个虚警率)。这里使用更传统的命中率和虚警率,但是必须认识到,在不同领域中有时使用具有不同名称的类似措施。它们都是相互转化的,所以选择是方便的。
评估检测性能本文中的关键问题是如何使用命中率和虚警率来评估检测系统的性能,该系统是否是电子设备(例如,初步可信性评估筛选系统,或PCASS)、人类情报分析员或整个情报社区(IC)。如果系统只是猜测,我们希望命中率和虚警率相等,而准确率取决于系统的“警报”倾向。等价于猜测的性能由图4-1中的对角线表示,它描述了命中和虚警率之间的关系。系统比猜测命中率超过虚警率的程度更好。
图4-1命中率和虚警率之间的内在权衡。
在图4-1中用对角线上方的曲线描绘了中等好检测器的性能。
命中率和虚警率之间的关系受到与图4-1中所示的曲线相似的曲线的约束,这些曲线通常被称为ROC(用于“接收器行动特性”)曲线。当检测或分析人员在发出警报之前设置分级响应必须超过的阈值时,确定实际的命中和虚警率,即沿着曲线的点。一个保守的阈值——一个需要强显示的阈值——将产生相对少的错误警报,但因此也产生相对少的命中;这由图4-2中ROC曲线左下端的开圆表示。当人们担心错误警报比错误警报严重时,这种保守阈值将是适当的。如果不惜一切代价避免失误,那么一个宽松的阈值将是适当的,比如图4-2中ROC曲线右上端的黑圈。然而,注意,高命中率(相当于避免失误)是以高虚警率为代价的。中间的灰色圆圈
图4-2错误和错误警报的差分加权。
注意:下开圆表示对虚警的恐惧;上黑圆表示对失误的恐惧;中灰圆表示两种恐惧之间的平衡。
90沿着ROC曲线表示恐惧失误和错误警报成本的平衡。曲线上的标记点都不表示更好的更差的预测,而是简单地反映了对错误和错误警报成本的差异关注。因此,表征检测系统性能的不是实际命中和虚警率。相反,命中和虚警率d′=zm-zB<p和ROC曲线下面积(AUC)之间的标准化差异表示检测精度。图4-3描绘了ROC曲线,表示随着它们远离对角线而增加的可辨性。信号检测理论的imp的显著特征在于,它将检测系统的固有能力(由ROC曲线(AUC)下的d’或区域表示)与由错误和假警报的相对成本驱动的阈值分开。因此,ROC曲线(AUC)下的d′区域应该用于评估检测系统的性能大小,无论它们是电子设备还是情报分析人员。
实际命中和虚警率由用于将分级响应改变为动作的阈值来确定。
图4-3ROC曲线表示随着离对角线距离的增加而增加的检测性能。
许多实验已经表明,人类观察者响应于错失和假警报的相对成本的变化而改变其阈值。推测在情报社区(IC)中,一种广为人知的错误改变阈值响应偏差的方向,以减少这种错误的可能性,从而增加另一种错误的可能性,并非不合理。一个明显的例子是,9/11事件之后,不久就对伊拉克大规模毁灭性武器发出虚警。还有其他类似但不那么引人注目的例子。例如,1987年5月17日(伊朗-伊拉克战争期间),一架伊拉克战斗机向美国斯塔克号发射了两枚飞鱼反舰导弹。虽然观察到并跟踪了伊拉克飞机,但并不认为它具有敌意,因此发出了例行警告。美国斯塔克号上的雷达系统未能探测到两枚进来的导弹,造成37名水兵死亡,21人受伤。这是一个戏剧性的失误,很可能改变了波斯湾舰艇指挥官的反应偏见,错误地站在错误警报一边而不是失误。随后,在1988年7月3日,在机载报警控制系统(AWACS)帮助下,在该地区飞行的导弹巡洋舰文森斯(Vincennes)误以为一架从附近机场起飞的伊朗商用客机在同一机场地面上搭载了一架伊朗战斗机。文森斯号航空母舰击落了客机,造成机上290名平民死亡。这是一个严重的虚警。
在其他情况下强有力的实验证据显示,改变失误和错误警报的成本改变了响应偏差,从而改变了失误和错误警报的比率(例如,Healy和Kubovy,1978)。如果情报界(IC)作为一个整体和个别的分析师不改变他们的反应偏见,结果被广为宣传的错误和错误警报,将是令人惊讶的。重要的是,情报界(IC)的不同部分可能正在接收不同的反馈,并且因此在彼此不同的方向上改变它们的响应偏差。例如,恐怖主义分析家了解到(并在2009年圣诞节当天试图对跨大西洋航班进行轰炸后重新学习),避免为“失踪”某事负责,比制造许多错误警报,造成对夸大其词的系统偏见更为重要。情报界(IC)倾向于“最坏情况”分析,其军事起源可能会加强这一点,因为高估对手的能力比低估他们更好。另一方面,情报界被指控对一般问题发出警告,例如对大规模毁灭性武器的能力发出警告,从伊拉克NIE惨败中吸取了相反的教训,可能还不够靠病房打电话,以免他们再次被指控夸大证据出于政治原因歪曲事实和/或避免向政客提供很容易被推翻超出分析师预期的判决。
重要的是,上述讨论省略了诸如正确百分比作为检测性能的度量的简单度量的任何考虑。这是因为百分比正确不仅是命中率和虚警率的函数,而且是信号发生的基本率的函数。基本速率是在所检查的事件的总体中发生感兴趣事件的概率。例如,在评估例如前列腺癌的医学筛查测试时,基本率——预计被筛查的男子真正患有前列腺癌的比例——对于评估筛查测试的性能至关重要。不管检测的固有质量如何,极端基本速率可以对正确分类为信号或噪声的事件的百分比具有深远的影响。许多作者提供了他们最喜爱的忽略基本利率的非直觉后果的例子(例如,Heuer,1999,pp。157-160,根据情报问题改编一个例子;国家研究委员会,2008年,pp。(例如,Kahneman和Tversky,1973年;Bar-Hillel,1980年)。这里,是检测问题的示例,其示出了即使当命中率非常高并且虚警率非常低时基准率对百分比精度的实质性影响。
一家公司相信大约有2% 的员工是吸毒者。该公司进行筛选测试,以检测吸毒者。测试非常好,命中率为95% ,虚警率仅为5% 。随机选择用于筛选测试的Sara接收阳性测试结果。Sara实际上是吸毒者的概率是多少?
注意,具有这种精度的药物测试将代表检测器的非凡性能,在图4-3中由最极端(即,左上角)曲线表示。例如,F比较,诊断阑尾炎的医生或放射科医生阅读乳房X线照片的检测性能不如以前好。为了回答Sara的概率问题,考虑表4-2中对1,000名雇员进行筛选测试的预期频率。如果基准利率只有2% ,我们会
表4-2通过药物试验筛查的1,000人的预期结果 | |||
药 | 真相: 清洁清洁 | 共计 | |
“用户” | 19 | 49 | 68 |
药物试验: | |||
“清洁” | 1 | 931 | 932 |
共计 | 20 | 980 | 1000 |
预计1000人中只有20人真正成为吸毒者,测试将正确识别其中19人(95% 命中率)。其余的980名员工不是吸毒者,但测试将错误地将980名员工中的49名(5% 的错误警报率)确定为吸毒者。表中的数字直接来自给定的基本率(2% )、命中率(95% )和虚警率(5%)。现在考虑68名获得阳性药物测试结果的员工。在这68人中,只有1928% 是真正的吸毒者。尽管测试非常准确,但Sara(或其他任何具有阳性测试结果的人)真正成为吸毒者的概率仅为0.28。尽管测试非常精确,但低概率还是因为低基速率意味着测试被给予更多的机会(980对20)来进行虚警,而不是进行漏报。教训是,在检测低基速率事件时,即使是高度精确的检测器也会产生比命中更多的错误警报。
侦测对美国及其公民的敌对事件的重要情报界任务是侦测低基率事件。时报广场附近登机停车车辆的乘客中,只有一小部分是恐怖分子。这种检测系统对于恐怖分子的每一次准确检测必然会产生大量的假警报。信号检测模型可用于向情报界(IC)客户和决策者传达在低基速率检测情况下无数假警报的必然性。
信号检测理论的益处综述
如果要保持预测性能的评分,信号检测理论提供了一个理想的框架。其基本价值是分离基本速率的影响,检测的准确性,和避免误报或误报的切点偏差。在临床评估一章综述摘要中,McFall and Treat提供信号检测理论的益处的极好总结。人们可以阅读以下内容,用“情报评估”代替“临床评估”。
临床评估的目的是收集数据,使我们能够减少事件的概率的不确定性。这是一种与众所周知的增量有效性概念一致的贝叶斯评估观点。评估评估方法准确性的常规方法被选择切点、事件的基本比率以及评估目标(例如,数学预测与实际预测)所混淆。临床评估需要用于量化评估数据的信息值的通用度量,独立于切割点、基准速率、或特定应用。信号检测理论(SDT)提供这样的度量。
对适合于情报分析的最后两句的重写可以是:
“情报评估员需要有一个通用的尺度,以量化情报数据和输入的信息值,而不受用来将分级反应变为行动的门槛偏差、待侦测敌对事件的基数、以及目标是否要在特定情况下作出决定(例如,X国是否有生物武器储存?)是一般规则(例如,具有某些特征的所有航空公司乘客都要接受二次筛选的政策)。信号检测理论(SDT)提供这样的度量。”
使用信号检测理论来评价和比较个人、团队、系统、过程和其他因素的性能的一个重要好处是,除了典型分析师的日常活动之外,仅需要最少的、几乎微不足道的。对于分析员来说,唯一的额外wkload将是对正在分析的未来事件产生概率或分类预测。其他研究人员——不是工作分析员——随后可以在信号检测分析中评估这些预测的准确性。也就是说,信号检测方法不会立即改变分析师的工作方式。相反,y(SDT)的信号检测将被研究人员用于SIFT从分析人员已经使用的方法和程序或可能提出的新方法和程序中的小麦碎片中。
保持分数的好处
各种措施可用于个体分析员或更可能较大的工作组的性能。存在传统信号检测措施的许多可选的、通常是数学的变换。例如,O’Brien(2002)使用来自情报语境中的预测和文本检索文献的类似度量——总体精度、召回率和精度——来评估用于预测国家不稳定性的模式分类算法。医学研究经常使用密切相关的敏感性和特异性措施。
不管使用什么度量来保持预测准确度得分——甚至不太理想的百分比正确度量——在一些背景下的研究表明,仅仅将得分作为反馈来报告已经促进了改进性能,而无需任何其他干预。我们都似乎自我激励,以得分更好。一个有趣的例子是荷兰概率天气预报的早期研究(Murphy和Daan,1984年)。在第一年,预报员只是熟悉了进行概率预报的过程。第二年年初,预报员收到关于其业绩的反馈——他们往往预测过高。第二年年底,其准确度显著提高。Murphy and Daan(1984年)将业绩改善归因于“在实验第二年开始时向预报员提供的反馈以及预报员在计划第一年获得的概率预测经验”。尽管由于天气预报中的快速和可知的反馈,概率预报及其改进在情报预报中几乎肯定比在天气预报中更加困难,但情报界(IC)可能很好地研究概率天气预报的历史。这种预测曾经是罕见的(见Murphy1998年对早期历史的回顾)并且遭到抵制,但现在已经变得司空见惯,随着客户根据概率信息做出重要决定。
公共记分卡具有实质性好处的另一个背景是医院环境,医院感染可能发生。疾病控制中心于1970年开始采用自愿的全国医院感染监测(NNIS)系统,有20家医院。现在,有300多家医院参加(国家医院感染监测(NNIS)最近更名为国家保健安全网)。该系统的标志是“标准化定义、标准化的监测组件规程、计算感染率的风险分层,并为医院间和医院内比较提供国家基准感染率”。显然,感染率的公布促使医院改进和增加对成功干预的搜索,而成功干预则受到公布感染率变化的监测。1990年代,参加国家医院感染监测(NNIS)的医院的重症监护病房的血流感染率下降了31-43% 。国家医院感染监测(NNIS)系统的严谨定义、仔细监测,特别是保密性,可为情报界(IC)内的蔑视提供改善绩效的有用模型。
基于证据的实践
保持得分的另一个明显好处是对创新甚至现有方法的评价。向情报界(IC)提出的使用的许多方法尚未使用随机对照试验正式评估。例如,没有充分评估的情报分析技术包括替代性竞争假设,PCASS,甚至最近的通信创新,如Intellipedia和A-Space。科学文献中充斥着传统智慧的范例,这些范例通常基于观测数据和经科学评估证明是不真实的轶事。医学上充斥着医生坚信有效的药物和程序的实例,但是当用随机临床试验进行评价时,结果却并非如此。
实践者信念与实际事实之间不匹配的一个例子是许多学科中的传统智慧,即治疗实践必须适应接受治疗的个体的特殊特征。然而,在测试时,这种裁剪的好处很少得到支持。教育文学中有无数关于学习风格的文章,以及根据这些风格定制教材的重要性。然而,批判性评价和元分析发现很少的对适应学习风格没有好处。也就是说,同样的好的教育技巧对每个人都有好处,不管他们假定的学习风格如何。同样,对酗酒者的治疗被认为最适合于特定的患者特征。然而,由全国酗酒和酗酒研究所资助的多场所酒精治疗临床试验项目MATCH促进和检验这一假设,最终得出结论认为,针对客户属性的尾ing治疗几乎没有或没有益处。这些具体例子可能与情报分析没有直接关系,只是它们表明,多年经验形成的从业者的许多坚定信念往往得不到科学实验的证实。
实践者的信念与实际验证效果之间的频繁失配激发了大量关于循证实践的文献。2010年 1月,在谷歌搜索中引入“基于证据”一词,在医药、教育和警务等领域产生了大约 4810万页点击量。然而,迄今仅发现了少数基于证据的情报分析实例。同样,本章也不宜详细介绍基于证据的实践。相反,我通过类推,提出了在情报分析中评估手工业实践的方法。循证做法既不是灵丹妙药,也不易于实施,但其在其他领域应用的好处是巨大的。
一个有用的类比可能是扁桃体切除术的历史,因为它提出了许多类似于情报分析所面临的问题。格罗布说,切除扁桃体一旦成为一种简单的手术就变得很流行,因为它符合当代的疾病模式,并阻止了某些感染的复发。然而,与对照组相比,在扁桃体摘除后与其他疾病可能的增加没有比较。事实上,真正的随机临床试验将是困难的不道德的,因为真正的对照组会要求假手术。实施真正的随机对照试验,情报分析可能有类似的问题。直到无数扁桃体被切除后,临床试验才开始于1962年。扁桃体切除术的流行可能主要由医生的金钱自我利益驱动,这一假设被以下事实所驳斥:医生的孩子扁桃体切除率高于,高于其他儿童随着扁桃体切除的频率增加,顾客——小孩的父母——甚至要求切除扁桃体,一些人主张在所有儿童中预防性切除扁桃体。即使在医生们的热情减弱之后,父母仍然要求扁桃体切除术。只有逐渐的扁桃体切除术率下降,很长一段时间后,估计效益急剧下降。情报问题与扁桃体切除术史的类比是清醒的。基于证据的情报分析可能是困难的,随机试验几乎是不可能的(尽管模拟比赛可能是合理的替代品)。然而,扁桃体切除术的历史也表明,以证据为基础的实践是可能的,验证的方法最终取代了传统智慧。
总结
许多类似于情报分析的领域,即那些面对不确定性作出预测和诊断的领域,都受益于保持得分。保持得分本身似乎在没有任何具体干预的情况下激励业绩改善,大概是因为激励单位提高得分相对于同伴产生自己的干预。完全有理由期望在情报分析方面用蔑视来取得类似的好处。记分也是必须的,以便能够实施循证实践,以科学地评估现有和提出用于情报分析的分析技术。尽管许多可能的测量可以用作分数,但信号检测理论的测量似乎自然地适合于情报界(IC)面临的不确定性问题,这些问题涉及低基速率、对错误警报和失误的波动偏差以及检测器准确性。