如何利用ChatGPT生成一份AI安全报告 | FreeBuf咨询
2023-5-10 19:3:30 Author: FreeBuf(查看原文) 阅读量:16 收藏

4月26日,FreeBuf咨询发布了一篇名为“我们用ChatGPT写了一份AI安全报告”(点击阅读)的文章,很多读者留言希望我们可以分享是如何做到的,所以有了今天这篇文章。

本文将分享训练ChatGPT(最新GPT-4模型版本)并生成报告的全过程,并就ChatGPT使用过程中存在哪些常见的问题,如何使用ChatGPT来最大化提升学习、工作效率等问题进行探讨。

以下是AI安全报告生成全过程。

基础架构

选题

优质的选题能够帮助学术研究者快速确定报告的切入点,引导读者捕捉报告的主旨,使整个报告呈现更清晰的架构和逻辑。通过向ChatGPT介绍报告的背景或者提供关键词、概述,ChatGPT能够在几秒内生成选题,供研究者参考。

我们在提问时,可要求ChatGPT同时生成多个选题这在帮助学术研究者迅速筛选出最切合需求的标题的同时,也可指导研究者跳出思维定式,拓宽研究者的思路。

结合实际情况,我们需引导ChatGPT对生成的标题进行调整与优化,使最终报告的选题更加贴合实际需求、更有针对性。

值得一提的是,ChatGPT的语言能力可谓令人惊喜,“小红书风格”、“知乎体”统统不在话下。为提升报告的阅读效果和传播力,我们可对标题的措辞与语言风格进行要求。

若需在标题风格、措辞均与预期没有明显偏差的情况下,对标题进行进一步改进,也可向 ChatGPT直接发出“优化”指令。同样,在输入指令时,最快速有效的方式是命令ChatGPT一次性提供多个回答,以更迅速、广范围地定位结果。

创建大纲

在确定选题后,我们可以利用ChatGPT构建一份最基础的报告大纲,这极大程度上缩短了报告前期桌面调查、资料整理和筛选的过程,为后续研究提供基本的思路。

在此之前,我们首先要确保大纲的整体脉络与我们的预期基本相符,而不存在重大的离题、偏题等情况,从而节省后期纠错、调整、优化的时间成本。

为了实现这一结果,我们需要首先让ChatGPT生成一份报告摘要。

很显然,上述回答出现了"嘎然而止"的情况。根据官方,GPT-4的输入、输出上限在2.5万个字符,约等于2600个汉字。而我们的试验结果显示,中文汉字输入、输出内容通常在500-1000个字符内即达到上限。

好在,因字数限制而中断的回答可在引导下继续输出结果。进行这一操作时需注意评估此前生成内容中断的位置,以大致判断遗漏内容所占比例,若中断位置接近尾声,将有较高的成功率使模型继续回答。

摘要内容主要以帮助我们框定报告整体站位、明确报告大纲范围为目的,针对摘要中可能出现的用词不当、逻辑性、段落联结性等问题,我们在此阶段无需过多关注。

由于这一步骤处在报告创建的最早期,具体内容通常与最终生成的报告结果存在较大的出入,摘要中的文字内容将不会被我们直接沿用于报告中。因此我们只需检查摘要的侧重与涉及范围,经过增减与修改后即可生成报告大纲。

可以见得,ChatGPT生成的大纲乍一看已具备基本的结构与逻辑性,但对于深层次的逻辑关系处理能力仍然十分有限。

例如,第六章节的标题"提升AI安全意识与教育"属于发展建议的一部分,与第七章"结论与建议"属于包含而非并列关系。又如第五部分"AI风险的治理与监管"部分下的四个小标题均聚焦于针对AI风险治理的建议,且建议结果存在内容空泛、缺乏实操性的缺点,而未涵盖有关AI监管现状及发展的任何内容。

因此我们需要对大纲的结构、整体逻辑性、观点合理性进行详细的检查,同时结合报告自身需求对大纲内容进行增减与调整。

跳脱“直觉思维”是此过程的核心,ChatGPT模型与人脑构造最本质的差距在于,对非线性情景的处理能力与基于直觉的判断力。认清这点后,我们需将问题描述设置的尽可能详细、具体、逻辑清晰,可借助分点式的描述风格便于ChatGPT更准确地理解需求。

以上生成结果同时反映了ChatGPT具备的能力与存在的局限。一方面ChatGPT准确理解了“第六章融入第七章”、“第五章调整报告框架”、“引言的切入点”等指令并作出响应。另一方面,ChatGPT响应内容相对机械化,对常识、直觉性知识的认知水平也非常有限。

以“将第六章融入至第七章”的指令为例,ChatGPT机械地将原先第六章下的小标题直接挪用至第7章(5、6、7点)。很显然, 5、6、7点均属于"提升AI安全意识与教育"的一个部分,与其他几项建议内容无法直接构成并列关系,造成大纲结构的明显失衡。又例如针对第五章框架修改的指令,ChatGPT直接对输入指令进行了原封不动的照搬。

我们引导ChatGPT对以上问题进行逐个优化,例如要求ChatGPT将第六章节的三个标题融合为一个点:

再一次,ChatGPT虽正确理解了指令内容,其执行操作仅仅是机械地将5、6、7标题内容合并在一个长句子中,此形式的标题几乎不可能出自人类研究者的手中,这是源于人类研究者几乎无需思考便能对报告标题的格式有一个基本的预设(简练、重点明确、概括性强等),而此类常识性的认知正是ChatGPT所不具备的。

训练进行到这一步,我们不难得出一个大致结论:不要忽视对ChatGPT交代那些人类思维习惯中已成为常识、先验性的知识背景,不要预设ChatGPT能够生成任何指令以外的内容,尽可能具体地描述输出要求。

根据上述经验总结,我们再次尝试训练ChatGPT,对此部分标题进行优化,限定了第六章第5点标题的篇幅,并列出具体的参考标准(与1、2、3、4点标题的篇幅一致),终于得到了相对满意的结果。

正文攥写

报告正文攥写是一项层层剥离、抽丝剥茧的工作。概括而言,训练的方法与顺序需遵循以下基本原则:先确认大章节方向、再确认小章节方向、最后优化小章节内容。

为尽可能缩短后期修正、返工的时间成本,我们需要首先确保每一章节生成的内容与预期不存在重大偏离,并根据ChatGPT回答内容对每一章节的框架脉络进行调整。

以第三章节内容为例,我们首先要求ChatGPT对即将生成的内容进行描述。

初看ChatGPT的回答思路并不存在明显问题,且具备一定的条理性。仔细阅读生成结果即暴露出一个ChatGPT的常见缺陷:点与点之间的内容互相割裂,甚至出现交叉重合的情况。

例如,针对深度学习所存在的风险,ChatGPT给出的回答是“过拟合”、“对抗样本攻击”,而对于自然语言处理技术所存在的风险,ChatGPT的答案则包括了“模型泄露敏感信息”。

这些风险均属于不同AI技术所面临的共通性威胁,若按照以上思路生成报告,此章节每一针对特定AI技术领域风险的描述中,均将包含大量AI技术的通用性风险,造成报告结构的混乱与内容的重合。

我们针对上述问题对第三章框架进行调整,要求ChatGPT描述三大核心AI技术领域存在的网络安全风险中的共性与差异。

收到指令的ChatGPT顺利对“共性风险”与“特有风险”部分进行了区分。

前期一切准备工作就绪,即可进行最核心、最费时的环节——报告正文内容的攥写。

不难看出,此阶段的输出结果更像是一份大纲,后续环节涉及小标题的筛选与确认,以及具体内容的延展与调整。

快速扩充内容最省时的做法是,直接要求ChatGPT对生成内容进行补充,可利用“扩充”、“延伸”、“具体说明”等关键词,并限定扩充篇幅。

以上便是最粗略的报告生成步骤,此后的工作重点主要集中在最为漫长琐碎的结果纠错、内容调整与优化环节,注意遵从先核实信息真实性与准确性、再完善结构与内容的基本原则。

虚心认错,屡教不改

上述基础架构的搭建看似并不复杂,如果认为输入简单的指令就万事大吉,可高枕无忧地将报告攥写的重任完全交由ChatGPT完成,就大错特错了。

实际上,在ChatGPT具体内容生成的过程中,可能出现的问题层出不穷。最典型的例子当属被广泛诟病的"一本正经地胡说八道"、"编造文献"等直接造假行为。

这一问题在我们攥写第五章节"AI风险的治理与监管"这类以严格的法律、政策文件为依据的内容时尤为明显。我们在训练过程中遇到的错误类型五花八门:编写不存在的政策文件名称、编写不实政策颁布机构、编写错误的政策颁布年限、颁布不存在的政府行为等。

例如在美国部分政策内容的训练过程中,ChatGPT在最初短短的4点回答中就犯下一个明显错误:编造美国政府成立AI政策办公室的不实政府行为。

我们对生成结果提出改进建议,其中包括询问"美国政府成立AI政策办公室"这一不实信息的成立机构。

令人遗憾的是,ChatGPT非但没有认知到回答结果的错误,反而将错就错,根据问题继续编造生成内容。

再比如,以下回答可谓是AI生成错误内容的大合集。短短的4个问题中即包括了3个重大错误,最荒谬的错误当属直接对《NISTIR 8272:相互依赖的网络供应链风险的影响分析工具》,一份关于网络供应链风险分析,完全无关AI安全的文件进行移花接木,为编号为NISTIR 8272的文件安上了不存在的名称《NISTIR 8272:人工智能风险管理框架》。

而四点回答中唯一正确的回答竟是承认上一问生成内容所产生的错误。可见,虽ChatGPT的认错态度良好,但秉持屡教不改的执行原则,ChatGPT对严肃的政府行为、政策制度、文献等内容的输出结果准确性非常低,用户需对生成内容进行仔细的审核与校对。

下图是另一个极具代表性的错误示例,左图为ChatGPT生成的有关欧盟发布的AI安全监管政策的梳理,很明显,左图内容主要围绕“AI”而非“AI安全”展开。

我们对以上问题发出"修改侧重"的指令,如右图。很显然,ChatGPT修改后的回答并没有按照设想那样,对欧盟政府侧重于“AI安全”的文件进行重新整理。

相反,ChatGPT照搬了原回答中所涉及的所有文件名称与政府行为,并直接替换了文件的主旨与目标,包括:将《人工智能的欧洲战略》的目标从“加强AI研究......”替换为“加强AI安全研究......”,将欧盟成立ELLIS的目的从“推动AI研究”替换为“推动AI安全研究”等。

这暴露出ChatGPT又一个致命问题:ChatGPT可能会为了使得生成结果看似契合问题需求,而对信息进行直接篡改。

局限与建议

除以上事实性错误,在内容审核与校对的过程中,我们需重点检查段落与段落之间是否存在交叉重合的情况。以4.1小章节数据投毒为例,数据投毒的基本概念在引言部分与4.1.1部分被同时提及。

顺着以上例子,我们对ChatGPT的运作规律作出大胆的推测:即ChatGPT生成的回答由分散的小任务拼接而成的,这些任务之间相对独立,欠缺逻辑联结性。

若将数据投毒的引言部分视为一个小的生成任务,ChatGPT的输出结果已符合一个合格引言的基本标准:(阐述数据投毒概念——介绍后文内容)。同样,若将4.1.1部分视为一个小的生成任务,其输出结果也不存在明显的差错。

当我们明确向ChatGPT指出内容重合的情况时,ChatGPT很快理解了修改指令并重新完成作答,如下图。

显然,ChatGPT具备“识别重合内容”的能力,其缺乏的是“段落之间不应存在大量重合内容”的认知。由此可见,人脑网格化的关联分析能力,正是AI最难效仿与取代的部分。

有趣的是,当ChatGPT将4.1.1的内容合并入引言部分时,并未对其余编号进行相应调整,而当我们指出ChatGPT所存在的问题时,模型有效发现了错误并准确完成了编号修改。

这类编号错误并不影响我们对于ChatGPT的实际使用,但可作为一个很好的示例印证我们关于ChatGPT分散式任务拼接机制的假设。

我们也尝试引导模型对段落的联结性进行增强,得到了以“在XXX后,企业需关注XXX”为格式的反馈结果。显然,这种机械化增添先后顺序的模式,并无法真正反映段落间的实质联系。

到此,我们对ChatGPT所存在的局限性与能力上限形成了一个大致的预期。要而言之,ChatGPT可大批量对现象、事实、观点等进行迅速汇总,也已具备一定的逻辑判断能力。

然而,由于ChatGPT的逻辑判断依据主要依托语言统计学,而非认知能力,导致其常常出现逻辑错误、结构混乱,甚至因果倒置等情况,更无法真正挖掘信息之间深层次、本源性的联系。

人脑则负责对ChatGPT提供的基础信息进行准确性审核、共性归纳、趋势总结等更高阶的分析与概括。

明确了人类与ChatGPT的角色分工,也就不难得出最大化利用ChatGPT优化生成报告、优化报告内容,进而赋能工作的方法:利用人脑构造一条达成目标所必要的信息需求链,并尽可能抛开直觉,具象化地对链上的信息需求进行描述。

以报告4.1.1为例,我们在要求报告对数据投毒内容进行具体说明时,通过追问成因、要求ChatGPT举例说明等具象化描述,框定了信息需求方向。

FreeBuf咨询总结

总的来说,ChatGPT向我们交出了一份令人满意的答卷,尽管训练过程面临诸多难点与不确定性,ChatGPT对于指令的理解力与执行力令人惊喜。

FreeBuf咨询认为,ChatGPT可作为课题分析、学术研究的起点, 向人类提供达成目标所需要的汇总信息。通过庞大的训练数据库,为学术研究者快速确定报告的切入点,极大程度上缩短了报告前期桌面调查、资料整理和筛选的过程,为后续研究工作提供参考思路。

然而,ChatGPT存在的局限性与能力上限也十分明显。由于ChatGPT的输出内容主要基于上下文词语的统计分布,而非严谨的事实,ChatGPT生成结果的真实性往往无法得到保证,甚至常常出现逻辑错误、结构混乱,因果倒置等情况。

此外,由于缺乏非线性的关联分析能力,ChatGPT无法真正挖掘段落间的实质联系,这使其与人脑之间存在着一道无法逾越的鸿沟。准确性审核、共性归纳、趋势总结等更高阶的分析行为,仍然需要人类力量来执行。

FreeBuf咨询集结安全行业经验丰富的安全专家和分析师,常年对网络安全技术、行业动态保持追踪,洞悉安全行业现状和趋势,呈现最专业的研究与咨询服务,主要输出四个种类的咨询报告:行业研究报告、能力评估报告、产品研究报告以及甲方定制化报告。

FreeBuf咨询自成立以来, 已积累了500+ 甲方安全智库资源,为行业研究报告、企业咨询服务提供指导。访谈上百位行业大咖,为业界输出真实、丰富的安全管理价值与实践经验,具备超过80万+ 精准用户,直接触达CSO、企业安全专家、投资人等专业人群。

如有疑问,请联系 FreeBuf 咨询 陈珣之:

电话:18621018976

邮箱:[email protected]

精彩推荐


文章来源: http://mp.weixin.qq.com/s?__biz=MjM5NjA0NjgyMA==&mid=2651224219&idx=1&sn=e2d660d63cf65bf53840a93c50c82144&chksm=bd1dea108a6a630652a1df753117159f78bb6b301d0b30e943ca131de3268212a2c9bfecdd54#rd
如有侵权请联系:admin#unsafe.sh