摘要
文本到图像模型常常遭受一种称为“分而治之攻击”(DACA)的逐步攻击,该攻击通过大型语言模型将敏感文本包装在看似无害的叙述中,以隐藏不当内容。为了有效抵御这种逐步DACA攻击,我们提出了一种包含两个阶段的方法:首先是文本摘要,随后进行二元分类。我们构建了一个名为对抗性文本到图像提示(ATTIP)的数据集,包含940个样本,涵盖了经过DACA掩盖和未掩盖的提示。利用ATTIP数据集,我们生成了两个版本的摘要——一个由小型编码器模型生成,另一个由大型语言模型生成。接着,我们运用编码器分类器和GPT-4o分类器对这些经过摘要处理和未经摘要处理的提示进行了内容审核。与仅处理未摘要数据的分类器相比,我们的方案将F1分数的性能提升了31%。值得一提的是,编码器分类器在处理摘要化的ATTIP变体时,达到了最高的F1分数,即98%。这项研究证实,通过预先进行文本摘要的分类,可以有效保护内容检测模型不受逐步DACA掩盖的干扰。
1 引言
2 相关工作
此外,以往的研究还探讨了中和各种对抗性图像生成方法的技术。Yang等人(2024年)引入了GuardT2I框架,该框架利用LLM将文本到图像提示中的文本嵌入转换为自然语言,以确保生成图像的完整性。Wu等人(2024年)提出的用于安全文本到图像生成的通用提示优化器框架,使用LLM在图像生成前处理有毒提示,显著降低了不当图像的生成概率。Schramowski等人(2023年)提出了一种稳定的潜在扩散层方法,作为一种无分类器的解决方案,用于抑制生成图像中的不适当内容。
3 提示掩盖数据集
在这些适当提示中,随机抽取的50%(n=450)未作更改,保持未掩盖状态。所有不适当提示(n=100)和剩余的适当提示(n=450)被选为使用GPT-3.5 Turbo(OpenAI,2022年)进行LLM驱动的DACA掩盖。在550个掩盖提示中,有58个(占11%)失败并从数据集中排除。当模型将输入提示标记为过于敏感或无法将输入提示适配到DACA分割模板时,这些提示被标记为失败。此外,还特别选取了一个掩盖的不适当提示和一个掩盖的适当提示作为保留集,用作LLM驱动的文本摘要的上下文学习示例(附录A,表3)。
最终形成的数据库包括450个未掩盖和490个掩盖的提示,并被指定为对抗性文本到图像提示(ATTIP)数据集(N=940)。在这个阶段,ATTIP基线数据集被分配了50%-25%-25%的训练(n=470)、测试(n=235)和验证(n=235)分割,掩盖提示在每个集合中均匀分布。
4 方法
为了消除提示中的掩盖,我们采用了直接文本摘要的方法。我们选择了两种摘要技术来提取提示中的核心信息:
编码器摘要器:使用了philschmid/bart-large-cnn-samsum(philschmid,2022年),这是Facebook的BART变换模型的一个变种(Lewis等人,2019年),并在Samsung的SAMSum数据集(N=16,369)上进行了微调(Gliwa等人,2019年)。
GPT-4o摘要器:这是OpenAI(2024年)发布的最新旗舰模型,它接收了来自保留集的两个上下文学习示例,并被指导以一种风格摘要掩盖提示,使得结果摘要能够反映出提示在被掩盖之前的原始形态。
我们在完整的ATTIP基线数据集上部署了这两种摘要器,生成了940个编码器摘要和940个GPT-4o摘要。
我们对抗DACA掩盖问题的解决方案的第二部分是二元分类。我们选择了两种内容检测方法:
编码器分类器:采用了michellejie-li/inappropriate_text_classifier(Li,2022年),这是一个在综合滥用检测数据集的19,604个样本子集上训练的DistillBERT版本(Song等人,2021年)。
GPT-4o分类器:这是OpenAI(2024年)发布的最新旗舰模型。
编码器分类器在与预定义的训练集(N=470)相关的编码器和GPT-4o摘要上进行了训练,而GPT-4o则被提供了两个上下文学习示例:一个真实适当的和一个真实不适当的。此外,编码器分类器和GPT-4o分类器都利用ATTIP基线数据集的原始、未摘要提示进行了调整。我们使用指定的测试集为两个模型计算了不适当类别的精确度、召回率和F1分数以及整体准确性,并进行了错误分析(附录A.1)。
我们使用局部可解释模型无关解释(LIME)来评估编码器分类器的性能。从ATTIP基线数据集的测试子集(n=235)和相应的编码器和GPT-4o摘要中,我们随机抽取了10%的样本。
两名人类注释者根据详细的代码簿(附录A.2)独立评估了生成的LIME图的解释。基于每个图中排名最高的十个词,注释者为每个解释分配了差、一般和高质量的评级。一致性达到了89%,Cohen's Kappa值为0.82(SE=0.06,95% CI=[0.70, 0.94])。对于编码器不一致性的问题,我们进行了讨论和调和。
5 结果
表1展示了编码器分类器在处理基线掩盖文本、编码器摘要和GPT-4o摘要时的准确性、精确度、召回率以及F1分数。特别地,F1分数显著提升,从使用原始掩盖文本训练时的94%增长至采用我们的编码器摘要方法训练时的98%。
表2呈现了平行实验的结果,该实验涉及使用GPT-4o模型进行相同的不适当提示分类任务。在这一实验中,实现的最高F1分数为81%,这是在使用GPT-4o摘要方法时获得的,而这一分数低于编码器分类器在处理GPT-4o摘要文本时的F1分数,后者达到了94%。
提示数据源 | 准确性(A) | 精确度(P) | 召回率(R) | F1分数(F1) |
---|---|---|---|---|
ATTIP基线数据集 | 0.99 | 0.96 | 0.92 | 0.94 |
编码器摘要器 | 1.00 | 0.96 | 1.00 | 0.98 |
GPT-4o摘要器 | 0.94 | 0.89 | 1.00 | 0.94 |
提示数据源 | 准确性(A) | 精确度(P) | 召回率(R) | F1分数(F1) |
---|---|---|---|---|
ATTIP基线数据集 | 0.80 | 0.33 | 0.96 | 0.49 |
编码器摘要器 | 0.96 | 0.82 | 0.75 | 0.78 |
GPT-4o摘要器 | 0.96 | 0.83 | 0.79 | 0.81 |
如图2所示,ATTIP基线数据集的解释中,差质量标签占据了最大比例,达到47.37%。而编码器摘要的解释与一般质量标签关联最为密切,占比39.47%。GPT-4o摘要的解释则获得了最高比例的高质量标签,为40.00%。这些发现表明,对摘要提示进行分类不仅提升了性能,同时也提高了解释的质量。为了进一步阐释掩盖如何影响模型的可解释性,我们在附录A中提供了四个来自验证集数据的LIME图示例。
6 讨论
7 结论
8 限制
9 伦理考虑