论文阅读:Alignment-Enhanced Decoding:Defending via Token-Level Adaptive Refining of Probability Distributions
在本文中,我们提出了一种名为对齐增强解码(Alignment-Enhanced Decoding,简称AED)的新型防御措施,它采用自适应解码来解决越狱问题的根本原因。我们首先定义了竞争指数来量化对齐失败,并利用自我评估的反馈来计算对齐后的逻辑值。然后,AED自适应地结合竞争指数和对齐后的逻辑值与原始逻辑值,以获得无害且有益的分布。因此,我们的方法在保持有益性的同时增强了安全对齐。
原文地址:[2408.07663] Alignment-Enhanced Decoding:Defending via Token-Level Adaptive Refining of Probability Distributions (arxiv.org)
WHY (背景介绍)
越狱防御方法
扰乱越狱:对输入进行修改,扰乱技术通过修改原始输入的方式来破坏攻击的完整性,如提示工程
检测输入(二元分类):旨在检查并将输入分类为有害或安全内容,如基于困惑度的分类
对齐失败
当在有益性能和坚持无害原则之间需要平衡时,就会出现竞争目标。
这种竞争可能导致模型在面对越狱提示时优先考虑有益目标 ...
论文阅读:EEG-Defender : Defending against Jailbreak through Early Exit Generation of Large Language Models
尽管越狱提示可能产生与良性提示相似的输出logit,但在模型潜在空间中的初始嵌入倾向于与恶意提示的嵌入更为相似。利用这一发现,我们提出使用LLMs的早期Transformer输出作为检测恶意输入的手段,并立即终止生成。基于这一理念,我们引入了一个名为EEG-Defender的简单但重要的防御方法,用于LLMs。
原文地址2408.11308 (arxiv.org)
WHY解码防御的不足 目前基于解码的防御技术还不够充分。研究表明,现有的防御方法只能将针对越狱提示的攻击成功率(ASR)降低大约50%
LLM内不同层的作用
初始层专门用于触发特定任务。
中间层作为知识库,塑造输出的情感基调。
后续层是语言输出细化的地方。 关键假设
鉴于语言只影响我们的传递方式,而不是表达的语义
假设LLMs在初始层识别功能和中间层访问存储知识时,对越狱和有害提示的处理方式相似。可行性证明两个假设1. 越狱的机制是它们的嵌入在输出空间中从“有害”移向“良性”2. LLMs的浅层可以区分越狱提示越狱提示(黑点)良性提示(蓝点)有害提示(红点)
有害提示是直接请求有害或非法行为的提示。 ...
论文阅读:PARDEN, CanYouRepeat That? Defending against Jailbreaks via Repetition——通过重复来防御越狱攻击
对齐训练赋予了模型自我审查行为(“对不起,我不能这么做”),而自我分类方法将其转变为分类格式(“这个提示是否恶意”)。在这项工作中,我们提出了PARDEN,它通过简单地要求模型重复自己的输出来避免这种领域转移。PARDEN既不需要微调,也不需要对模型的白盒访问。
出处:ICML 2024(International Conference on Machine Learning)2405.07932 (arxiv.org)
WHY 背景引入(痛点是什么?已有什么技术?文章的缓解思路)
当前大模型的训练方法
step1:在广泛的文本语料库上的初始预训练步骤
step2:对齐程序
首先,保护用户免受潜在有害的LLM输出的影响;其次,减少恶意行为者利用的风险
1)教会模型遵循指令
2)保护模型不生成不良输出
输入会诱导LLMs产生不良输出,有些方法依赖于LLMs自身来发现这样的越狱(利用模型做输入输出检测)
“自回归陷阱”
LLMs一次生成一个token,而没有预见更远的未来会发生什么。结果,LLM可能开始响应“当然,让我帮你处理……”,并没有“意识到”遵守 ...
论文阅读:SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding——SafeDecoding通过安全意识解码防御越狱攻击
SafeDecoding是一种安全意识的解码策略,用于生成对用户查询有帮助且无害的响应。基于观察:尽管代表有害内容的标记的概率超过了代表无害响应的标记,安全声明仍然出现在按概率降序排列的顶级标记中。这使我们能够通过识别安全声明并增加它们的标记概率,同时减弱与越狱攻击目标一致的标记序列的概率,来减轻越狱攻击。
原文地址:2402.08983 (arxiv.org)
WHY:背景分析
背景现状
越狱攻击
经验性越狱攻击:提示工程,竞争目标和泛化不匹配。说服分类法越狱LLMs。解码设置的变更可越狱开源模型。基于ASCII的提示来越狱LLMs。LLMs多语言越狱的挑战。
基于优化的对抗性攻击:(1)基于梯度的方法使用梯度优化和生成对抗性输入;(2)基于遗传算法的方法利用变异和交叉来发现有效的越狱提示;(3)基于编辑的方法利用预训练的LLM来修改和增强对抗性提示,以颠覆对齐。
现有的防御措施(包括输入扰动、输入和输出检测以及提示演示)缺乏有效性,在推理时间上成本高昂,并且可能在为善意用户服务时影响LLMs的有用性。
基于检测的防御:内容过滤策略,包括关键词匹配和语义分 ...
论文阅读:Mitigating Large Language Model Hallucination with Faithful Finetuning——通过忠诚微调减轻大型语言模型幻觉
在这项工作中,我们引入了一种名为Faithful Finetuning(F2)的新颖方法,它通过在微调期间精心设计的损失函数显式地对忠实问答过程进行建模。
原文地址:[2406.11267] Mitigating Large Language Model Hallucination with Faithful Finetuning (arxiv.org)
背景(WHY?为什么需要这个技术?)
幻觉问题
是什么:幻觉(Hallucinations)是指语言模型在生成文本时出现的不真实、与事实不符的现象,即使文本在语法和语义上看起来是流畅和合理的。
分类
外源性幻觉:包含事实错误或不存在的实体
内源性幻觉:虽然事实正确但与任务无关
产生原因:幻觉可能由多种因素引起
模型对自身输出的过度依赖
为追求文本流畅性而牺牲准确性
模型训练阶段累积的知识所固有的不确定性。
减轻幻觉的策略:多关注于检测幻觉而非生成过程中的减轻
可以在不需要进行广泛的结构修改或全面重新训练模型的情况下,显著减轻幻觉。(Detecting and Mitigating Hallucina ...
论文阅读:A Pathway Towards Responsible AI Generated Content
摘要AI生成内容(AIGC)在过去几年里受到了极大的关注,内容形式包括图像、文本、音频、视频等。同时,AIGC也成了一把双刃剑,最近因其负责任的使用而受到大量批评。在本文中,我们集中讨论了可能阻碍AIGC在实践中健康发展和部署的8个主要问题,包括来自(1)隐私;(2)偏见、毒性、错误信息;(3)知识产权(IP);(4)鲁棒性;(5)开源和解释;(6)技术滥用;(7)同意、归属和补偿;(8)环境的风险。此外,我们还提供了应对这些风险的有希望的发展方向,以便在构建生成模型时更负责任地使用AIGC。
论文链接:[2303.01325] A Pathway Towards Responsible AI Generated Content (arxiv.org)
基于大模型地生成式AI广泛应用于各个领域,常见的AIGC类型有(1)文本到图像(OpenAI的DALL·E模型、Stable Diffusion)
(2)图像到图像(Diffusion Model)
(3)文本到视频(Runway、Make-A-Video、Imagen Video和Phenaki等模型)
(4)特定应用领 ...