论文阅读:A Pathway Towards Responsible AI Generated Content
摘要
AI生成内容(AIGC)在过去几年里受到了极大的关注,内容形式包括图像、文本、音频、视频等。同时,AIGC也成了一把双刃剑,最近因其负责任的使用而受到大量批评。在本文中,我们集中讨论了可能阻碍AIGC在实践中健康发展和部署的8个主要问题,包括来自(1)隐私;(2)偏见、毒性、错误信息;(3)知识产权(IP);(4)鲁棒性;(5)开源和解释;(6)技术滥用;(7)同意、归属和补偿;(8)环境的风险。此外,我们还提供了应对这些风险的有希望的发展方向,以便在构建生成模型时更负责任地使用AIGC。
论文链接:[2303.01325] A Pathway Towards Responsible AI Generated Content (arxiv.org)
基于大模型地生成式AI广泛应用于各个领域,常见的AIGC类型有
(1)文本到图像(OpenAI的DALL·E模型、Stable Diffusion)
(2)图像到图像(Diffusion Model)
(3)文本到视频(Runway、Make-A-Video、Imagen Video和Phenaki等模型)
(4)特定应用领域:Stable Diffusion可应用于多个特殊领域,如医学成像、音乐生成
(5)文本生成:当前比较流行的领域
由AIGC引起的部分争端包括:
(1)AIGC是独特的创意作品还是训练集内容的简单复制?
(2)AIG模型拥有记忆能力,存在直接从训练数据复制数据的风险,可能涉及侵犯隐私权。
(3)模型依赖于基于互联网的大量数据进行训练,可能具有刻板印象、偏见,会产生错误的信息。
以下具体分析AIGC在实践中的8个主要问题:
(1)隐私问题
产生原因:
- 在基础模型中,攻击者可以从训练模型中生成序列,找到模型记忆的数据集中的内容。
- 研究表明,如果一个序列在训练数据中多次出现,它被生成的可能性比只出现一次的序列要大。这表明,在对隐私敏感的应用中,去重可以作为一种可能的对策。
- 在生成模型中,训练数据是从网络上抓取的,会涉及过拟合和隐私泄露问题。如,部分生成图像AI记忆训练集内容,生成内容只是训练集中对象和背景结合。
- 文本生成AI会输出与训练集同语义的内容。图像反刍现象也是由于数据集中的图像被多次复制所致。
当前措施:
- 支持用户查验图片是否进入训练集,在训练中去重以减少数据的复制,预防隐私泄露。
- 禁止向模型共享敏感数据。
- 利用差分隐私扩散模型、联邦学习技术来保护隐私
待解决问题:
- 探索在生成模型中复制数据的更可靠检测系统,以及进一步研究当前和未来AIGC模型中的记忆和泛化。
- 设计评估标准,用于生成图像的隐私评估。
(2)偏见、有害、错误信息
产生原因:
- 数据集中包含与社会刻板印象、色情物理、种族主义诽谤和暴力相关的内容,经过过滤的数据仍然会包含部分,这可能会被用于生成不良内容。
- 在有问题的数据集上训练、学习或微调的模型可能会继承这些不良信息。
- 当 AIGC 模型还存在提供错误信息的风险,会在在学校,法律、医疗领域,天气预报等方面产生误导。
- AI幻觉问题产生的原因有训练数据不足、过时或质量低下、过拟合、使用成语或俚语表达、敌意攻击。
当前措施:
- 不仅要对数据源进行过滤,还需要在数据使用、训练的整个生命周期中评估偏见和有害内容。
- 为解决幻觉问题可以限制可能的结果、为模型创建一个数据模板以供遵循、给AI一个特定的角色,并告诉它不要撒谎、 告诉它你想要什么和不想要什么、尝试控制模型结果随机性的“温度”、定期更新AIGC模型使用的训练语料库。
待解决问题:如何定义一个真正公平且无害的数据集。
(3)IP保护问题
产生原因:
- 对数据收集、使用、权利确认和数据商业使用的规定不明确
- 需要为缴费者建立公平的利益分配机制
- 世界范围内对AIGC版权缺乏统一的法律理解,权属纠纷仍未解决
- 难以识别用于训练AIGC模型的所有原始作品。
解决方法:
- 创作者可选择是否将自己的作品移出数据集,开发用于辅助鉴别AI生成内容的产品。
- 生成内容水印。
(4)鲁棒性
产生原因:
- 大型基础模型在训练时被植入后门,这会导致在特定触发条件下产生恶意输出。
- 其次,“越狱攻击”通过精心设计的提示绕过伦理防护,使模型产生不当响应。
解决方法:研究者提出了自我提醒技术,该技术可以在不重新训练的情况下有效防御。
(5)开源和解释
AIGC技术的开源和透明度对于确保其健康发展至关重要。目前,许多公司不愿公开他们的模型或代码。不透明性导致难以解释模型为何产生特定的输出,以及模型如何在不同阶段放大社会和文化偏见。例如,DALL·E 2等模型可能会记忆训练数据,但具体机制并不清楚。
开源可以促进对AIGC模型行为的理解和解释,帮助社区评估技术的风险和收益。尽管如此,开源也带来了风险,比如开源模型可能被用于商业或恶意目的。
(6)限制技术滥用
具体表现:
技术滥用可能被用于制造和传播假新闻、恶作剧、深度伪造内容等恶意行为,对社会和个人造成负面影响。例如,Stable Diffusion被用于生成虚假的色情图片
ChatGPT可能被学生用于完成作业,损害了学术诚信。
此外,AIGC的输出可能包含偏见和不准确信息,影响其可靠性。
解决方法:
必须在能够控制或纠正风险的情况下使用AIGC。
需要尽快为AIGC模型建立治理机制,包括制定法律法规,以确保技术的安全和负责任使用。
通过开源,可以促进对模型行为的理解和解释,帮助社区评估技术的风险和收益。然而,开源也带来了风险,需要谨慎管理,以防止技术被用于不当目的。
(7)许可、信誉和补偿
具体表现:模型的训练都是在未获得原始数据贡献者同意或给予信用和补偿的情况下进行的。而数据贡献者的作品在他们不知情或未经同意的情况下被AI模型学习并被其他用户用于盈利,这损害了原始数据贡献者的利益。
解决方法:
- 在训练模型之前获得数据贡献者的同意。
- 创作者可选择是否从模型基于他们作品生成的后续创作中获益。
- 同意其数据被使用的创作者可以根据他们的作品对AIGC的贡献每次查询工具时获得奖励。
(8)环境影响
模型通常具有数十亿甚至数万亿的参数,导致在模型训练和操作过程中产生高昂的环境成本。
如何减少AIGC模型能耗和碳排放?