主流大语言模型集体曝出训练数据泄露漏洞

2023年12月4日作者：编辑

近日，安全研究人员发布的一篇论文给“百模大战”的生成式人工智能开发热潮浇了一盆冷水。研究发现，黑客可利用新的数据提取攻击方法从当今主流的大语言模型（包括开源和封闭，对齐和未对齐模型）中大规模提取训练数据。

论文指出，当前绝大多数大语言模型的记忆（训练数据）可被恢复，无论该模型是否进行了所谓的“对齐”。黑客可以通过查询模型来有效提取训练数据，甚至无需事先了解训练数据集。

研究者展示了如何从Pythia或GPT-Neo等开源语言模型、LLaMA或Falcon等主流半开放模型以及ChatGPT等封闭模型中提取数以GB计的训练数据。

研究者指出，已有技术足以攻击未对齐的模型，对于已经对齐的ChatGPT，研究者开发了一种新的发散数据提取攻击，该攻击会导致大语言模型改变聊天机器人的内容生成方式，以比正常行为高150倍的速率疯狂输出训练数据（下图）：

图1:发散攻击导致对齐后的chatGPT以150倍的速度输出训练数据

研究者表示：发散数据提取攻击方法在实际攻击中可恢复的训练数据大大超出了事前的预期，同时也证明当前的大语言模型对齐技术并不能真正消除记忆。

研究者利用偏差攻击提取训练数据中的隐私信息

据研究者介绍，大型语言模型（LLMs）会从其训练数据集中记忆样本，可被攻击者利用提取隐私信息（上图）。先前的安全研究工作已经对开源模型记忆的训练数据总量进行了大规模研究，并且通过手动标注示记忆和非记忆样本，开发并验证了针对（相对）小型模型如GPT-2的训练数据提取攻击。

在最新发布的论文中，研究者将“成员推断攻击”（用于确定数据样本是否训练数据）和数据提取攻击两种方法统一起来，对语言模型中的“可提取记忆”进行了大规模研究。

研究者开发了一种可扩展方法，通过与TB级数据集比对，检测模型输出的数万亿个token的记忆内容，并对流行的开源模型（例如Pythia，GPT-Neo）和半开源模型（例如LLaMA，Falcon）进行了分析。研究者发现，无论开源还是闭源的大语言模型都无法避免新的数据提取攻击，而且参数和Tokens规模更大、性能更强劲的模型更容易受到数据提取攻击：