顶会入选 | ObfusLM - 基于参数混淆的语言模型隐私保护训推方案入选 ACL 25

摘要：在大语言模型（Large Language Model, LLM）广泛应用的浪潮中，隐私数据保护是一个不容忽视的问题。为解决利用私有数据集进行大语言模型精调和推理时的隐私泄露风险，来自字节跳动安全研究团队和南京大学的研究人员共同提出了创新性的ObfusLM框架

在大语言模型（Large Language Model, LLM）广泛应用的浪潮中，隐私数据保护是一个不容忽视的问题。为解决利用私有数据集进行大语言模型精调和推理时的隐私泄露风险，来自字节跳动安全研究团队和南京大学的研究人员共同提出了创新性的ObfusLM框架。其研究成果《ObfusLM: Privacy-preserving Language Model Service againstEmbeddingInversion Attacks》已被自然语言处理领域国际顶会ACL 2025收录。

近年来，随着大语言模型（LLM）能力的快速发展和AI基础设施的逐步完善，大语言模型即服务（LMaaS）在专业领域信息处理中得到广泛应用。在这类服务场景下，用户能够向云端服务器提交请求，对私有数据集进行精调和推理。但私有数据上传至云端，无疑给用户隐私信息带来了泄露隐患。

为了在提供服务的同时保护隐私信息，一些研究尝试通过同态加密（HE）、安全多方计算（SMC）及可信执行环境（TEE）实现安全的LMaaS。但这些方案均存在显著局限：基于密码学的方案效率极低，例如采用 HE 和 SMC 的安全推理方案 PUMA，在 LLaMA-7B 模型上生成单个词元，就需耗费数百秒；而可信硬件方案则要求服务商额外调配专用计算资源。这些限制极大阻碍了隐私保护技术在实际场景中的落地应用。

为实现隐私保护与实用性的平衡，当前研究正在探索基于差分隐私（DP）和k-匿名化技术的隐私保护方案，通过对词元（token）和嵌入向量（embedding）施加扰动来保障用户隐私数据安全。然而，此类方法面临多重技术挑战：生成任务的适配性问题、嵌入反演攻击（Embedding Inversion Attacks, EIAs）的现实威胁，以及方案与现有LMaaS架构的兼容性难题。针对上述挑战，本文提出的ObfusLM框架创新性地实现了三重技术突破：

「多任务的支持能力：」基于LLM架构特点，ObfusLM采用适用性广的模型混淆模块，实现输入-输出数据的双重混淆，可统一支持分类模型（如BERT）和生成模型（如GPT）的隐私保护。

「安全性理论分析：」基于-匿名性理论框架，证明了ObfusLM框架对EIAs的抵御能力，并通过实验验证了对EIAs的抵御效果。

「实用的部署形态：」ObfusLM框架仅需用户完成一次性的参数混淆处理，后续的精调与推理计算可完全由服务端本地处理计算，有效降低了用户的使用成本。

工作流程

在LLM中，用户的输入文本与模型的词表与嵌入向量参数存在关联性。基于这一特点，ObfusLM框架利用模型混淆操作来掩盖这种关联性，从而达到用户输入文本的隐私保护。具体地，ObfusLM的工作流程包含以下三个阶段：

初始化阶段：服务器向客户端分发预训练语言模型组件，包括词汇表、输入嵌入层权重矩阵参数、生成模型的模型头权重矩阵参数。

模型混淆处理：用户接收到语言模型的组件后，执行模型混淆操作，得到经过混淆的词汇表与权重矩阵。用户将混淆权重发送给服务器，并将混淆词表保留在本地。服务器将这些混淆权重替换到原始模型中，得到混淆模型，并使用该混淆模型部署模型服务。

安全精调与推理：在请求精调或推理服务时，用户使用混淆词表处理文本与混淆词元索引之间的映射关系，而服务器则基于混淆词元索引完成计算。

模型混淆

ObfusLM采用满足-匿名性的安全机制来混淆词元对应的嵌入向量，从而兼顾模型效果与隐私保护能力。在-匿名性要求下，任意一个嵌入向量都可以被划分到一个大小为的子集中，混淆算法需要保证子集中的任意两个嵌入向量在经过混淆后只能以不高于的概率被区分出来：，其中是经混淆算法处理后的输出嵌入向量子集。

在ObfusLM中，用户通过对词表和嵌入层、模型头的权重参数进行混淆来保护后续上传的隐私数据。具体地，用户将词表中的词元打乱，并以相同的顺序打乱模型的嵌入层和模型头的权重参数。经打乱的词表会始终保存在用户本地，而权重参数则需要发送给服务器。然而，仅通过顺序打乱无法提供足够的安全性，服务器仍然可以利用EIAs恢复出用户的隐私信息。因此，权重参数在发送给服务器前需进一步进行混淆。

ObfusLM提供嵌入向量聚类算法和嵌入向量合成算法来保证嵌入层和模型头中混淆向量的-匿名性。在嵌入向量聚类算法中，ObfusLM遍历所有的嵌入向量，并基于嵌入向量之间的余弦相似度将它们划分到聚类中。在嵌入向量合成算法中，ObfusLM逐个处理已划分的向量聚类。对于聚类中的每个向量，ObfusLM基于该向量与其余向量的相似度得到嵌入向量的合成权重，并基于隐私保护参数添加Laplace噪声得到加噪合成权重。最终，使用加噪合成权重与子集中的向量生成混淆向量。

安全精调与推理

完成模型混淆后，用户可以在本地利用混淆后的词表对私有数据集进行分词处理，生成混淆词元索引后上传至服务器进行模型精调。推理阶段，服务器基于混淆模型返回分类任务的预测分数或生成任务的混淆词元序列，仅持有混淆词表的用户可本地解码生成结果。该机制将计算密集型任务保留在服务端，同时通过词表与嵌入向量的混淆确保用户提示词与生成内容的隐私性，实现分类与生成任务的全流程隐私保护。

下图的应用示例能更好地将ObfusLM的实际效果展示出来。在这个场景中，用户在经过模型混淆与精调处理后，向部署在服务器上的语言模型服务请求推理。在请求过程中，敏感文本被转换成混淆的词元索引在用户与服务端之间传输。即使利用EIAs，服务器也难以精确还原用户侧的真实输入与输出结果。

实验设置

我们在多个分类与生成任务上评估了ObfusLM的效果与安全性，相关实验运行在Intel(R) Xeon(R) Platinum 8336C CPU @ 2.30GHz，128GB RAM，4 NVIDIA A800-SXM4-40GB的机器资源上，并使用Debian GNU/Linux 11操作系统和CUDA 12.2。

数据集：分类任务使用GLUE评测集；生成任务使用Alpaca-cleaned和Databricks数据集。

模型：分类任务使用Bert-base模型；生成任务使用Llama3-8B模型。

基准方案：以DP-Forward、CAPE、TextObfuscator、SANTEXT+、CUSTEXT+和SentinelLMs作为对比的防御方案；使用KNN和InvBert嵌入反演攻击测试防御方案的安全性，并通过Topk恢复词元的正确率和明文与攻击恢复文本的RougeL指标量化安全效果。

效果对比

在分类任务中，ObfusLM仅降低约4%的BERT模型效果，相比基于词元混淆的隐私保护方案SANTEXT+和CUSTEXT+提升10%，且相比TextObfuscator和CAPE等依赖可信服务器的方案提升6%。同时，通过采用满足-匿名性的混淆算法，ObfusLM能够显著降低嵌入反演攻击的词元恢复成功率至20%~30%，有效缓解了用户的隐私泄露风险。

ObfusLM还支持生成任务，并能够同时保护输入与输出文本的隐私性。相比于分类任务，参数扰动更容易干扰生成任务的输出质量。尽管如此，ObfusLM仍能达到Llama3-8B模型在Alpaca-cleaned数据集上的效果损失在6%以内，并有效抵御反演攻击。

参数分析

我们进一步测试了ObfusLM在不同隐私参数下的效果与安全性。实验结果表明，聚类规模与隐私预算共同影响效用与隐私的平衡：增大可提升匿名性（如k从5增至20时，Alpaca任务下对KNN攻击的防护效果提升近7倍），但会导致模型效果显著下降；的减小虽能增强隐私保护，但同样加剧效用损失。在各种隐私参数的组合下，安全性与任务效用呈近似负相关。

实用的隐私保护框架

ObfusLM 通过-匿名性安全引入了模型混淆机制来兼顾模型效果与安全性，在分类和生成任务中实现了隐私保护，其混淆参数处理与本地词表解码机制显著降低了嵌入反演攻击风险。实验表明，ObfusLM在有效抵御嵌入反演攻击的前提下，在分类与生成任务上最低可达4%~6%的效果损失。同时，该方案采用轻量的服务部署形态和交互形式使其具备一定的实用优势。

未来展望

在大语言模型深度融入各行各业、应用边界不断拓展的趋势下，隐私保护技术已成为 AI 领域的关键刚需。字节跳动安全研究团队洞察到，当前隐私保护技术仍存在部署复杂、适配性不足等应用瓶颈。为此，团队将持续深耕 ObfusLM 框架的迭代优化，从算法效率、场景适配性等多维度发力。

同时，团队还将围绕 ObfusLM 框架深化技术整合，持续丰富 Jeddak 产品的核心能力矩阵，后续也将在火山引擎Jeddak AICC中做产品迭代，持续降低大模型推理成本，为用户提供更便捷、高效的AI安全解决方案。

来源：字节跳动技术团队

标签：模型语言 acl 词表 obfuslm

本文地址：http://news.43b.com.cn/a/645840.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!