摘要:近日,字节跳动安全研究团队、北京大学和伊利诺伊大学香槟分校合作的研究论文《Game of Arrows: On the (In-)Security of Weight Obfuscation for On-Device TEE-Shielded LLM Par
近日,字节跳动安全研究团队、北京大学和伊利诺伊大学香槟分校合作的研究论文《Game of Arrows: On the (In-)Security of Weight Obfuscation for On-Device TEE-Shielded LLM Partition Algorithms》被安全领域国际顶会USENIX Security收录。
USENIX Security 会议是网络与信息安全领域的四大顶级会议之一,也是中国计算机学会推荐的网络与信息安全领域A类国际学术会议。该会议享有广泛的学术影响和深厚的学术底蕴,近五年平均录用率约为20%。2025年8月13日至15日,第34届 USENIX Security 会议在美国西雅图召开。
研究概述
大语言模型(LLM)正在彻底改变各个领域业态。应用接入 LLM 生态、借助 Agents 和 MCP 实现互联互通的趋势浩荡向前,意味着更多的隐私数据将在大模型中进行处理,而不断演化的模型自身也蕴含高价值的数字权利。如何平衡隐私安全和性能成本,成为摆在大模型从业者面前的难题。
一方面,可信执行环境(TEE)技术带来了硬件级通用安全算力方案,有望成为LLM应用的隐私安全信任基座;另一方面,不支持 TEE 的 Legacy GPU 算力在 LLM 基础设施中仍是主流,从性价比和基建迁移成本考虑不能轻易放弃。因此,TEE CPU+Legacy GPU 混合算力方案受到了各方关注。
混合算力方案将基于 TEE 的安全 CPU 算力和非 TEE 的常规 GPU 算力相结合,提出了 TEE+Legacy 混合、模型划分部署的模式,即 TSLP(TEE Shielded LLM Partition)。它利用 TEE 的硬件隔离机制构建安全飞地,将模型的轻量层(如激活函数、层归一化)计算纳入 TEE 可信域保护,屏蔽来自主机的特权访问,阻断模型窃取、Prompt 窃取等可能的攻击。同时,出于推理效率的考虑,计算密集的部分运算仍然交给非可信 GPU 来完成,因此需要引入混淆加密算法,来构建起一条联系不同算力环境进行的安全链路。
显然,混淆加密算法的安全性成为了 TSLP 方案能否有效保护隐私的关键。为了分析和解决已有混淆加密算法存在的安全漏洞,我们提出了创新性的 ArrowMatch 攻击方法与 ArrowCloak 防御方案,揭示了已有算法在模型保护场景下的共有缺陷,并给出了高效的解决方案。
首先,我们关注到模型保护场景下现有的混淆算法普遍追求轻量化,绝大部分方案涉及的运算可以被转化为对矩阵采用向量级操作(如向量的置换和缩放)进行混淆,这虽然保证了解混淆操作的低复杂度,但却埋下了安全隐患。此外,少数研究引入了更复杂的混淆方法来保护模型权重,但它们使用的解混淆运算复杂度大幅上升,导致这些方案下的推理效率显著下降。
基于以上观察,我们提出了一种基于向量方向相似性的攻击策略 ArrowMatch,利用隐私模型与预训练模型之间向量方向的关联性来攻击现有的轻量化混淆算法。同时,我们相应地提出了一种可以对抗 ArrowMatch 的安全轻量级混淆算法 ArrowCloak,基于向量-矩阵乘法对权重矩阵进行保护,在维持与现有轻量级混淆方案相近开销的情况下,显著提高了对模型隐私的保护能力。我们通过实验验证了上述攻击方法和混淆算法的有效性。
攻击策略 ArrowMatch
攻击场景设定中,模型所有者基于公开预训练模型 微调得到一个私有模型 ,并部署到目标环境中提供服务。假定“诚实但好奇”的攻击者拥有目标环境访问权限,会遵循部署协议正常使用模型,但试图窃取模型功能以构建替代模型 ,期望达成和 接近的模型性能。
攻击者的能力包括:
可以获取目标环境TEE 外部的模型数据,但无法访问 TEE 内部的代码和数据。
可利用公开预训练模型 及相关数据辅助分析。
可查询受害者模型 获取少量带标签数据(通常少于训练数据的 1%),用于训练替代模型 。
ArrowMatch 的核心创新在于利用方向相似性突破现有混淆算法的防护壁垒。该攻击基于以下两个关键观察:
私有模型微调时需复用预训练模型的通用知识,知识结构的相似性必然限制模型权重向量方向偏移不能太大。
现有轻量级混淆方法主要依赖的混淆操作(置换和缩放)仅会改变向量的位置或长度,无法掩盖向量的方向特征。
ArrowMatch 的攻击流程始于向量方向的恢复,攻击者通过计算混淆权重向量与公开预训练模型权重向量之间的余弦距离,精准定位方向距离最小的向量对,从而逆向恢复置换索引信息,其核心公式为:
这一步骤充分利用了方向不变性漏洞——混淆操作仅改变向量位置或长度,而方向特征与原始预训练模型保持高度关联性。
随后攻击进入长度调整阶段,攻击者通过计算预训练模型矩阵向量的模长,来初始化代理模型对应向量的长度,再使用少量私有数据集对代理模型进行轻量训练,降低长度误差。
最终,向量方向和长度都被高精度地恢复,攻击者获得一个能力高度近似于受害模型的结果模型,即达成了模型窃取的目标。
防御策略 ArrowCloak
现有轻量级混淆方案的关键安全风险在于无法完全保护权重向量的方向特征,导致攻击者可通过方向相似性在混淆权重与预训练模型之间进行关联分析。ArrowCloak 突破这一局限性,首次将矩阵-向量乘法引入混淆方案,通过线性组合私有权重构建混淆向量,结合随机对角矩阵对原始向量方向进行非线性扰动。这一设计在不突破 TSLP 效率约束的前提下,实现了方向特征的随机化掩盖。
ArrowCloak 创造性地引入三重协同混淆机制破解方向关联性:首先通过原始权重的线性组合构建隐私基向量;随后将原始权重矩阵与随机对角矩阵 D1相乘,同时将基向量v扩展为矩阵后与随机对角矩阵 D2相乘;最终通过矩阵加法叠加两类扰动结果,从而扰动向量的长度,最后应用置换矩阵Π打乱列向量顺序。该过程的数学表示为:
尽管引入了矩阵-向量运算,ArrowCloak 仍然把在 TEE 中执行的计算复杂度严格控制在 O(nl)——这与传统轻量混淆方案持平。在 TEE 中的解混淆操作可以表示为:
实验结果
我们在计算机视觉与自然语言处理双领域构建测试用例,对攻击策略与防御策略的效果进行了评估,测试覆盖四大代表性模型(BERT-Base、GPT2-Base、ViT-Base、GPT2-XL)和七大数据集。视觉任务采用 CIFAR10、CIFAR100 及 Food101 图像分类基准,文本任务选取 GLUE 评测集中的 MNLI、QQP、SST-2 和 QNLI 四大数据集。所有预训练模型均从开源库 timm 与 transformers 获取。
在攻击与防御实验中,我们以 No-Shield(无防护白盒攻击)和 Shield-Whole(全模型TEE防护的黑盒攻击)作为基线,与现有表现最佳的五种轻量级混淆算法在相同的攻击场景中进行对比。在效率测试实验中,我们以 Slalom 和 Shield-Whole 作为基线,与现有表现最佳的两种轻量级混淆算法进行了对比。
ArrowMatch 的攻击性能如图所示。我们可以观察到,ArrowMatch 可以有效地恢复轻量级混淆算法。针对现有的轻量级混淆算法,ArrowMatch 的攻击性能平均可以达到黑盒基线的1.67倍,与白盒基线的攻击效果相似,这意味着 ArrowMatch 能够恢复模糊权重的知识,提高攻击效率。
我们在相同的攻击场景中测试了 ArrowCloak 的防御效果并与其他表现最佳的轻量级混淆算法保护结果进行了比较。我们观察到 ArrowCloak 在所有数据集上的保护效果平均为黑盒攻击效果的1.10倍,接近达成黑盒防护时理想的安全上界,而其他轻量级混淆算法的最优情况均值为黑盒攻击效果的1.65倍。实验证明 ArrowCloak 显著提升了模型的隐私安全。
最后,我们对引入 ArrowCloak 造成的推理效率损失进行了评估。我们在 Intel SGX 的设备上进行了实机测试,分别测试了在 ViT-base,GPT2-base 和 GPT2-XL 模型上的推理效率。实验证明与 Slalom 相比,ArrowCloak 平均引入了0.46倍的额外开销,与现有的混淆算法 ShadowNet 相当,但提供了显著高于 ShadowNet 的隐私保护能力。与使用 TEE 保护全部模型相比,ArrowCloak 可以节省2.83倍的开销。
总结
我们的工作在 TSLP 用于模型隐私保护的场景下,对其使用的混淆算法的安全性进行了研究,发现了一种新的漏洞:方向相似性。我们提出了相应的新型攻击 ArrowMatch 来利用该漏洞。相应地,我们引入了一个新的混淆方案 ArrowCloak 来保护方向特征,进而防御模型窃取攻击。我们进行实证测试,广泛地评估了 ArrowMatch 和 ArrowCloak,证明了它们在模型隐私安全攻防上的有效性。论文还从 LWE 困难问题出发,对 ArrowCloak 的安全性做了初步的理论分析,我们计划在此基础上进一步探索具有可证明安全性的轻量级混淆算法及隐私保护方案。
TEE+Legacy 算力混合方案拥有广泛的应用场景,而相应地,TSLP 和混淆算法在对模型自身做隐私保护的用途之外,也可用于对模型推理的输入输出、模型精调使用的语料数据等进行隐私保护,在这一方向上的大模型隐私安全攻防方兴未艾,值得长期投入。
字节跳动安全研究团队将持续推动相关安全技术在机密云计算场景的落地应用,并通过火山引擎的商业化产品 Jeddak AICC 机密计算平台赋能客户,不断探索优化、降低接入成本、提升综合安全感和性价比,为用户提供更便捷、高效的 AI 安全隐私保护解决方案。
来源:字节跳动技术团队