robustkv资讯_B站影视

【论文速读】| RobustKV：通过键值对驱逐防御大语言模型免受越狱攻击

论文简介：在大语言模型（LLM）的发展中，越狱攻击被认为是一种对模型安全性的严重威胁，攻击者通过巧妙地掩盖恶意查询使得LLM生成不当响应。目前的防御手段主要集中在防范越狱提示词上，但面对越狱提示词的适应性变化效果有限。本研究提出了一种新的防御方法RobustK

越狱 robustkv 键值 2024-11-20 15:22 8