【论文速读】| RobustKV:通过键值对驱逐防御大语言模型免受越狱攻击
论文简介:在大语言模型(LLM)的发展中,越狱攻击被认为是一种对模型安全性的严重威胁,攻击者通过巧妙地掩盖恶意查询使得LLM生成不当响应。目前的防御手段主要集中在防范越狱提示词上,但面对越狱提示词的适应性变化效果有限。本研究提出了一种新的防御方法RobustK
论文简介:在大语言模型(LLM)的发展中,越狱攻击被认为是一种对模型安全性的严重威胁,攻击者通过巧妙地掩盖恶意查询使得LLM生成不当响应。目前的防御手段主要集中在防范越狱提示词上,但面对越狱提示词的适应性变化效果有限。本研究提出了一种新的防御方法RobustK