第86期 | GPTSecurity周报

B站影视 电影资讯 2025-03-13 17:21 1

摘要:GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

1. ChatIoT:基于大语言模型的物联网安全助手,具有检索增强生成功能

简介:随着物联网(IoT)的广泛普及,它不仅彻底改变了各个行业和人们的日常生活,同时也成为了攻击的主要目标。为提升物联网安全,人们做出了诸多努力,开发出大量关于物联网安全和威胁的信息,如数据集和报告。然而,现有研究常常未能有效利用这些见解,以清晰、可操作的方式帮助或指导用户践行物联网安全实践。

在本文中,研究者提出了 ChatIoT,这是一款基于大语言模型(LLM)的物联网安全助手,其目的是传播物联网安全和威胁情报。ChatIoT 借助检索增强生成(RAG)的多元特性,成功融合了 LLM 的高级语言理解与推理能力,以及快速发展的物联网安全信息。

此外,研究者开发了一个端到端数据处理工具包,用于处理异构数据集。该工具包能够将各种格式的数据集转换为可检索的文档,并对分块策略进行优化,以实现高效检索。同时,研究者定义了一组通用用例规范,以此指导 LLM 生成符合用户特定需求和专业水平的答案。

最后,研究者实现了 ChatIoT 的原型,并运用不同的 LLM(如 LLaMA3、LLaMA3.1 和 GPT-4o)展开了广泛实验。实验评估显示,ChatIoT 能够为大多数用例生成更可靠、更具相关性且技术层面更深入的答案。在使用 LLaMA3:70B 评估答案时,与单独使用 LLM 相比,ChatIoT 在上述指标上平均提升了 10% 以上,在相关性和技术性方面的提升尤为显著。

链接:

2. 使其成为恶意数据库:利用查询代码越狱对齐的大语言模型

简介:大语言模型(LLM)的最新进展在自然语言处理领域展现出了巨大潜力,然而,LLM 也面临着严峻的安全和道德风险。尽管安全对齐等技术已被开发用于防御,但过往研究表明,精心设计的越狱攻击存在绕过此类防御的可能性。

在本文中,研究者提出了 QueryAttack,这是一个用于系统检查安全对齐通用性的全新框架。研究者将 LLM 视作知识数据库,把自然语言中的恶意查询转化为代码样式的结构化查询,以此绕过 LLM 的安全对齐机制。

研究者针对主流 LLM 展开了广泛实验,结果显示 QueryAttack 在不同开发团队和能力水平的 LLM 中均实现了较高的攻击成功率(ASR)。此外,研究者还评估了 QueryAttack 针对常见防御措施的性能表现,证实了常规防御技术难以缓解其攻击。

为抵御 QueryAttack,研究者定制了一种防御方法,该方法在 GPT - 4-1106 上可将 ASR 降低幅度高达 64%。

链接:

3. LLM在软件安全中的应用:漏洞检测技术和见解调查

简介:大语言模型(LLM)正逐渐成为软件漏洞检测领域的变革性工具,有效应对安全领域的关键挑战。传统的漏洞检测方法,如静态和动态分析,常常因效率低下、误报率高,以及难以应对现代软件系统日益增长的复杂性而效果不佳。而以 GPT、BERT 和 CodeBERT 等为代表的大语言模型,凭借其强大的分析代码结构、识别模式以及生成修复建议的能力,为漏洞缓解提供了一种新颖且具有扩展性的方法。

本文对大语言模型在漏洞检测中的应用展开了详细的调查研究。从多个关键方面进行深入剖析,涵盖模型架构、应用方法、目标语言、微调策略、数据集以及评估指标等。研究者通过全面分析,明确了当前研究中存在的问题范围,深入探讨了现有方法的优势与不足。同时,还针对跨语言漏洞检测、多模态数据集成和存储库级分析等挑战性问题展开研究。

基于上述研究发现,研究者提出了一系列针对性的解决方案,旨在解决数据集可扩展性、模型可解释性以及低资源场景下的应用等难题。具体而言,研究者的贡献主要体现在三个方面:其一,系统回顾了大语言模型在漏洞检测中的应用方式;其二,分析了不同研究之间的共性与差异,构建了一个统一的框架,以便更好地理解该领域的研究;其三,总结归纳了当前面临的关键挑战以及未来的研究方向。

此项研究成果为推动基于大语言模型的软件漏洞检测技术的发展提供了极具价值的见解,有望助力该领域在未来取得更大的突破。

链接:

4. AgentGuard:重新利用 Agentic Orchestrator 进行工具编排的安全性评估

简介:将工具使用集成到大语言模型(LLM)中,能够使代理系统对现实世界产生影响。然而,与独立的 LLM 有所不同,一旦代理受到感染,便可以凭借其工具使用能力,执行恶意工作流,进而产生更为严重的后果。

在此背景下,研究者提出了 AgentGuard,这是一个用于自主发现和验证不安全工具使用工作流的框架。该框架能够通过生成安全约束来限制代理的行为,从而在部署时建立起安全保障基线。AgentGuard 借助 LLM 编排器的固有功能,包括对工具功能的了解、可扩展且贴合实际的工作流生成,以及工具执行权限等,使其能够充当自身的安全评估器。

AgentGuard 框架的运行分为四个阶段:首先是识别不安全的工作流;接着在现实世界的执行场景中对这些工作流进行验证;随后生成安全约束;最后对约束的有效性进行验证。最终输出的评估报告涵盖不安全工作流、测试用例以及已验证的约束,能够为多种安全应用提供支持。

研究者通过实验证实了 AgentGuard 的可行性。通过这项探索性的工作,研究者期望能够启发建立针对 LLM 代理的标准化测试和强化程序,以此增强其在实际应用中的可信度,为 LLM 代理在现实世界的安全应用与发展奠定基础。

链接:

5. 修改和生成文本检测:通过 Watermark 实现 LLM 输出的双重检测能力

简介:随着大语言模型(LLM)的快速发展,人们对其潜在滥用的担忧日益加剧。在文本中嵌入水印,通过提取水印来验证所有权,成为一种具有实际应用价值的解决方案。然而,目前的方法大多集中在抵御修改攻击,却常常忽视了其他类型的欺骗攻击。

例如,攻击者可能在不破坏水印的前提下,对带水印的文本进行修改,从而生成有害内容,这就可能导致将恶意内容错误地归责于 LLM。这种情况给 LLM 服务提供商带来了严重威胁,同时也凸显出实现文本修改检测与生成文本检测的重要性。

基于此,研究者提出了一种能够检测文本修改的技术,旨在获取对修改敏感的无偏水印。具体而言,研究者引入了一项名为 “丢弃的标记” 的全新指标,用于衡量未被纳入水印检测的标记数量。一旦文本发生修改,该指标就会随之变化,进而成为文本被修改的有力证据。此外,研究者还对水印检测流程进行了优化,并提出了一种创新的无偏水印方法。

通过实验,研究者证实了该技术具备有效的双重检测能力,既能够检测文本是否被修改,也能够借助水印检测文本是否由 LLM 生成,为保障 LLM 生成内容的安全性和可靠性提供了有力的技术支持。

链接:

6. SymGPT:通过将符号执行与大语言模型相结合来审计智能合约

简介:为实现对以太坊上运行的智能合约的有效管理,众多以太坊征求意见(ERC)标准应运而生,每个标准都包含一套用于规范智能合约行为的规则。一旦违反 ERC 规则,便可能引发严重的安全问题,甚至造成财务损失,这充分表明验证智能合约是否遵循 ERC 标准至关重要。

当前,验证智能合约的实践方法主要有手动审核每份合约、运用专家开发的程序分析工具,以及借助大语言模型(LLM)。然而,这些方法在有效识别 ERC 规则违规行为方面均存在一定的局限性。

本文介绍了一款名为 SymGPT 的工具,它创新性地将大语言模型的自然语言理解能力与符号执行的形式化保证相结合,能够自动验证智能合约是否符合 ERC 规则。在开发 SymGPT 的过程中,研究者针对来自三个广泛应用的 ERC 标准的 132 条 ERC 规则开展了实证研究,深入分析了这些规则的内容、安全影响以及自然语言描述。

基于上述研究,研究者对 SymGPT 进行了精心设计。首先,指示大语言模型将 ERC 规则转换为预先定义的 EBNF 语法。随后,从形式化规则中综合出约束条件,以此表示可能出现违规行为的情况,并运用符号执行技术对其进行检测。

通过评估发现,SymGPT 在对 4000 份真实合约的检测中,成功识别出 5783 项 ERC 规则违规行为,其中包含 1375 项存在明确攻击路径、可能导致金融资产被盗的违规行为,有力地证明了其有效性。此外,与六种自动化技术以及一项安全专家审计服务相比,SymGPT 的表现更为出色,充分凸显了其相较于当前智能合约分析方法的显著优势,为智能合约的安全验证提供了更高效、可靠的解决方案。

链接:

7. JBShield:通过激活概念分析和操纵保护大语言模型免受越狱攻击

简介:尽管大语言模型(LLM)已实施安全对齐策略,但仍难以抵御越狱攻击。这种攻击能够突破安全防护机制,构成严重的安全威胁。虽然已有一些防御措施被提出用于检测或缓解越狱问题,但由于对越狱机制认识不足,这些措施难以长期有效。

在这项研究中,研究者基于线性表示假设(LRH)探究越狱背后的机制。LRH 认为神经网络会将高级概念编码为隐藏表示中的子空间。研究者把有害和越狱提示中的有毒语义定义为有毒概念,将越狱提示中那些操纵 LLM 以使其响应不安全请求的语义,描述为越狱概念。

通过概念提取和分析,研究者发现 LLM 能够识别有害和越狱提示中的有毒概念。然而,与有害提示不同的是,越狱提示会激活越狱概念,使 LLM 的输出从拒绝转变为响应。基于这一分析结果,研究者提出了一个全面的越狱防御框架 JBShield,它包含两个关键组件:越狱检测组件 JBShield-D 和缓解组件 JBShield-M。

JBShield-D 通过判断输入是否同时激活有毒概念和越狱概念,来识别越狱提示。一旦检测到越狱提示,JBShield-M 便会通过增强有毒概念、削弱越狱概念,调整目标 LLM 的隐藏表示,以此确保 LLM 生成安全内容。

大量实验充分验证了 JBShield 的卓越性能,其平均检测准确率达到了 0.95,并且能将不同 LLM 在各种越狱攻击下的平均攻击成功率,从 61% 大幅降低至 2% ,为 LLM 的安全防护提供了有力保障。

链接:

来源:云起无垠

相关推荐