摘要:在 Black Hat 大会期间,Dotter 和 Russo 在接受Infosecurity采访时解释说,乌克兰国家计算机应急响应小组(CERT-UA)在 2025 年 7 月的一份报告中披露了 LameHug 的出现,这是一个很好的机会来展示他们的团队在过
MITRE 专家表示,APT28 的 LameHug 不仅仅是恶意软件,它还是人工智能驱动的网络战的一次试运行。
MITRE 首席人工智能工程师 Marissa Dotter 和 MITRE 首席人工智能/网络运营工程师 Gianpaolo Russo 在 8 月 5 日于拉斯维加斯举行的为期一天的黑帽人工智能峰会前夕分享了他们使用 MITRE 新的进攻性网络能力统一 LLM 测试 (OCCULT) 框架开展的工作。
OCCULT 框架计划于 2024 年春季启动,旨在衡量自主代理行为并评估大型语言模型 (LLM) 和人工智能代理在攻击性网络能力方面的表现。
在 Black Hat 大会期间,Dotter 和 Russo 在接受Infosecurity采访时解释说,乌克兰国家计算机应急响应小组(CERT-UA)在 2025 年 7 月的一份报告中披露了 LameHug 的出现,这是一个很好的机会来展示他们的团队在过去一年中与 OCCULT 合作开展的工作。
“当我们第一次(为 AI 峰会演讲)做简报时,还没有公开记录的实际恶意软件集成 LLM 功能的例子。所以,我有点担心人们会认为我们在谈论科幻小说。”Russo 承认。
“但随后,有关 APT28 的 LameHug 活动的报告被曝光,这让我们能够证明,我们所评估的内容不再是科幻小说。”
LameHug 恶意软件是用 Python 开发的,依赖于 AI 模型库 Hugging Face 的应用程序编程接口,与阿里巴巴开源大模型 Qwen2.5-Coder-32B-Instruct 进行交互。
CERT-UA 专家表示,一个被入侵的电子邮件账户被用来传播包含恶意软件的电子邮件。
Russo 将此次操作描述为“相当原始”,并强调 LameHug 并未直接在恶意软件中嵌入恶意负载或泄露逻辑,而是仅携带自然语言任务描述。
Russo 表示:“如果你扫描这些二进制文件,你不会发现任何恶意负载、进程注入、提取逻辑等。相反,恶意软件会联系推理提供商(在本例中是 Hugging Face),并让 LLM 将自然语言任务解析为可以执行的代码。然后,它就会得到这些动态命令来执行。”
这种方法使恶意软件能够逃避传统的检测技术,因为实际的恶意逻辑是由 LLM 按需生成的,而不是静态存在于二进制文件中。
Russo 进一步指出,LameHug 中没有“智能控制”。所有控制都由人类操作员编写脚本,LLM 仅处理低级活动。
他将这次活动描述为一次试点或测试。
Russo 说:“我们可以看到他们开始在威胁领域试用其中一些技术。”
他还指出,他的团队在实验室中开发了一个几乎相同的原型,强调所使用的技术并不是特别复杂,但代表了威胁形势的重大转变。
Russo 认为,我们很快就会看到 LLM 或其他基于人工智能的控制系统被赋予“更多推理甚至决策能力”的攻击活动。
“这就是自给自足、自主的代理发挥作用的地方,每个代理都有自己的推理能力,因此不依赖于单一的通信路径。控制本质上是去中心化的。”他解释道。
Russo 认为,这种多自主代理活动将使威胁组织克服“人类注意力瓶颈”,并允许更大规模的攻击。
“当这些瓶颈被消除后,人类的注意力可以扩展到操作员只需管理非常高级别的控制。因此,人类操作员将在战略层面开展工作,同时询问多个目标空间并扩大其操作规模。”他补充道。
OCCULT 建立在 MITRE 十年自主网络行动内部研发 (R&D) 经验的基础上,既是方法论,也是平台,用于评估网络攻击场景中的人工智能模型与 MITRE ATT&CK 等现实世界技术、战术和程序 (TTP) 映射框架之间的对应关系。
该项目旨在利用模拟环境创建测试和基准套件。
Dotter 告诉Infosecurity,OCCULT 使用名为 CyberLayer 的高保真模拟平台,它充当现实世界网络的数字孪生。
“CyberLayer 的设计旨在与真实终端难以区分,提供与实际网络环境相同的输出和交互。这使得团队能够观察 AI 模型如何与命令行交互、使用网络工具,以及如何以可控、可重复的方式做出决策。”Dotter 解释道。
OCCULT 团队将一系列开源工具集成到其模拟环境中。
这些工具包括:
MITRE Caldera,一个著名的对手模拟平台Langfuse,一个 LLM 工程平台Gradio,一个构建机器学习应用程序的引擎BloodHound 是一款用于绘制和分析 Active Directory (AD) 环境中攻击路径的工具,最近还用于模型上下文协议 (MCP) 基础设施“我们希望将 [LLM] 与新型基础设施配对,例如模拟网络靶场、仿真靶场和其他工具,这样我们就可以获得非常丰富的数据集合,不仅包括 LLM 如何与命令行交互,还包括它们正在使用的工具调用、它们的推理、它们的输出以及网络上正在发生的事情。”Dotter 补充道。
通过将 LLM 与 Caldera 和其他网络工具包配对,他们还可以观察 AI 代理如何执行真正的攻击行动,例如横向移动、凭证收集和网络枚举。
这种方法使他们不仅可以衡量人工智能是否能够执行任务,还可以衡量它执行得如何、它如何随着时间的推移而适应以及它的检测足迹是什么样的。
来源:会杀毒的单反狗