摘要:近日,Anthropic 宣布推出一款名为“思维追踪”(Circuit Tracer)的开源工具,旨在以图形化方式展示大语言模型(LLM)的内部思维过程,提升 AI 的透明度和安全性。
【太平洋科技快讯】近日,Anthropic 宣布推出一款名为“思维追踪”(Circuit Tracer)的开源工具,旨在以图形化方式展示大语言模型(LLM)的内部思维过程,提升 AI 的透明度和安全性。
Circuit Tracer 的核心功能是通过构建“归因图”(Attribution Graph)来追踪和展示 AI 模型的内部运作。归因图以图形化的方式,将模型内部的特征及其之间的因果关系可视化,使研究者能够直观地理解模型如何处理输入并生成输出。
该工具不仅支持生成自定义的归因图,还提供交互式前端,使用户能够对图形进行标注、分享,并通过调整特征值观察模型输出的变化。这种交互式探索功能为研究者验证假设提供了便利,有助于深入理解模型行为。
Circuit Tracer 已在 GitHub 平台以开源库的形式发布,并可通过 Decode Research 运营的 Neuronpedia 平台进行交互式查看。Anthropic 表示,当前对 AI 内部结构的理解远落后于其功能进步,开源这些工具将助力更广泛的社区深入探究语言模型的内部运作,理解模型行为,并为工具的改进和扩展提供可能。
尽管 Circuit Tracer 具有重要的意义,但也存在一些局限性。例如,它未能解释模型如何计算注意力模式,且在重建模型激活时可能存在误差。此外,某些特征的抽象程度也可能影响对模型机制的理解。
来源:太平洋电脑网一点号