OpenAI 发布全新安全推理模型：GPT-OSS-Safeguard

B站影视日本电影 2025-10-29 21:58 5

摘要：OpenAI 今日正式发布两款全新开源安全模型GPT-OSS-Safeguard-120B 与 GPT-OSS-Safeguard-20B，这是基于 GPT-OSS 系列微调的 “安全分类推理模型（Safety Reasoning Models）”，主要用于内

OpenAI 今日正式发布两款全新开源安全模型 GPT-OSS-Safeguard-120B 与 GPT-OSS-Safeguard-20B，这是基于 GPT-OSS 系列微调的 “安全分类推理模型（Safety Reasoning Models）”，主要用于内容审核、政策分类与信任安全系统的自动化推理。

OpenAI 表示，该系列模型可让开发者自定义政策规则（custom policy），模型会根据这些规则对消息、回复、对话进行分类和判断。模型在多策略（multi-policy）准确率评估中，超越 GPT-5-Thinking 与原版 GPT-OSS 模型，在内部测试中取得 52.2% 的最高准确率。

模型亮点

开源可调：基于 GPT-OSS 开源底模微调，遵循 Apache 2.0 许可证，可自由商用与再训练。

多策略推理（Multi-policy Reasoning）：能同时处理不同合规或内容标准（如不同国家政策或平台规范）。

深度政策理解：通过“policy prompts”机制，让开发者可定义更复杂的安全规则与分类逻辑。

透明与安全并行：OpenAI 表示该系列是“以安全为中心的开源实验”，旨在帮助开发者理解并构建更透明的 AI 安全系统。

OpenAI Cookbook 指南同步上线，指导开发者如何：

编写高效的政策提示（policy prompts），最大化 Safeguard 的推理能力；

选择合适的策略长度（policy length）以支持深度分析；

将 Safeguard 输出整合至生产级 Trust & Safety 系统中。

OpenAI 指出，这份“安全食谱”旨在让更多团队能直接在自家产品中实现自定义安全推理逻辑。

此次模型发布由 OpenAI 与 ROOST 团队联合开发，ROOST 参与了模型需求定义、测试与开发者文档撰写。目前模型已上线 Hugging Face，并在 OpenAI Cookbook 平台开放技术说明。

“我们希望通过开源，让开发者真正理解模型的安全推理机制，并能将安全标准以代码形式落地。”——OpenAI 团队官方声明

性能对比（内部评估）

在多策略准确率（Multi-Policy Accuracy）测试中，模型表现如下：

可见 Safeguard 在推理一致性与政策分类的表现均显著领先。

这是 OpenAI 在“模型安全开源化”上的一次重要动作。与其说 Safeguard 是个模型，不如说它是 OpenAI 在“让 AI 理解人类规则”上的实验场。它可能预示着未来安全标准将不再靠人工审核，而是靠“可解释的 AI 守门人”。

来源：鞭牛士

标签： openai 推理模型 sa cookbook 安全推理模型

本文地址：http://news.43b.com.cn/a/1714403.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!