摘要:这款名为gpt-oss的模型,并非一款,而是两个型号:gpt-oss-120b 和 gpt-oss-20b。
大数据文摘出品
8月6日凌晨1点,OpenAI打破五年沉默,首次在GPT-2之后再度开源语言模型。
这款名为gpt-oss的模型,并非一款,而是两个型号:gpt-oss-120b 和 gpt-oss-20b。
两者都是Mixture-of-Experts 架构的推理型模型,专注于逻辑推理、步骤分解与工具调用。
更重要的是,这两个模型全部以Apache 2.0协议开源,意味着任何人都可以随意使用、修改、部署,甚至商用。
这是OpenAI自2020年以来首次开源权重模型。
gpt-oss 的参数规模极具吸引力。120b模型总参数为1170亿,20b模型为209亿,并且都原生支持4-bit量化。
也就是说,20B模型压缩后仅12.8GB,16GB内存显卡即可本地运行,而120B也能在单张80GB显卡上完成部署。
OpenAI在训练阶段就使用了MXFP4低精度格式,不是简单压缩,而是让模型自学如何适应低精度,从而大幅节省资源,同时维持性能。
这种训练级别的量化,区别于后期社区自行压缩的方案,使得gpt-oss几乎没有明显的性能损失。
换言之,在过去,部署一个大模型动辄要数块高端显卡,现在一张消费级卡也能轻松上阵。
01 跑分碾压,理性硬刚
在Codeforces编程挑战中,gpt-oss-120b取得2622分,逼近OpenAI自家o4-mini的2719分(OpenAI的商用模型)。
20b版本也达到2516分,领先于DeepSeek R1等同尺寸竞品。
在AIME 2024数学竞赛中,gpt-oss-120b使用工具后达到96.6%的准确率,几乎接近o4-mini的98.7%。
在SWE-bench Verified 编程修复任务中,20B模型得分为60%,120B则为62%,距离封闭模型仅有小幅差距。
医疗领域同样展现实力,在HealthBench评测中,gpt-oss-120b的成绩几乎追平o3模型。
而在AI圈公认的“人类终极考试”测试中,gpt-oss-120b也拿下19%的得分,虽不敌o3,但在开源模型中已属佼佼者。
在社区用户实测中,gpt-oss的代码执行速度远超多数同类模型,有网友分享对比截图:当其他模型还在慢慢处理时,gpt-oss-20b三秒就完成推理。
不仅快,结果也准,特别是在数学与逻辑领域,小模型表现出极高的性价比。
当然,OpenAI也未避短。模型在事实准确性方面仍有提升空间,“幻觉”问题依然存在,尤其在知识类问答中偶有错漏。
模型卡中也明确指出,gpt-oss在“坏念头”过滤上几乎未做干预,内容审核交由开发者自行负责。
这意味着,gpt-oss虽然强大,但需要使用者具备一定的技术和伦理把控能力。
为此,OpenAI还专门制定了“最坏场景微调”安全协议,模拟模型在遭恶意训练下的风险反应。
结果显示,即便在这种极端情况下,gpt-oss也未越过“高风险”警戒线。
这一套流程不仅由OpenAI内部审核,还交由外部专家团进行评估审查。
02 生态开放,局势突变
OpenAI还推出了一个在线测试平台:https://gpt-oss.com
目前,OpenRouter平台已率先接入gpt-oss,并开放API供开发者调用。
Ollama平台也已支持该模型,并提供图形化界面与本地部署功能,大幅降低入门门槛。
从部署到调用,从云端到本地,gpt-oss的路径已经打通,甚至有用户半夜实测本地跑通20B,速度惊人。
不仅如此,gpt-oss在中文社区也快速传播,技术交流群、开发者论坛、跑分分享纷纷上线。
有网友甚至已经开始编写微调教程、垂直任务调优方案和集成案例,开源氛围迅速升温。
而整个开源AI生态,也因OpenAI此举而被彻底撼动。
过去,开源模型多由社区驱动,OpenAI则始终保持封闭姿态。而这一次,OpenAI亲自下场,直接对标DeepSeek、Qwen3、GLM4.5等国内外强手。
正如有用户评论:“OpenAI终于干了点人事。”
GPU 训练特惠!
H100/H200 GPU算力按秒计费,平均节省开支30%以上!
来源:大数据文摘