8月6号,真的今夕是何年了。 一晚上,三个我觉得都蛮大的货。 先是晚上10点,Google发了一个世界模型(但期货),Genie 3。 这个非常的强,我看的热血沸腾,我这两天也会单独写一篇文章,来聊聊这个玩意,真的,作为一个这么多年的游戏和VR玩家,看到Genie 3非常的激动。摘要:8月6号,真的今夕是何年了。一晚上,三个我觉得都蛮大的货。先是晚上10点,Google发了一个世界模型(但期货),Genie 3。
而且,这不只是简单的那种事后压缩,就是社区常做的一些量化,那种方式性能会掉一大截。
比如DeepSeek-R1满血版是671B,8-bit精度,少数dense层依旧16 bit,最后的模型大小是720GB。
你想完整的部署它,8张96G的H100才行,如果你想省算力,那就你自己事后搞一层量化,量化到4-bit,这时候,模型体积就会小很多。
但是对等的,性能也会差一些。
而OpenAI是在后期训练的时候,就直接用了一种叫MXFP4的格式来做量化 。也就是说,模型在出厂前就已经学会了如何在低精度的环境下工作,所以这种方式,不仅能大幅的缩小模型权重体积,性能损失极小。
比如gpt-oss-20b,总参20.9B,9成以上是MoE专家,被压成MXFP4,4.25 bit/权重,剩下不足一成的主干还是 FP16。
所以20.9B×4.25 bit≈11.1GB,再把那10%左右的FP16算进去,加点 header,模型最终大小就差不多落在了12.8GB,直接一张16G的显卡就能推的动,非常的爽。
120B的模型,也能跑在80G的单卡的,真的牛逼。
这块量化还是挺有意思的,今年6月的时候英伟达也搞了个NVFP4,跟OpenAI这个 MXFP4稍微有点类似。
选完了以后,随手发个1或者你好之类的。
模型就会自动开始下载了。
但是这个地方稍微注意一下,不要自不量力= =
20B的模型至少需要16G的显卡才能跑。
120B的模型至少需要80G。
没到的就别下模型了,老老实实去硅基流动或者O penRouter接个API用就行。
我自己部署了一下20B,用了下,速度确实是快,而且快的离谱。
还是群友@洛小山 做了个对比。
在别的还在慢悠悠的跑的时候,gpt-oss-20B只花3秒就解决了战斗。
你用的时候就感觉,飞一样的感觉。
我自己也测了下代码审美,老样子,跑跑固定case像素弹球大师。
结果120B的给我看不会了,虽然能玩,但是真的丑。
emmmmmm。
至于20B的,就玩不了。。。
然后又在群里,看到了一张梗图。
一下子笑不活了。
而在推理和知识层面,确实还不错。
20B的模型,做这些烧脑的推理题,真的绰绰有余了。
写作文笔这块,我有一个常用的提示词:
"你是一位久负盛名的小说家,文字极富感染力,风格细腻,善于挖掘和表达复杂的情绪与心理。现在,给你一个场景:
夜晚十一点半,你独自坐在一列开往远方的小城的绿皮火车上,车厢内昏暗的灯光时明时灭,窗外掠过荒凉的村庄、星星点点的灯火、偶尔传来的犬吠,车厢内空气沉闷、混杂着烟草与泡面的味道。你对目的地怀着某种难言的情绪,夹杂着期待、犹豫、忐忑甚至是恐惧。
请你使用第一人称,以细腻且富有感染力的文字,深入描写你此刻的内心活动和车厢内外的细节,尤其要注重细节密度、情绪层次和氛围营造,不少于500字。"
能比较清楚的对比看出来模型的写作功底。
比如这个就是GPT4.5的。
就是我自己实测中发现,幻觉还是有一点不低的。
比如我问它,三体里云天明的三个小说是什么。
直接给我来了个,打底三部曲???
不过这毕竟是个20B的模型,虽然代码拉,幻觉有点高,但是在推理能力和数学能力上都很强了。
整体来看,确实在本地的消费级模型上,是很好也是很实用的。
后面微调一下,应该能干不少事,又燃起了我的斗志。。。
到时候后续也可以分享一下gpt-oss的微调教程和应用场景。
讲道理,OpenAI能把这事干出来,还是之前被DeepSeek给逼急了。
虽然每次看到OpenAI磨磨唧唧藏着掖着,我都会骂它一顿,但这次,确实真的可以给它鼓个掌了。
gpt-oss确实够诚意满满,够硬气,也足够改变未来开源社区的格局了。
这次OpenAI开了一个很好的头,拉低了门槛,提高了上限,让AI圈子的玩法更丰富了。
咱就是说,要不然,就Open到底。
周四不是发GPT-5吗?
索性,把GPT-5也开源了。
可好?
来源:趣闻捕手一点号