摘要:整个过年期间,AI 圈的头条都被被 DeepSeek 霸占了。2 月 1 日,OpenAI 终于按捺不住,推出了全新的推理模型系列 o3-mini。这个系列不仅首次对免费用户开放了推理模型,还将成本降低了多达 15 倍(相比之前的 o1 系列)。
整个过年期间,AI 圈的头条都被被 DeepSeek 霸占了。2 月 1 日,OpenAI 终于按捺不住,推出了全新的推理模型系列 o3-mini。这个系列不仅首次对免费用户开放了推理模型,还将成本降低了多达 15 倍(相比之前的 o1 系列)。
OpenAI 还表示,这是其推理模型系列中最新且最具成本效益的模型:
最近,AI 社区非常热衷于将 DeepSeek R1 与其他推理模型进行对比。
尤其是经典的编程挑战——模拟弹跳球:“Write a Python script that makes a ball bounce within a certain shape. Let the shape rotate slowly and ensure the ball stays within the shape.”(编写一个Python脚本,使一个球在某个形状内弹跳。让这个形状缓慢旋转,并确保球保持在形状内。)
这个,相当于一个碰撞检测算法,需要模型识别何时两个物体(例如球和形状的边缘)发生碰撞。写得不好的算法可能会导致明显的物理错误。
随着 DeepSeek R1 在国外持续发酵,微软、NVIDIA、亚马逊等美国云计算平台纷纷争相采用 R1,而 R1 在这一任务上也压倒了 OpenAI 的 o1-pro。
从 Claude 3.5 Sonnet 和谷歌 Gemini 1.5 Pro 生成的结果来看,DeepSeek 旗下的开源模型确实在性能上领先了一个层次以上。
然而,随着 o3-mini 的发布,舆论似乎一夜之间发生了变化,因为一篇文章宣称 OpenAI 的 o3-mini 已经超越了 DeepSeek R1。目前,这篇文章已吸引了近 400 万网友的关注。
开发者使用的提示是:“write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically.”(编写一个Python程序,展示一个球在旋转的六边形内弹跳。球应受重力和摩擦力的影响,并且必须真实地从旋转的墙壁反弹。)
这意味着 o3-mini 和 DeepSeek R1 都被要求编写一个 Python 程序,使得球在旋转的六边形内弹跳,且小球在弹跳过程中需要受到重力和摩擦力的影响。最终的结果如下:
在结果方面,o3-mini 展现了更好的碰撞和弹跳效果。从重力和摩擦力的理解上看,DeepSeek R1 版本中的小球似乎与牛顿定律相悖,完全忽略了重力。
这并非个别情况。hyperbolic_labs 的联合创始人金宇晨(Yuchen Jin)曾经指出过这个问题。他将提示“write a python script of a ball bouncing inside a tesseract”(编写一个Python脚本,模拟一个球在四维超立方体内部弹跳)输入到 DeepSeek R1 和o3-mini 中。
四维超立方体的每个顶点相邻四条边,每条边连接两个立方体。四维空间中的几何形状超出了人类的直观感知,因此当我们听到这些描述时,可能很难想象四维超立方体的样子。
o3-mini 不仅展示了一个稳定的几何结构,而且小球在四维空间内弹跳的轨迹也非常灵活,给人一种撞击立方体侧面的冲击感。
根据金宇晨的说法,他尝试了多次,每次使用 DeepSeek R1 的结果都不如 o3-mini 的一次尝试。例如,这次尝试的结果只是留下了一个静止的小球。
在 Pass@1 测试中,这次 DeepSeek R1 展示了小球和几何框架,甚至小球的颜色也发生了变化。不幸的是,它将四维超立方体简化为三维空间坐标。
来源:AIGC研究社