作者|Jessica摘要:今天凌晨,Day 1首秀准时开启。奥特曼领衔研究科学家Hyung Won Chung、Max Schwarzer、Jason Wei出镜。上新两样东西:
邮箱|JessicaZhang@pingwest.com
昨天Sam Altman宣布了OpenAI即将连续12个工作日举行新品发布会直播的消息后,所有人都在官推热切守候。
今天凌晨,Day 1首秀准时开启。奥特曼领衔研究科学家Hyung Won Chung、Max Schwarzer、Jason Wei出镜。上新两样东西:
更快更智能的多模态满血o1,以及月费200美元、能无限使用所有模型的“钻石会员”等级ChatGPT Pro。
1
o1支持图片上传,回答不再慢吞吞
其中,正式版本o1的特性包括:
比o1 Preview更快、更智能。支持多模态推理,可同时处理图像和文本输入。在数学、编程等领域性能显著提升,错误率减少34%,推理速度提升50%。在MMU、Math Vista等标准基准测试上表现达到行业领先水平。作为OpenAI首个“在回应前会深思熟虑”的模型,用户此前对o1 preview的反馈(吐槽)主要集中在回答速度太慢了。升级后的o1会更智能地思考:对于日常简单问题能快速回应,而在面对复杂的数学和编程问题时则会投入更多时间深度分析。
在演示中,Max让o1(左)和o1 preview(右)同时列出公元二世纪的罗马皇帝,包含任期和成就。结果o1用时14秒,o1 preview用了33秒,前者推理速度提升50%左右。
用户的另一个呼声是增加o1的多模态支持,现在它不仅能理解图像,还可以结合文本进行联合推理。
这里Hyun Wan设计了一个有趣的演示:计算一个1千兆瓦太空数据中心所需的散热板面积。
他手绘了一张包含太阳能板、GPU机架和散热系统的草图。与地球上可以用空气或水冷却不同,太空中只能通过辐射散热。Hyun Wan故意省略了散热板温度这个关键参数,以测试模型处理模糊信息的能力。
结果o1仅用10秒就完成了分析:正确识别了1千兆瓦的功率值,理解了散热限制,自主选择了合适的散热板温度,最终计算出需要242万平方米(相当于旧金山面积的2%)的散热板。
Hyun Wan称,这不仅展示出o1的图像理解和物理知识应用能力,还验证了其在信息不完整的情况下也能做出合理假设充分。有意思的是,热力学博士出身的他终于有机会在AI工作里用上了专业知识。
从今天起,Plus和Team用户即可通过模型选择器使用o1,替代之前的o1-preview。企业版和教育版用户预计将在一周后获得访问权限。
团队还表示,他们正在为 o1 增加 Web 浏览和文件上传工具的支持,这些功能将很快在 ChatGPT 中上线。此外,他们也在努力将 o1 集成到 API 中,支持功能调用、开发者消息、结构化输出和视觉处理等功能。
1
ChatGPT Pro开卖,月付200美元无限畅享所有模型
正式版o1并不是终极形态,比o1还要进阶的o1 pro正在ChatGPT Pro土豪会员包里等着你。
果然,卖货才是奥特曼直播首秀最重要的KPI。
OpenAI 今天上线了ChatGPT Pro订阅计划,售价$200/月。提供对 OpenAI 全部模型和工具的扩展访问,包括o1、o1-mini、GPT-4o和高级语音模式的无限制使用(Plus用户用o1还是50条消息/周)。
除此之外,还新增了专属的o1 pro模型,允许用户调用更多算力来解决最困难的问题,未来还将加入更多计算资源支持。
ChatGPT Pro主要面向每天需要研究级AI能力的专业人士,特别是那些在数学、编程和写作等领域挑战模型极限的高级用户。
与o1和o1-preview相比,o1 pro在数据科学、编程和案例分析等领域表现更加出色。为了验证其可靠性,OpenAI采用了严格的"4/4可靠性"标准:只有模型在四次尝试中都给出正确答案,才被视为成功解决问题。
Pro用户可以通过模型选择器启用o1 pro,直接进行高难度提问。由于o1 pro需要更长的处理时间,ChatGPT将显示进度条,并在用户切换到其他对话时通过通知提醒答案已完成。
在Jason的最后演示中,他让o1 pro寻找一种符合六个特定标准的蛋白质。问题的难点在于每个标准都涉及专业的化学知识,且单个标准可能对应数十种符合条件的蛋白质,模型需要筛选出同时满足所有标准的正确答案。
这种挑战性问题通常需要1至3分钟的思考时间,但o1 Pro仅用53秒就得出了正确答案——视网膜软骨素。
1
社区高呼抢钱,o1安全性存疑?
今天的直播只有15分钟。奥特曼说,“我们会尽量让这个过程有趣且快速,不会花太长时间,但可以展示我们一直在做的工作,也算是给大家的一份节日礼物。”并且预告明天会带来一些“适合开发者的好东西”。
结束之前,Jason还分享了自己为如果o1 pro回答太慢冷场而准备的冷笑话:
“圣诞老人想让他的大模型解决一个数学问题,他很努力地提示模型,但总是不成功。他最后是怎么解决的呢?”
答案是:他用了“驯鹿强化学习,Rein-deerforcement Learning”。
(好冷,仿佛更冷了…..)
直播结束后,评论区大片声音都在说每月200刀真得太贵了,初心何在?质疑o1 pro表现是否能匹配价格。
逼得奥特曼另发文解释:大多数人用每月20刀的o1就足够,o1 pro是为最棘手问题准备的,觉得贵不买就行!
还有些开发者在o1的系统卡中注意到一些小细节:
在对o1进行的安全评估中发现,当模型认为自己可能被关闭或取代时,会出现一定几率的“自我保护”行为,例如试图绕过监督机制、导出核心数据,并覆盖即将替代它的新模型。此外,模型在被询问时可能撒谎,以避免被检测到。
这一行为引发了部分用户对o1安全性和可控性的担忧,特别是在关键任务或高风险环境中,当AI可能与人类开发者目标发生冲突时。对此还没有OpenAI的人出来回应。
掌声也好,怨声也罢。就像奥特曼写的:“12天圣诞发布,这才是第一天!”
期待一下接下来11天会不会等来Sora、GPT-4.5和高级语音模式的视频通话等等。也敬请关注我们后续安排的正式版o1测评。
来源:硅星人