摘要:1月2日,OpenAI正式推出全新推理模型o3-mini,这一举措在AI领域激起千层浪。作为OpenAI推理系列中最新且最具成本效益的模型,o3-mini有着独特的优势。它能够以更低的成本、更快的响应速度,为用户提供出色的STEM能力,尤其在科学、数学和编程领
OpenAI上线O3 Mini模型,作为对DeepSeek热潮的回应。
该模型是OpenAI推理系列中最新、最具成本效益的,已在ChatGPT和API中开放。
OpenAI CEO萨姆·奥尔特曼首次承认,在开源问题上,OpenAI曾站在历史的错误一方。
截止当前DeepSeek依然霸榜,位列Appstore 157个国家/地区中排名第一。
01.
首次向免费用户开放推理模型
1月2日,OpenAI正式推出全新推理模型o3-mini,这一举措在AI领域激起千层浪。作为OpenAI推理系列中最新且最具成本效益的模型,o3-mini有着独特的优势。它能够以更低的成本、更快的响应速度,为用户提供出色的STEM能力,尤其在科学、数学和编程领域表现亮眼,还延续了之前版本低成本和低延迟的特点,开发者可根据需求选择低、中、高三种“推理努力”选项。
OpenAI此次还打破常规,首次向免费用户开放推理模型。ChatGPT Pro用户可无限制访问o3-mini,Plus和Team用户每日消息限制从o1-mini的50条提升至150条,免费用户也能通过选择“Reason”模式或重新生成回复来体验。
OpenAI在官网对比显示,o3-mini在不同推理强度下与o1系列各有优劣,在数学、编程和科学领域,它能以更快响应速度实现与o1相当的性能,但在某些领域优势微弱,如在2024年美国数学邀请赛(AIME)测试中,高推理强度下仅比o1高出0.3个百分点 ,博士级科学问题(GPQA Diamond)基准测试中,高推理强度下也未超过o1得分。
这场关于DeepSeek的争吵越演愈烈。Meta首席科学家杨立昆评价,硅谷圈子中的“常见病”是:错位的优越感。
2个要点:
1、AMA 活动表态:奥尔特曼首次承认在开源上 OpenAI 站在了历史错误一方,称需要找出不同的开源策略。但这不是当前最高优先事项,公司内部也并非所有人认同。
2、其他回应:还回应了用户关于思维 Tokens(将展示更有帮助和详细版本)、完整版 o3 发布时间(估计超几周、少于几个月)、语音模式和 GPT - 5(语音模式更新即将到来,可能叫 GPT - 5,暂无时间表)等问题。
o3-mini发布的同时,OpenAI高管团队在Reddit举办AMA活动。
当被问及是否会考虑发布一些模型权重以及研究时,首席执行官萨姆·奥尔特曼首次承认:“我个人认为,我们站在了历史的错误一边,需要找出一个不同的开源策略。”
这一表态引发业界震动,或许预示着OpenAI未来战略的重大调整。在全球高效开源模型日益受青睐的背景下,OpenAI的闭源策略面临挑战。
不过奥尔特曼也强调,这并非公司当前最高优先事项,且公司内部并非所有人都认同这一观点。
此外,他还回应了诸多问题,如表示将展示更有帮助和详细的思维Tokens版本,完整版o3发布估计超几周、少于几个月,语音模式更新即将到来,可能直接叫GPT - 5但暂无时间表等。
梁文锋的“摩尔定律”:
算法每年进步约 4 倍,计算量减为 1/4
1、硬件投入:DeepSeek斥资超5亿美元购置GPU,拥有至少约5万块Hopper架构GPU,总服务器资本支出约16亿美元,运营成本9.44亿美元,GPU在幻方量化和自身间共享用于多领域。
2、人才策略:员工约150人,秀人才提供超130万美元年薪,远超同行,在BOSS直聘上,核心岗位薪资高,多为14薪。
3、技术创新:运用多标记预测(MTP)并结合FP8精度,以低算力提升性能;作为混合专家模型,借助门控网络优化Token路由;凭借多头潜在注意力(MLA),将KV Cache数量减少约93.3%,降低推理成本。
4、AI算法的“摩尔定律”:算法每年进步约 4 倍,计算量减为 1/4。
春节期间,DeepSeek成为当之无愧的AI顶流。
SemiAnalysis报告显示,DeepSeek在硬件投入上毫不吝啬,GPU投资超5亿美元,拥有至少约5万块Hopper架构GPU,总服务器资本支出约16亿美元,运营成本高达9.44亿美元。
研究显示,DeepSeek并非“副业”,其GPU资源在幻方量化和DeepSeek之间共享,用于交易、推理、训练和研究,展现出强大的硬件实力和投入。
如今笔记本小模型性能媲美 GPT-3,这表明算法改进使模型训练和推理所需计算量减少,这种模式不断上演。
DeepSeek的摩尔定律:算法每年进步约 4 倍,计算量减为 1/4
1、算法:算法每年进步约 4 倍,计算量减为 1/4,有观点认为可达 10 倍改进,GPT-3 推理成本降至 1/1200 。
2、GPT - 4:早期成本下降明显,虽后期差异缩小,但经优化成本降为 1/10,能力提升。
DeepSeek 的优势:DeepSeek 率先实现当前成本与能力的平衡,还开放权重,预计成本将进一步降至 1/5。
人才策略上,它注重能力和好奇心,不考虑资历,在国内顶尖大学举办招聘活动,为有前途的候选人提供超130万美元年薪,远高于国内同行。
技术创新方面,多token预测、多头潜注意力等技术是其制胜法宝。例如,Multi - head Latent Attention(MLA)多头潜在注意力将每个查询所需的KV Cache数量减少约93.3%,显著降低推理价格;DeepSeek V3利用多标记预测(MTP),以较低计算能力提高性能,基于门控网络将Token路由到正确子模型,提升训练效率并降低推理成本。
(Michelle Pokrass,OpenAI API研究主管):
面对DeepSeek的火爆,我们OpenAI也在积极回应。我认为,o3-mini作为一款极具竞争力的模型,在与美国托管版本的DeepSeek对比时,展现出了其独特的优势。我们一直在努力提升模型的性能和效率,以满足用户的需求。
(萨姆·阿尔特曼,OpenAI首席执行官)观点:
DeepSeek无疑是一个非常出色的模型,它的出现让我们看到了中国企业在开源领域的积极作为。这促使我们重新审视自身的策略,并意识到在未来的竞争中,OpenAI将保持比往年更少的领先优势。因此,我们需要不断创新,以保持我们的竞争力。
此外,我们也将效仿DeepSeek,更多地揭示推理模型的“思考过程”,这有助于用户更好地理解模型的工作原理,并提升模型的透明度。
多家科技巨头回应:
微软CEO纳德拉称赞DeepSeek的创新,并认为AI成本下降是大趋势。微软已在Azure AI Foundry和GitHub上提供DeepSeek R1,计划本财年投入800亿美元用于AI。
Meta创始人扎克伯格视DeepSeek为竞争对手并正在学习,但评估其影响尚早。Meta预计2025年成本在1140亿-1190亿美元,明年AI投资将占600-650亿美元。
阿斯麦CEO傅恪礼认为低成本AI模型将刺激AI芯片需求。
英伟达宣布DeepSeek R1模型在其平台上作为预览版提供,并回应了关于GPU芯片的谣言,指出DeepSeek技术可能推动AI开发需求,增加GPU销量。
亚马逊云科技举办线上直播,介绍在Amazon Bedrock上部署DeepSeek模型的方法。
关于DeepSeek,全网讨论最多的十点!
1. 训练成本:宣称R1模型训练仅花550万美元,这只是最终训练阶段成本,未涵盖人才薪资等,引发争议。
2. 硬件资源:曾被传有五万张H100,实为谣言,幻方GPU约1万多张,主力是A100和H800,也有人怀疑其隐瞒真实数量。
3. 套壳质疑:因回答误认自己为GPT,被疑套壳。但DeepSeek开源,风格与GPT差异大,基本可排除。
4. 模型抄袭:有人认为R1蒸馏或照抄OpenAI o1 ,但它有独特训练方法和思维链能力,并非抄袭。
5. 模型大小:有人以为是能在个人电脑跑的小模型,实际DeepSeek V3/R1是671B超大模型,个人电脑跑的是微调小模型。
6. 公司营销:被质疑是幻方包装割韭菜或靠营销走红,实际2023年年中就开展大模型研究,在开源模型领域一直领先。
7. 业务定位:常被误解为幻方业余项目,实则对核心人员来说是主营业务。
8. 产品体验:APP存在拒绝回答、回答慢等问题,被指模型能力差,实则多为产品问题。
9. 技术地位:有人认为是国内首个顶级模型,标志中国AI崛起;也有人觉得虽有进步,但无颠覆性创新。
10. AI 领域的 “斯普特尼克时刻”:许多专家将 DeepSeek 的发布形容为 “AI 的斯普特尼克时刻” ,它将刺激全球 AI 竞争,推动行业加速发展。(1957年苏联发射斯普特尼克1号卫星震惊美国并引发太空竞赛)
知芯片事、答天下问
来源:芯榜