摘要:自从OpenAI o1大模型出现之后,大模型数学推理能力和代码编程能力被推向了一个新的高度。国内各大厂商也看到了这个新的蓝海,纷纷推出了自家的推理大模型。比如,通义千问开发了QwQ模型,DeepSeek(深度求索)推出了R1-Lite,Kimi推出了K1,智谱
本报记者 陈佳岚 广州报道
推理大模型正成为行业一个新的竞争方向。
自从OpenAI o1大模型出现之后,大模型数学推理能力和代码编程能力被推向了一个新的高度。国内各大厂商也看到了这个新的蓝海,纷纷推出了自家的推理大模型。比如,通义千问开发了QwQ模型,DeepSeek(深度求索)推出了R1-Lite,Kimi推出了K1,智谱AI则发布了GLM-Zero,而上海人工智能实验室也推出了名为internthinker(书生思想者)的模型。
2025年1月15日,科大讯飞(002230.SZ)也加入了推理大模型竞争。《中国经营报》记者从科大讯飞方面获悉,讯飞星火深度推理模型X1发布。科大讯飞方面介绍称,这是国内首个基于全国产算力平台训练的具备深度思考和推理能力的大模型。与通用大模型相比,深度推理模型更擅长做数学题这样的复杂任务,而且有全面的思考推理过程,其解题过程更接近人类的“慢思考”方式,并且使用更少的算力。
根据科大讯飞研究员展示的一组数据,讯飞星火X1在近期参加的小初高竞赛类、大学竞赛类、AIME、MATH 500等多项“考试”中,讯飞星火X1在小初高上已经做到了90多分,高于市面上的竞品,小初高竞赛类、大学类、大学竞赛类效果也有80多分,高于国内多家竞品。而相比OpenAI o1,讯飞星火深度推理模型X1在小初高竞赛类、大学竞赛类、AIME类、MATH 500类分数不及。“部分任务由于题目很难以及在国产平台上适配跑通之后我们的训练时间还比较短,过滤的数据还不太多,我们后面还有很大的提升空间。”一位讯飞研究院研究员表示。
记者了解到,搭载全国产算力是讯飞相比其他市面上推理模型的一大特点。
据介绍,讯飞星火首次搭载全国产算力是在2023年10月,当时科大讯飞携手华为宣布首个支撑万亿参数大模型训练的万卡国产算力平台“飞星一号”正式启用。2024年1月30日,全国产算力平台“飞星一号”首个成果讯飞星火V3.5发布,这是首个基于全国产算力训练的全民开放大模型。
国产算力在单卡、集群、生态上都与国际领先水平还有一定差距,在这种情况下,讯飞方面人士坦诚,想要训练出能和OpenAI这种国际领先的深度推理模型掰手腕还是比较困难的。
“首个全国产算力深度推理模型的训练推理涉及多个模型且需要强交互,需要跨任务传输数据及模型权重,训练任务类型也由在线实时响应变为离线高吞吐,而这就需要克服国产卡带宽的短板,在这种复杂的训练模式下,效率的影响因素也非常多,后训练的算力直接飙升了一个数量级。不过在与华为联合攻关之后首个全国产算力深度推理模型的成果也很明显。”上述讯飞研究院研究员向记者介绍,最终,在与华为联合攻关后,该模型的算法不仅在国产算力上成功适配了,而且端到端的训练效率相比A卡集群从刚开始的55%提升到了85%以上。
此前,科大讯飞董事长刘庆峰表示,虽然国内芯片、算力受到的限制越来越多,但也看到其正在倒逼各方对国产算力的加大投入,目前市场上也可以看到国内算力进展很快。
在应用上,讯飞星火深度推理模型X1先落地在教育、医疗等多个场景。具体来看,在教育场景,讯飞星火深度推理模型X1已经部署在北京八中数学教研组、北京101中学数学教研组、合肥七中数学教研组。在医疗场景,其模型策略已在医疗领域取得初步验证成效,基于知识反思和思维链接技术结合医疗循证推理技术,构建了医疗辅助推理能力的X1模型,专科辅助诊断、复杂病例内涵质控的效果都达到了90%。科大讯飞还表示,将在2025年上半年正式发布基于讯飞星火X1的医疗大模型升级版。
资深互联网观察家丁道师告诉记者,随着越来越多企业发力深度推理模型,可以看出,未来深度推理模型领域竞争势必会非常激烈,原因在于深度推理模型与当前社会急需的一些需求和服务更为贴近,尤其是在教育行业,深度推理模型拥有更长链条的逻辑思考和推理能力,也可以自动化许多需要人类专家进行推理和分析的任务,从而提高工作效率。
“不仅是教育领域,目前自动驾驶行业实际上也在应用一些快慢思考理论。以理想汽车为例,其采用的VLM(Vision Language Model,视觉语言模型)技术正是端到端结合VLM的典型应用,体现了埃隆·马斯克(Elon Musk)所倡导的快慢思考理念。这种思考方式在节奏和逻辑上与人类非常相似,而非单纯的机器式思考。一旦掌握了这种慢思考的能力,就能够更加精确地解决和回答大多数与数学、医学考题相关的问题。”丁道师表示,科大讯飞的优势在于之前在教育和医疗行业的布局基础,具备了丰富的应用场景,此外,全国产算力上开发也是其特色。
上述讯飞研究院研究员还表示:“目前的训练时间还不够长,训练数据还不充分,随着飞星二号的算力持续到位,以及行业应用落地带来的数据飞轮效应,会加速X1模型的迭代优化。我们在模型结构和强化学习算法方面已经有了不错的思路和方案,因此对于X1的效果提升是非常有信心的。最近我们发现,X1的技术对星火底座模型也有很强的反哺作用。”
2024年10月,讯飞星火4.0 Turbo大模型发布。这次,讯飞星火4.0 Turbo底座能力也得到了七大核心能力的提升,全面对标OpenAI 最新版的GPT-4o。据介绍,此次升级最重要的特点是针对行业、企业的痛点问题,在数字能力、行业知识、图文识别、长文本能力等能力上实现提升。
比如,图文识别能力直接关乎企业能否高效地采编和利用行业、私域数据,是大模型“学习”的基础。在各行各业的实际工作中,经常面临图文识别的“疑难杂症”:如医疗的体检报告、法院的文书、学术论文、企业合同等,还有复杂长表格、杂乱版式、手写公式、印章手写合同、倾斜少线等情况。
来源:中国经营报