摘要:18 日,LG 公开了国内首个推理型人工智能(AI)模型。推理型模型是一种 AI 模型,可以像人一样经过逻辑和分阶段的思维过程,给出答案。与在已经学习过的数据中寻找答案的传统模型存在差异。最近以低成本、高性能的 AI 模型震撼全球的中国的 DeepSeek 就
18 日,LG 公开了国内首个推理型人工智能(AI)模型。推理型模型是一种 AI 模型,可以像人一样经过逻辑和分阶段的思维过程,给出答案。与在已经学习过的数据中寻找答案的传统模型存在差异。最近以低成本、高性能的 AI 模型震撼全球的中国的 DeepSeek 就是典型的推理型模型。包括 DeepSeek 在内的 OpenAI 等主要大科技公司都投入到了推理型模型的开发中,韩国也开发出了与之竞争的模型。LG 面向普通公众公开了 AI 模型,但未允许普通人使用像 ChatGPT 的 AI 服务,只是用于集团的自主产品开发等。
在数学和科学方面性能出色
LG AI 研究院当天公开了"EXAONE Deep",主力模型为"EXAONE Deep -32B"。AI 在学习和推理时,作为将数据相互连接起来的单位的参数有 320 亿个。参数越多,AI 的性能就越好,但如果想驱动它,就需要越多的 AI 芯片。因此,最近在尽量减少参数的同时提高性能的竞争非常激烈。
DeepSeek-R1 有 6,710 亿个参数。EXAONE Deep -32B 仅为 DeepSeek-R1 的 5% 左右,但性能可与之媲美。实际上,与 DeepSeek、阿里巴巴等主要推理型模型进行性能比较的结果表明,EXAONE Deep -32B 在数学方面的表现尤为出色。在 2024 年美国数学奥林匹克竞赛的问题中,EXAONE Deep 以 90 分超越了 DeepSeek-R1(86.7分),还领先于参数相同的阿里巴巴 QwQ-32B(86.7分)。在韩国 2025 年高考数学题领域,EXAONE Deep 也以 94.5 分创下了与其他模式相比较的最高分。在博士水平的科学题目中,EXAONE Deep 的得分为 66.1 分,高于阿里巴巴 QwQ-32B 的 63.3 分。
但 EXAONE Deep 在编码能力和语言能力上落后于其他模型。在评估语言能力的项目"多课题语言理解"中,得分为 83 分,不及阿里巴巴(87.4)、DeepSeek(90.8)。业界相关人士表示:"推理型模型特别适用于解决数学或科学问题。语言能力与参数较大的模型相比,性能必然会落后"。
LG AI 研究院还公开了进一步减少参数的轻型模型"EXAONE Deep -7.8B"和 On-Device 模型"EXAONE Deep -2.4B"。LG AI 研究院表示:"轻型模型虽然只有 32B 模型 24% 的参数,但性能仍维持在 95%,搭载在设备上的 On-Device 模型虽然只有 7.5% 的参数,但性能却能达到86%"。LG 以"开放源代码”的方式公开了可以称为 AI 模型设计图的"源代码",供其他开发者使用。DeepSeek 也采用了这种开源方式。
LG 向公众免费公开了"源代码",但目前 AI 模型仅限在企业内部使用。因为如果想像 Chat GPT 一样供普通人使用,需要一个巨大的数据中心,至少要花费数万亿韩元。LG 计划分阶段将服务扩展成 B2B 形式。
开发轻便廉价的推理型 AI
NAVER 是韩国企业中 LG同样开发 AI 模型的公司。NAVER 于2023年开发出AI模型"HyperCLOVA X"。近期经过升级后,参数减少了约 60%,同时加强了推理性能。NAVER 表示:"HyperCLOVA X 新模型的运营成本比此前的模型降低了 50% 以上。"NAVER 还在开发专门用于推理的 AI 模型。韩国代表性的 AI 初创企业 Upstage 最近也在正式着手开发推理型 AI。
韩国企业投入推理型模型开发,是为了实现" AI 代理(秘书)"。为了打造与人近似的 AI,需要像人一样思考的推理型模型。AI 代理会掌握各种情况,代替人进行机票预订或预约餐厅等工作。KAIST 教授金祯浩说:"目前 ChatGPT 等生成型 AI 大部分用于问答,但如果将推理型 AI 植入智能手机和电视,用户需要做的事情将在很大程度上被 AI 替代"。
推理型模型
像 ChatGPT 一样的生成型 AI 会将之前学习过的内容中与正确答案最接近的内容作为答案。相反,推理型模型会像人一样经过逻辑和阶段性的思维过程,即使不是学习过的内容,也可以根据现有数据得出新的答案。就像在解答数学题时,经过多个阶段的解题过程来寻找答案一样。
来源:语言学研习