国产GPU第一股！摩尔线程大模型对齐研究获国际顶级学术会议认可

摘要：目前摩尔线程业绩呈快速增长态势，2025年1-6月营收7.02亿元，1-9月营收同比增长181.99%，亏损规模收窄18.71%，预计2025全年营收12.18亿-14.98亿元，同比增长177.79%-241.65%。

11月14日消息，摩尔线程智能科技（北京）股份有限公司披露招股意向书，宣布正式启动科创板IPO发行，股票代码为“688795”。

最新公告显示，公司首次公开发行股票将在11月24日进行申购，之后拟在上交所科创板上市，标志着高端GPU芯片领域即将迎来“国产GPU第一股”。

这次公司拟发行7000万股，占发行后总股本14.89%，初步询价日为11月19日，网下/网上申购日为11月24日。

财务方面，摩尔线程尚未盈利，累计未弥补亏损16.04亿元，之所以亏损，主要是摩尔线程高额的研发投入导致，预计2027年有望实现合并报表盈利。

目前摩尔线程业绩呈快速增长态势，2025年1-6月营收7.02亿元，1-9月营收同比增长181.99%，亏损规模收窄18.71%，预计2025全年营收12.18亿-14.98亿元，同比增长177.79%-241.65%。

本次报考上市，摩尔线程计划募资80亿元，将用于新一代自主可控AI训推一体芯片研发项目、新一代自主可控图形芯片研发项目、新一代自主可控AISoC芯片研发项目，以及补充流动资金。

作为国内高端AI芯片领域极为稀缺的领军企业，摩尔线程自2020年成立以来，始终专注于全功能GPU的自主研发与设计，

基于其完全自主研发的MUSA统一系统架构，摩尔线程率先实现了单芯片同时支持AI计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码的技术突破。凭借“图形+AI”的双线技术突破，摩尔线程不仅成为国内全功能GPU的先行者，更成功将其产品应用拓展至广阔的企业级与消费级市场。

大模型对齐研究获国际顶级学术会议认可

摩尔线程提出的新一代大语言模型对齐框架 —— URPO 统一奖励与策略优化，相关研究论文近日被人工智能领域的国际顶级学术会议 AAAI 2026 收录，为简化大模型训练流程、突破模型性能上限提供了全新的技术路径。

图源：摩尔线程官方公众号 | URPO 统一奖励与策略优化框架

据介绍，在题为《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的论文中，摩尔线程 AI 研究团队提出了 URPO 统一奖励与策略优化框架，将“指令遵循”（选手）和“奖励评判”（裁判）两大角色融合于单一模型中，并在统一训练阶段实现同步优化。URPO 从以下三方面攻克技术挑战：

数据格式统一：将异构的偏好数据、可验证推理数据和开放式指令数据，统一重构为适用于 GRPO 训练的信号格式。

自我奖励循环：针对开放式指令，模型生成多个候选回答后，自主调用其“裁判”角色进行评分，并将结果作为 GRPO 训练的奖励信号，形成一个高效的自我改进循环。

协同进化机制：通过在同一批次中混合处理三类数据，模型的生成能力与评判能力得以协同进化。生成能力提升带动评判更精准，而精准评判进一步引导生成质量跃升，从而突破静态奖励模型的性能瓶颈。

实验结果显示，基于 Qwen2.5-7B 模型，URPO 框架超越依赖独立奖励模型的传统基线：在 AlpacaEval 指令跟随榜单上，得分从 42.24 提升至 44.84；在综合推理能力测试中，平均分从 32.66 提升至 35.66。作为训练的“副产品”，该模型内部自然涌现出的评判能力在 RewardBench 奖励模型评测中取得 85.15 的高分，表现优于其替代的专用奖励模型（83.55 分）。

从摩尔线程官方获悉，目前，URPO 已在摩尔线程自研计算卡上实现稳定高效运行。同时，摩尔线程已完成 VERL 等主流强化学习框架的深度适配