夯实AI时代智算基石,龙蜥智算联盟挑战中谋发展

B站影视 内地电影 2025-08-15 20:08 2

摘要:随着人工智能技术的迅猛发展,算力需求迎来了爆炸式增长。与此同时,大模型、大数据、异构算力的兴起,为AI创新提供了坚实基础之时,也带来了软件与硬件适配、系统稳定性和生态协同等多重挑战。

随着人工智能技术的迅猛发展,算力需求迎来了爆炸式增长。与此同时,大模型、大数据、异构算力的兴起,为AI创新提供了坚实基础之时,也带来了软件与硬件适配、系统稳定性和生态协同等多重挑战。

上述背景之下,在日前举办的2025开放计算技术大会上,国内领先的开源操作系统根社区龙蜥社区携手产业链上下游多方,成立了龙蜥智算基础设施联盟(以下简称龙蜥智算联盟)。联盟汇聚AI芯片、服务器、操作系统、应用开发及高校等产业链各方,以“打造AI原生操作系统、形成开放兼容的AI生态体系、增强AI产业链竞争力”为目标,聚焦开源大模型等AI技术落地过程中的兼容适配、系统稳定性、人才培养以及AI安全等问题,推动操作系统和AI融合发展,促进AI技术在各行业的落地应用。此举被业界视为一次旨在打造面向未来AI原生操作系统生态体系、推动国内AI软硬件协同发展的战略性尝试。

AI时代算力模式转变,面临异构和生态之痛

众所周知,最近几年,AI产业的发展速度超乎想象。尤其是大模型的兴起,带来了算力需求爆炸式增长的同时,彻底颠覆了传统的计算模式,即由传统计算模式中单一的CPU、GPU演变成今天除了CPU、GPU,还有DPU、FPGA、ASIC等算力硬件的异构和多样化,而这种异构和多样化,虽然极大丰富了计算资源,但同时也带来了相应的新挑战。其中最明显的,就是上述不同芯片类型构成的“异构算力”的管理和协调变得越来越复杂。

具体表现在:各芯片厂商往往自带专属的驱动和开发工具,每一家都独立做适配,AI算法开发者则不得不面对多种不同的开发库,软件层面像竖起了“烟囱”,很难打通形成一体化的使用体验。

对此,浪潮信息系统软件产品部总经理苏志远进一步解释道,每家芯片厂商都有自己的驱动和配套的软件开发工具包(SDK),它们各自为战,导致算法开发深度依赖特定硬件。更让业界头疼的是,操作系统版本一升级,好多东西都要跟着变化,甚至不同的加速器厂商对Python等软件包的版本要求都各不相同。而这种适配的复杂性和巨大的工作量,让各方都不得不将宝贵的人力、物力投入到繁琐的兼容适配工作,而不是更具价值的AI技术创新。

事实上,除了异构算力的适配,万亿参数的大模型还需要万卡级别的集群来支撑,但如此庞大的集群极易出现故障,且稳定性差,稍有不慎就可能出现性能瓶颈,甚至系统崩溃,进而影响AI模型的稳定运行,而一旦大规模设备间出现故障,其定位和恢复又成了新的问题。同时,内存、存储和网络带宽也成为制约性能的瓶颈,导致AI大模型的效率难以充分发挥。此外,随着AI应用的普及,数据安全与隐私保护也变成一个日益突出的社会性难题。

龙蜥智算联盟呼之已出,推进之中存挑战

正是基于我们上述算力模式转变,产业面临的异构和生态之殇,在日前举办的2025开放计算技术大会(OCP)上,龙蜥智算联盟呼之已出,并公开阐述了其核心目的。

对此,我们可以概括为三个层面,即打造“AI Native OS”,实现AI硬件与龙蜥操作系统的原生适配,从芯片层面构建原生友好的操作系统,消弭软硬件间的兼容性鸿沟;降低适配复杂度,即通过降低AI硬件与龙蜥操作系统不同商业发行版的适配成本,让更多的人力资源从繁琐的兼容工作中解放出来,投入到更具价值的AI技术研究中;构建开放兼容生态,形成一个开放兼容的AI软硬件技术和生态体系,推动国内外AI技术创新和生态发展。

为此,龙蜥智算联盟组建了多个技术工作组,在兼容测试、驱动维护、AI框架优化、故障管理和人才培养等领域协同推进。

以兼容性测试为例,GPU厂商要适配不同版本的龙蜥商业版操作系统,每次都要耗费大量的人力和设备做验证,周期长,重复工作多。为此龙蜥智算联盟制定了统一的兼容性测试基准,明确测试流程和标准,减少适配工作量,以让GPU厂商能节省宝贵时间和成本,更专注于硬件创新。

又如在驱动维护方面,要让操作系统顺利加载不同厂商的GPU驱动,就得保持内核接口的兼容性。针对此,联盟推动龙蜥操作系统内核主线的KABI做了超过800项更新,保障了对新GPU的支持和稳定。此举旨在从技术底层确保硬件生态的可持续性,但维持这种兼容性的长期成本和协调难度依然不容小觑。

而在AI框架优化上,芯片和系统团队联合模型开发者,共同发布开源版本的AI框架,持续优化算子库,推动异构算力协同,做到软硬深度融合,真正提升AI计算性能。

除上述之外,龙蜥智算联盟最引人注目的莫过于其目标致力于打造AI原生操作系统。

对此,龙蜥社区技术委员会主席杨勇认为,所谓的AI原生操作系统,“学术界”和“工程界”有着两种不同的理解,而龙蜥智算联盟所倡导的AI原生操作系统属于工程界的范畴,它不是用AI取代内核,而是将“AI for System”和“System for AI”两种思路相结合。

杨勇进一步解释道,“AI for System”是指利用AI能力来优化操作系统本身。例如,通过智能体辅助进行系统运维、故障排查、安全漏洞发布等工作,让操作系统变得更加智能化、自动化。而“System for AI”则是指为AI应用提供一个更好的运行环境,在操作系统层面深度优化异构算力调度、内存管理、存储和网络等,以充分发挥AI大模型的性能。

简单来说,AI原生操作系统的内涵在于,它是一种“场景概念”和“运营方式”,旨在将AI能力深度融入操作系统的各个层面,使其成为一个能够高效调度多元异构算力、保障安全、简化应用部署、并不断进化的智能平台,为大模型应用提供最肥沃的生长土壤。

当然,除了上述的推进之外,龙蜥智算联盟在发展过程中仍面临某些挑战。

首当其冲的就是如何平衡不同厂商之间的利益与技术差异。对此,龙蜥智算联盟主席宋卓坦承,这是一个“颇有挑战的事情”。他指出,社区的天然问题是其结构相对松散,不像一家公司内部的项目运作那样紧密,而要让不同企业贡献核心技术,并达成共识,需要非常巧妙的治理机制。

事实上,在我们看来,这背后触及的是各厂商的商业核心利益与知识产权壁垒等,而如何建立有效的激励与信任机制是其能否最终成功的关键。

此外,当大规模集群故障频发,GPU出现异常时,如何快速抓取关键信息进行诊断,也是当下提升系统可靠性的难点。对此,龙蜥智算联盟正在推动统一的日志格式和故障管理规范,让集群的故障分析更高效,以降低排错成本。而这不仅是技术标准问题,更是推动众多厂商改变现有运维习惯、流程等的系统工程。

最后,也是最根本的挑战,是如何与业内已经成熟且处于垄断地位的国际及国内某些生态竞争。原因很简单,龙蜥智算联盟的技术路线即便再完美,最终也要面对市场的检验,而要吸引芯片厂商、开发者、用户等从一个拥有数十年积累、工具链完善、社区庞大的生态迁移过来,不仅需要提供性能相当,甚至超越的替代方案,更需要投入巨大的资源进行市场教育、开发者支持和生态激励等。

风物长宜放眼量,夯实智算新基石

所谓风物长宜放眼量。尽管在现实的推进之中存有挑战,但从其更长远的未来看,通过产业链深度协同、统一标准与生态繁荣、成为智算普惠的加速器等,龙蜥智算联盟最终的愿景是充当夯实智算新基石的战略角色。

以产业链的深度协同为例,龙蜥智算联盟的成员涵盖了AI芯片、服务器、操作系统、大模型和应用开发等产业链上下游的20多家企业和机构,而这种全栈协同是其相较于其他联盟和厂商的核心优势所在。

正如宋卓所言,龙蜥智算联盟的一个重要目的就是“通过上下游的结合,把整个的技术栈端到端地串联起来”。而这种协同,能够有效地解决不同环节之间的技术瓶颈和适配问题,共同提升整个产业链的竞争力。

又如在统一标准与生态繁荣上,苏志远在采访中提到,龙蜥智算联盟的工作将推动统一操作系统内核、软件包、API和KABI(内核应用二进制接口)等标准规范的建立。这不仅能大大降低适配成本,还能让开发者避免重复踩坑,从而为整个AI生态的繁荣奠定坚实的基础。

想象一下,未来开发者无需为不同厂商的AI加速卡编写不同的代码,只需遵循统一的API接口,就能轻松地在不同硬件平台上部署和运行AI应用,这将极大地激发创新活力,吸引更多的开发者和企业加入到龙蜥智算生态中来。

至于成为智算普惠的加速器,杨勇称,龙蜥智算联盟致力于通过打造一个更通用的、更易用的智算基础设施,将间接地为普通企业打造一个“未来AI的智能体、应用,良好运行的环境”,即通过操作系统深度集成最优的推理部署框架,可以让企业部署AI应用变得像使用微信小程序一样方便。例如,一家中小企业想要部署一个AI客服机器人,无需了解复杂的硬件配置和软件栈,只需在龙蜥操作系统平台上进行简单的配置,就能快速上线,这无疑将大大降低AI技术的应用门槛,加速AI普惠的实现,让更多企业能够享受到大模型带来的技术红利。

龙蜥智算联盟的成立,是增强国内基础软件自主创新能力的重要举措,即通过凝聚产业力量,推动关键技术攻关与协同创新,积极探索新型操作系统在AI计算领域的标准化工作,进而夯实数字经济的算力基石。

写在最后:龙蜥智算联盟的成立,不只是一个组织的搭建,更是AI算力基础设施建设的一次关键的破局尝试,即通过联结芯片、系统、应用多方力量,以务实和开放的姿态,推动AI原生操作系统生态的稳步发展。

然而,在挑战犹存之时,我们认为,其最终的成功不仅取决于技术路线的正确执行和成员间的有效协同,更要看它能否在激烈的市场竞争中,真正建立起一个对开发者有足够吸引力、开放且持续繁荣的生态系统,加之面对复杂多变的AI技术和产业环境,龙蜥智算联盟用创新和合作能否为中国数字经济和智能产业注入可持续发展的动力,还是让我们拭目以待吧。

来源:孙永杰的ICT评论一点号

相关推荐