金山云在智算领域的全面布局与实践

B站影视 2025-01-10 11:51 2

摘要:在2025年1月7日举办的金山云年度Tech Talk上,金山云高级副总裁刘涛指出,过去一段时间,金山云在底层的超算网建设能力上取得了非常大的进步。传统上,算法工程师和专家倾向于使用成本高昂的infinite资源。然而,从2023年开始,金山云决策重点投入Ro

近年来,金山云在智算领域取得了显著进展,特别是在底层超算网的建设、全站服务能力以及具体客户应用案例方面,展现了其强大的技术实力和全方位的服务能力。

在2025年1月7日举办的金山云年度Tech Talk上,金山云高级副总裁刘涛指出,过去一段时间,金山云在底层的超算网建设能力上取得了非常大的进步。传统上,算法工程师和专家倾向于使用成本高昂的infinite资源。然而,从2023年开始,金山云决策重点投入RoCE技术,经过两年的努力,如今已经能够承载超过万卡的单一集群。同时,整个平台的监控、故障自愈以及质量稳定性体系也已经建设得较为完备,包括自动化建设等方面的能力也取得了长足的进步。

从基础平台到金山云翰海平台,再到金山云轻舟行业模型,以及最终面向客户场景的应用,金山云构建了一个完整的服务体系。作为一家云厂商,金山云在算力和服务交付方面实现了全方位的覆盖。无论是普通的公有云及其所有设备、设施和技术服务,还是轻度的混合云解决方案,金山云都能提供。此外,针对不同客户的数据隐私性要求,金山云还提供了完全私有化的解决方案,并在海外承接了智算中心的建设项目。

与会期间,刘涛还具体分享了众多客户应用案例:

1. 大数据处理客户案例:该客户的数据处理业务全量在金山云,依赖于金山云的serverless云平台进行数据抓取、清洗和训练。其使用的算力集群规模庞大,且实现了连续13天任务无中断的高稳定性运行。这得益于金山云平台的自愈能力,以及故障自愈技术的成功应用。

2. 研究院数据存储场景:某研究院使用金山云的对象存储进行存算分离的数据分析。金山云为其提供了基于对象存储的solution,满足了其多模态数据处理的需求。

3. IaaS与PaaS融合降本案例:某客户通过金山云的IaaS资源被PaaS纳管的模式,实现了成本的大幅降低。该客户使用弹性裸金属的方式组建了一个万核集群,并通过调动PaaS平台来纳管这些资源,最终用于数据清洗。

4. 汽车客户高性能存储案例:国内某领先的自动驾驶汽车厂客户,基于金山云的裸金属自建了高性能存储,并使用金山云提供的传输服务和传统的算力集群互连。

5. 机器人公司真实数据训练案例:随着机器人行业的快速发展,传统仿真方式带来的控制进度难以提升。某机器人公司开始使用更多真实采集的数据进行模型训练和数据处理。金山云为其提供了华东区域互联和全国统一的网连到西北地区的超算中心的解决方案。

6. 互联网客户AI业务场景:典型互联网客户基于开源进行精调,并使用金山云的资源进行推理。这是互联网客户非常普遍的场景之一。

金山云在智算领域已经取得了显著的成果和丰富的实践经验。随着技术的不断进步和市场的不断拓展,金山云将继续致力于为客户提供更加优质、高效和全面的智算服务。(文/徐培炎)

来源:我可以不吃东西

相关推荐