中科曙光与海光信息成功适配DeepSeek V3和R1模型,推动国产化进程

B站影视 2025-02-05 11:00 2

摘要:2月4日,中科曙光国家先进计算产业创新中心有限公司发布消息,海光信息技术团队成功完成了DeepSeek V3和R1模型与海光DCU(深度计算单元)的国产化适配,并正式上线。这一重要进展标志着国产AI技术在高性能计算领域的又一次突破,为行业客户提供了更为强大的A

2月4日,中科曙光国家先进计算产业创新中心有限公司发布消息,海光信息技术团队成功完成了DeepSeek V3和R1模型与海光DCU(深度计算单元)的国产化适配,并正式上线。这一重要进展标志着国产AI技术在高性能计算领域的又一次突破,为行业客户提供了更为强大的AI加速计算解决方案。

DeepSeek V3和R1模型基于Transformer架构,采用了Multi-Head Latent Attention(MLA)和DeepSeek MoE两大核心技术。MLA技术通过减少KV缓存,显著降低了内存占用,提升了推理效率。这一创新使得模型在处理大规模数据时,能够更加高效地利用计算资源,减少延迟。

DeepSeek MoE则通过辅助损失(auxiliary loss)实现了专家负载的智能平衡,进一步优化了模型性能。这种智能平衡机制确保了各个专家的负载均匀分配,从而提升了模型的整体推理能力和响应速度。

海光DCU是海光信息推出的高性能GPGPU架构AI加速卡,致力于为行业客户提供自主可控的全精度通用AI加速计算解决方案。DCU的设计理念是为各行各业提供强大的计算支持,尤其是在科教、金融、医疗、政务和智算中心等多个领域,DCU已经实现了规模化应用。

DCU的高性能计算能力使其能够处理复杂的AI任务,支持大规模模型的训练与推理。通过与DeepSeek模型的适配,DCU平台的用户将能够更轻松地部署和使用这些先进的AI模型,进一步推动行业的智能化转型。

用户可以在“光合开发者社区”的“光源”板块访问并下载相关模型,或登录光源官网搜索“DeepSeek”,即可基于DCU平台部署和使用相关模型。这一便捷的访问方式将大大降低用户的使用门槛,使得更多企业和开发者能够快速上手,利用DeepSeek模型的强大能力。

随着DeepSeek V3和R1模型的国产化适配,海光DCU平台的应用前景愈发广阔。在科教领域,这些模型可以用于教育资源的智能分配和个性化学习方案的制定;在金融行业,则可以应用于风险评估和智能客服等场景;在医疗领域,DeepSeek模型能够辅助医生进行疾病诊断和治疗方案的制定;在政务方面,智能化的决策支持系统将提升政府服务的效率和透明度。

中科曙光与海光信息的合作,标志着国产AI技术在高性能计算领域的又一次重要进展。DeepSeek V3和R1模型的成功适配,不仅提升了海光DCU的计算能力,也为各行业的智能化转型提供了强有力的支持。随着技术的不断进步和应用场景的不断拓展,未来我们有理由相信,国产AI技术将在全球范围内发挥越来越重要的作用。

来源:这个宇宙

相关推荐