摘要:在全球AI浪潮奔涌向前的当下,AI发展重心正向边缘终端转移。其中端侧AI语音技术已日益融入日常,为用户带来更高效便捷的生活与工作体验。
【环球网科技报道 记者 郑湘琪】在全球AI浪潮奔涌向前的当下,AI发展重心正向边缘终端转移。其中端侧AI语音技术已日益融入日常,为用户带来更高效便捷的生活与工作体验。
近日,荣耀与上海交通大学联合完成的两篇聚焦端侧多语种任务的研究成果,入选国际音频领域顶会INTERSPEECH 2025录用论文,标志着中国端侧AI语音技术在国际舞台上的影响力与日俱增。
“AI 技术的终极价值在于更好地服务用户,而端侧AI 是实现隐私安全与极致体验平衡的最优路径。”荣耀MagicOS副总裁孙建发表示,此次研究成果入选 INTERSPEECH,是对荣耀技术创新的鼓励,同样印证了“从用户需求出发”的研发理念,让每位用户在无网络环境下也能享受精准、实时的多语种翻译,这才是端侧AI真正的普惠价值。
破解多语种翻译桎梏:兼顾高精度与实时性
在语音交互领域,长期以来存在一个难以调和的矛盾:若要实现高精度的语音识别与翻译,往往需依赖云端强大的算力支持,但这又会带来延迟高、隐私泄露风险大等问题;而若全部在终端设备处理,虽可保障隐私与实时性,却受限于手机等设备的算力与存储,难以实现复杂场景下的多语种、高准确率处理。
尤其是面对全球语种多样、口音复杂的实际使用环境,传统端侧方案往往表现乏力,用户或需要手动切换语种、等待语句结束才能识别,甚至为每一个语种单独下载体积庞大的语音包,体验割裂且繁琐。
如何破解这一行业桎梏?在与上海交通大学开展的联合研究中,荣耀前瞻性提出两项核心技术方案——“单调有限前瞻注意力机制”与“键-值寄生投机网络”。前者使得AI能够在用户说话的同时进行流式识别与转写,无需等待整句结束即可开始处理,极大降低了交互延迟,实现了“边说边识别”的自然体验;后者则通过巧妙的模型结构设计,让一个小规模的“寄生”网络与主模型协同工作,复用中间计算结果,避免重复推理,在几乎不损失精度的情况下额外提升40%的推理速度。
据荣耀团队方面介绍,实测数据显示,两项技术方案将内存占用从传统方案的3-4GB压缩至仅800MB,下降幅度达75%,同时在翻译准确率上提升16%,推理速度提升38%。而荣耀基于论文技术构建的全球首个端侧语音大模型,参数量仅0.8B,却已内置中、英、德、法、西、意六种语言能力,用户无需单独下载任何语种包即可实现离线、实时互译,为用户带来“即开即用”的使用体验。
正如荣耀CEO李健曾表示的,“荣耀阿尔法战略第一步的核心,在于将以人为本的AI技术深度融入智能手机,旨在全面激发人类潜能。”荣耀这两项技术的研究目标不是简单追求参数的庞大,而是要在端侧有限资源下,做“小而美”“快而准”的AI,从而让AI更聪明地利用每一分算力,更贴近人类交互的真实场景。
从技术到生态:产学研融合释放乘法效应
荣耀端侧语音大模型的落地,其意义远不止于技术参数的提升,更在于为整个行业指明了端侧AI语音技术发展的新路径。它证明了通过算法创新与软硬件协同优化,可以在一部智能手机上实现媲美云端的语音交互体验,同时严守隐私保护的底线。而这一突破的背后,是产学研深度融合的创新模式带来的乘法效应。
荣耀与上海交通大学的合作历时11个月,从实验设计到商业化测试形成了完整闭环。这种校企合作模式不仅加速了技术创新,更缩短了从实验室到产品的转化路径。这种产业链上下游的紧密协作,正是端侧AI能够突破资源约束的关键所在。
事实上,自MWC 2025期间阿尔法战略发布以来,荣耀持续深化AI技术领域布局,逐步实现了从AI应用落地、技术开源到端侧语音大模型的关键突破,展现出清晰的AI战略演进脉络。
其中WAIC 2025期间荣耀发布的自研多模态感知大模型——MagicGUI无疑是一页注脚。作为荣耀首个开源GUI大模型,MagicGUI以70亿参数的规模,支撑底层AI智能体的多模态环境感知与自动执行规划能力,综合性能已达到当前行业SOTA模型的水准。而此次端侧语音大模型的落地,进一步扩充了荣耀的AI技术矩阵,助力构建更加完整的AI生态体系,将为MagicOS用户带来更高效、更自然的AI体验。
如今端侧AI在手机的落地进程已按下“加速键”,Canalys 发布的报告显示,2024年全球16%的智能手机出货为AI手机,到2028年,这一比例将激增至54%。在阿尔法战略的指引下,荣耀也将集结生态力量,运用AI技术创新持续上探人机交互的体验边界,让智能设备真正成为用户可靠的数字助手,为用户创造源源不断的新价值。
从学术创新到产品体验,荣耀正在让AI真正“听懂”世界——不只是听清语音,更是听懂用户场景下的实时需求、隐私关切与无缝交流的期待。这条路没有捷径,靠的是对技术创新的坚持,对用户需求的洞察,以及对产业合作的开放态度。可以预见,随着荣耀等企业持续推动端侧AI技术的进化,一个更智能、更安全、更无缝的人机语音交互时代正在加速到来。在这个过程中,中国科技企业正通过扎实的技术创新,在全球AI竞争中走出自己的差异化道路,为世界提供端侧智能的“中国方案”。
来源:环球网海外看中国