阿里Qwen团队:AI助手实现看听说与实时思考

B站影视 内地电影 2025-08-04 22:13 1

摘要:这项由阿里巴巴Qwen团队开发的突破性研究发表于2025年3月27日,名为《Qwen2.5-Omni Technical Report》。有兴趣深入了解的读者可以通过arXiv:2503.20215v1访问完整论文,或者在Hugging Face、ModelS

这项由阿里巴巴Qwen团队开发的突破性研究发表于2025年3月27日,名为《Qwen2.5-Omni Technical Report》。有兴趣深入了解的读者可以通过arXiv:2503.20215v1访问完整论文,或者在Hugging Face、ModelScope和GitHub上找到相关代码和模型。

人类在日常生活中能够同时看到画面、听到声音,然后用语言或表情来回应——这看起来很自然的能力,对于人工智能来说却是一个巨大的挑战。就像让一个机器人同时学会听音乐、看电影,还要能即时发表感想一样困难。不过,阿里巴巴的Qwen团队刚刚在这个方向上取得了重大突破,他们开发出了一个名为Qwen2.5-Omni的AI模型,这个"全能型选手"不仅能同时理解文字、图片、音频和视频,还能像人类一样实时地用文字和语音来回应。

这项研究的创新之处在于解决了一个关键问题:如何让AI同时处理多种信息输入,并且能够流畅地进行"思考"和"说话"。以往的AI要么擅长看图片,要么擅长听声音,很少有能同时做好这些事情的。而Qwen2.5-Omni就像一个真正的"多面手",能够在观看视频的同时听取音频内容,然后实时地用自然语言回应用户的问题。更令人印象深刻的是,它能够同时生成文字回答和语音回答,就像人类大脑指挥嘴巴说话的同时,手也能写字一样。

一、破解多模态理解的时间同步难题

当我们看电影时,画面和声音是完美同步的——演员说话时嘴唇的动作和声音完全对应。但对AI来说,要做到这种同步理解却不简单。Qwen团队首先要解决的就是如何让AI正确理解视频中的画面和音频之间的时间关系。

研究团队提出了一个叫做TMRoPE(Time-aligned Multimodal RoPE)的新方法。用一个简单的比喻来说,这就像给AI装上了一块精准的时钟,让它能够准确记录每个画面和每个声音出现的具体时间。传统的AI处理视频时,往往把画面和声音分开处理,就像两个人分别看无声电影和听广播剧,然后试图拼凑出完整故事一样。而TMRoPE技术让AI能够像人类一样,同时感知画面和声音,并且清楚地知道它们之间的对应关系。

具体来说,这个技术把时间信息分解成三个维度:时间位置、画面高度和画面宽度。对于文字输入,这三个维度使用相同的位置标识,就像给每个字词贴上相同的时间标签。对于音频,系统每40毫秒设置一个时间点,确保音频处理的精确性。当处理图片时,时间位置保持不变,但会根据图片中每个区域的位置分配不同的高度和宽度标识。最有趣的是处理带音频的视频:系统会动态调整每一帧的时间标识,确保一个时间单位始终对应40毫秒的真实时间。

为了让AI能够同时接收视觉和听觉信息,研究团队还设计了一种"时间交错"的处理方法。他们将视频按照2秒钟为单位进行分段,在每个2秒的片段中,先处理视觉信息,再处理音频信息,然后将两者交错排列。这就像阅读一本交替出现图片和文字说明的杂志,AI能够自然地理解两者之间的关联。

二、"思考者-说话者"架构:模拟人类大脑分工

人类能够同时思考和说话,这得益于大脑的精妙分工。当我们回答问题时,大脑的某个区域负责思考和组织语言,另一个区域则控制发声器官。Qwen团队受到这种自然分工的启发,设计了一个叫做"Thinker-Talker"(思考者-说话者)的架构。

在这个架构中,"Thinker"就像人类的大脑,负责处理和理解来自文字、音频、图片和视频的各种信息,然后生成高级的语义表示和相应的文字回答。它使用的是类似现有大语言模型的Transformer解码器结构,配备了专门的音频和图像编码器来提取信息。

"Talker"则像人类的发声系统,专门负责将"Thinker"产生的高级表示转换成流畅的语音。它采用双轨自回归Transformer解码器架构,这个设计灵感来自Mini-Omni模型。在训练和推理过程中,"Talker"直接接收来自"Thinker"的高维表示,并且共享"Thinker"的所有历史上下文信息。这样,整个架构就像一个统一的大脑,能够进行端到端的训练和推理。

这种设计的巧妙之处在于,"Thinker"和"Talker"虽然分工不同,但它们通过共享信息紧密协作。当用户提出问题时,"Thinker"不仅要生成文字答案,还要为"Talker"提供足够的语义信息,让它能够以合适的语调、情感和节奏来"说出"答案。这就像一个人在回答问题时,大脑不仅要组织语言内容,还要考虑用什么样的语气来表达。

三、实现真正的流式处理和低延迟

在实际应用中,用户希望AI能够像真人对话一样,问题刚提出就能立即开始回答,而不是等待很长时间后才给出完整回复。这就要求AI具备"流式处理"的能力——能够边接收信息边处理,边思考边回答。

为了实现这种能力,研究团队对所有的多模态编码器都进行了改进,采用"块级流式处理"的方法。这就像将一本厚书分成若干章节,AI不需要读完整本书才开始理解,而是读完一章就能理解一章的内容。具体来说,音频编码器从原来的对整段音频进行完整处理,改为每2秒为一个处理块进行注意力计算。视觉编码器则利用高效的flash attention技术,配合简单的MLP层将相邻的2×2图像区域合并成单个标记,让不同分辨率的图像都能被有效处理。

在语音生成方面,团队设计了一个高效的语音编解码器qwen-tts-tokenizer。这个编解码器能够高效地表示语音的关键信息,并且能够通过因果音频解码器以流式方式解码成语音。语音生成不需要与文字进行词级别或时间戳级别的对齐,这大大简化了训练数据的要求和推理过程。

为了进一步降低延迟,研究团队还提出了滑动窗口机制的DiT模型。这个机制限制了当前标记能访问的上下文范围,专门用于将音频代码转换为波形。他们将相邻的代码分组成块,限制DiT的感受野为4个块(包括向前看2个块和向后看1个块)。在解码过程中,使用Flow Matching技术分块生成梅尔频谱图,确保每个代码块都能访问必要的上下文信息。这种方法通过维持上下文信息来提高流式输出的质量。

四、三阶段训练策略:从基础到精通

要训练出这样一个"全能选手",需要循序渐进的策略。Qwen团队设计了三个训练阶段,就像培养一个学生从入门到精通的过程。

第一阶段类似于"打基础"。研究团队锁定大语言模型的参数,专门训练视觉编码器和音频编码器。这个阶段使用大量的音频-文字和图像-文字配对数据,让AI学会基本的视觉和听觉理解能力。就像先让学生分别学好看图说话和听音识字,为后续的综合学习做准备。模型的LLM部分使用Qwen2.5的参数进行初始化,视觉编码器与Qwen2.5-VL相同,音频编码器则用Whisper-large-v3进行初始化。两个编码器在固定的LLM上分别训练,首先训练各自的适配器,然后再训练编码器本身。

第二阶段是"融会贯通"的过程。团队解冻所有参数,使用更广泛的多模态数据进行训练。这个阶段引入了800亿个图像和视频相关的标记、300亿个音频相关的标记,以及100亿个视频音频相关的标记。这个阶段的目标是让模型学会同时处理多种模态的任务,增强听觉、视觉和文本信息之间的交互和理解。就像让学生学会同时看图、听音、阅读,并且能够综合这些信息来回答复杂问题。

第三阶段是"登峰造极"的训练。团队使用序列长度为32k的数据来增强模型理解复杂长序列数据的能力。在前两个阶段中,为了提高训练效率,最大标记长度被限制在8192个标记。在这个阶段,研究者加入了长音频和长视频数据,并将原有的文本、音频、图像和视频数据扩展到32768个标记进行训练。实验结果表明,这种数据在支持长序列数据方面显示出显著改进。

五、让AI也能"说话":语音生成的三步走

除了理解多种输入,Qwen2.5-Omni还需要学会"说话"。这个过程也分为三个阶段,就像训练一个播音员一样。

第一阶段是"模仿学习"。在这个上下文学习(ICL)训练阶段,除了使用类似"Thinker"的文本监督外,系统还通过下一个标记预测来执行语音延续任务。团队使用包含多模态上下文和语音回答的大量对话数据集。"Talker"学会建立从语义表示到语音的单调映射,同时学会表达适合上下文的多样化语音属性,如韵律、情感和口音。此外,团队还实施了音色分离技术,防止模型将特定声音与不常见的文本模式关联起来。

第二阶段是"纠错改进"。由于预训练数据不可避免地包含标签噪音和发音错误,导致模型产生幻觉,团队引入了强化学习阶段来提高语音生成的稳定性。具体来说,对于每个请求和回答文本以及参考语音,他们构建一个包含三元组数据(x, yw, yl)的数据集D,其中x是包含输入文本的输入序列,yw和yl分别是好的和坏的生成语音序列。团队根据与词错误率(WER)和标点暂停错误率相关的奖励分数对这些样本进行排名,使用DPO算法来优化模型。

第三阶段是"个性化定制"。团队在前述基础模型上执行说话人微调,使"Talker"能够采用特定的声音并提高其自然度。这就像让AI学会模仿不同人的说话风格和声音特色,使生成的语音更加多样化和自然。

六、性能表现:全方位的能力验证

要验证Qwen2.5-Omni的实际能力,研究团队进行了全面的测试,涵盖了理解和生成两大方面。

在理解能力方面,Qwen2.5-Omni在多个维度都表现出色。在文本理解方面,模型在MMLU-Pro、GSM8K、MATH等基准测试中的表现介于Qwen2-7B和Qwen2.5-7B之间,在大多数基准测试中都超过了Qwen2-7B。在音频理解方面,模型在自动语音识别(ASR)和语音到文本翻译(S2TT)任务上表现优异,在Fleurs_zh、CommonVoice_en等测试集上超越了之前的最先进模型如Whisper-large-v3和Qwen2Audio。

特别值得关注的是,Qwen2.5-Omni在端到端语音指令跟随方面的表现与其处理文本输入的能力相当。在将文本指令转换为语音指令的测试中,Qwen2.5-Omni显著缩小了与使用文本指令的Qwen2-7B之间的性能差距。例如,在MMLU测试中,使用文本指令的Qwen2-7B得分为69.3,而Qwen2.5-Omni使用语音指令的得分达到了65.6,这表明模型在语音理解方面取得了实质性进展。

在图像理解方面,Qwen2.5-Omni与Qwen2.5-VL-7B的性能相当,在MMMU、MathVision、MMBench-V1.1-EN等基准测试中表现出色。在视频理解任务中,模型在Video-MME、MVBench和EgoSchema等代表性测试中都超越了其他同类开源模型和GPT-4o-Mini。

在多模态理解方面,Qwen2.5-Omni在OmniBench基准测试中达到了最先进的性能,平均得分56.13%,远超其他Omni模型。这个基准测试专门评估模型处理混合模态(图像、音频和文本)提示的能力。

在语音生成方面,Qwen2.5-Omni也表现出色。在SEED测试集上,模型在零样本语音生成任务中表现出高度竞争力的性能。在内容一致性方面,Qwen2.5-Omni经过强化学习优化后,在test-zh、test-en和test-hard测试集上的词错误率分别为1.42%、2.33%和6.54%,超越了MaskGCT和CosyVoice 2等现有模型。在说话人相似度方面,模型也保持了良好的性能。

七、技术创新的深层意义

Qwen2.5-Omni的技术创新不仅仅体现在性能指标上,更重要的是它代表了AI发展的一个重要方向转变。传统的AI系统往往是"专才"——要么擅长处理文本,要么擅长处理图像或音频。而这个模型展示了AI向"通才"发展的可能性。

TMRoPE技术的提出解决了多模态AI面临的一个核心问题:如何准确理解不同模态信息之间的时间关系。这个技术不仅适用于视频理解,还可以扩展到其他需要时序对齐的应用场景,比如同声传译、多媒体内容分析等。

"Thinker-Talker"架构的设计体现了对人类认知机制的深度理解和模拟。这种架构不仅提高了AI的处理效率,还为未来开发更复杂的多模态AI系统提供了新的思路。通过将理解和表达功能进行合理分工,AI能够更好地模拟人类的交流方式。

流式处理能力的实现让AI能够进行更自然的实时交互。这对于语音助手、在线客服、教育应用等场景具有重要意义。用户不再需要等待AI处理完所有信息后才得到回应,而是能够体验到更接近人类对话的交互方式。

八、实际应用前景与挑战

Qwen2.5-Omni的能力为许多实际应用场景带来了新的可能性。在教育领域,这种多模态AI可以同时分析学生的语音提问、书面作业和视频表现,提供更全面的学习支持。在客服领域,AI能够同时理解用户的语音描述、屏幕截图和操作视频,提供更精准的技术支持。

在内容创作方面,Qwen2.5-Omni可以协助创作者进行视频解说、音频制作和多媒体内容编辑。它能够理解视频内容,生成相应的解说词,并用自然的语音进行播报,大大提高了内容创作的效率。

在无障碍技术方面,这个模型可以为视障或听障用户提供更好的辅助服务。它可以将视觉信息转换为语音描述,或者将音频内容转换为文字显示,帮助不同能力的用户更好地获取信息。

然而,这种技术的发展也面临一些挑战。首先是计算资源的需求。同时处理多种模态的信息需要大量的计算能力,这可能限制了模型在移动设备或边缘计算环境中的应用。其次是数据质量和标注的问题。训练这样的多模态模型需要大量高质量的多模态数据,而这些数据的获取和标注成本很高。

此外,随着AI能够生成越来越逼真的语音和理解越来越复杂的多媒体内容,如何确保技术的负责任使用也成为一个重要考量。需要建立相应的安全机制和使用规范,防止技术被恶意利用。

九、未来发展方向

研究团队在论文中也指出了一些在模型开发过程中发现的关键问题,这些问题为未来的研究方向提供了指引。例如,视频OCR(光学字符识别)和音视频协同理解等问题在以往的学术研究中经常被忽视,但对于实际应用却至关重要。

团队认为,解决这些挑战需要学术界和工业界的密切合作,特别是在构建全面的评估基准和研究数据集方面。他们相信Qwen2.5-Omni代表了向人工通用智能(AGI)迈进的重要一步。

未来的目标包括开发更加稳健和快速的模型,扩展输出能力到其他模态,如图像、视频和音乐生成。这意味着AI不仅能够理解多种形式的输入,还能够创造多种形式的输出,真正实现全方位的智能交互。

研究团队还计划继续优化模型的效率和准确性,使其能够在更多的实际场景中得到应用。他们希望通过持续的技术创新和优化,让这种多模态AI技术能够真正服务于人类的日常生活和工作。

说到底,Qwen2.5-Omni的出现标志着AI技术发展的一个重要里程碑。它展示了AI从单一功能向综合能力发展的可能性,为我们描绘了一个AI能够更自然、更全面地理解和响应人类需求的未来。虽然还有许多技术挑战需要克服,但这项研究为多模态AI的发展开辟了新的道路,也为我们思考AI与人类交互的未来方式提供了宝贵的启示。对于普通用户来说,这意味着未来的AI助手将能够更好地理解我们的多种表达方式,并以更自然的方式与我们交流,真正成为我们生活和工作中的智能伙伴。

Q&A

Q1:Qwen2.5-Omni和普通的AI助手有什么区别? A:最大的区别是Qwen2.5-Omni能同时理解文字、图片、音频和视频,并且能实时用文字和语音回答。普通AI助手通常只能处理一种输入方式,比如只能聊天或只能看图。而Qwen2.5-Omni就像一个真正的"全能助手",你可以给它看视频、说话、发图片,它都能理解并自然回应。

Q2:这个AI的语音生成效果怎么样?会不会很机械? A:根据测试结果,Qwen2.5-Omni的语音生成效果相当不错。在专业测试中,它的词错误率只有1.42%-6.54%,说话人相似度也很高。更重要的是,它能根据对话内容调整语调和情感,不会像传统语音合成那样机械。而且它支持流式生成,能边思考边说话,更接近人类的对话方式。

Q3:普通人现在能使用Qwen2.5-Omni吗? A:目前Qwen2.5-Omni主要还是研究阶段的技术展示,论文和代码已经在GitHub、Hugging Face等平台开源。普通用户可以通过这些平台了解技术细节,但要真正使用可能需要一定的技术背景。不过,相信不久的将来会有基于这项技术的产品化应用出现,让普通用户也能体验到这种多模态AI的强大能力。

来源:至顶网一点号

相关推荐