英伟达开源超强语音识别模型！轻量还能商用！1秒能转录1小时音频

摘要：在我们日常生活中，语音识别已经成为手机助手、字幕生成、会议记录等场景中的重要技术。5月1日，NVIDIA 推出了一个全新语音识别模型——Parakeet-tdt-0.6b-v2，它不仅听得清、听得准，还听得快，是目前 Hugging Face 公布的自动语音识

在我们日常生活中，语音识别已经成为手机助手、字幕生成、会议记录等场景中的重要技术。5月1日，NVIDIA 推出了一个全新语音识别模型——Parakeet-tdt-0.6b-v2，它不仅听得清、听得准，还听得快，是目前 Hugging Face 公布的自动语音识别排行榜上的行业最佳之一。

Parakeet-tdt-0.6b-v2 是一个拥有 6亿参数的英文自动语音识别（ASR）模型，可以：

自动加标点和大小写，生成像人写的一样自然的文字；精准预测每个词的时间戳，方便做字幕同步或语音高亮；支持听歌识词，能把歌曲歌词准确写出来；对于说出的数字、金额等格式化内容，也能正确识别。

Parakeet V2 在 Hugging Face 的公开 ASR 排行榜上，取得了仅 6.05% 的词错误率（WER），意味着每 100 个词中只有约 6 个出错，在当前业界处于领先水平。

更惊人的是它的速度：比其他模型快上 50 倍，在测试中实现了 RTFx（实时因子）为 3386 的成绩。这意味着它不仅听得准，而且听得飞快！

这个模型基于一个叫 FastConformer 的架构，是语音识别领域中的高效变体，同时融合了先进的 TDT 解码器，可以处理长达 20分钟的音频段，直接一次性转写完成，无需切割成小段。

这种设计，既减少了切片带来的上下文信息丢失，也提升了整体效率。

Parakeet V2 已经为商业与非商业用途做好准备，你可以用它来：

为会议、播客、讲座生成字幕；为客服语音记录建立文本索引；开发基于语音的搜索引擎；或者干脆打造你的“听写神器”！

试用地址：https://build.nvidia.com/explore/speech

这个AI模型经过设计和/或优化,可在NVIDIA GPU加速系统上运行。利用 NVIDIA 的硬件(例如GPU 内核)和软件框架(例如 CUDA 库),与仅 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。

极致转录效率：60 分钟音频仅需 1 秒内完成转录（A100 推理）OpenASR 榜首表现：超越 Whisper、Conformer、Wav2Vec 等主流闭源模型极小参数量：仅 0.6B（轻量级，适合边缘设备）高精度：平均 WER 6.05%（Hugging Face Open ASR 榜单），优于 Whisper-large-v3高鲁棒性：多语速、多口音、多录音环境下表现稳定（英文）

Parakeet TDT 0.6B V2 需 NVIDIA NeMo 工具包。

要训练、微调或使用模型，官方建议在安装最新版本的PyTorch之后再进行安装 NVIDIA NeMo。

安装 PyTorch：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

安装 NVIDIA NeMo 工具包：

pip install -U nemo_toolkit['asr']

该模型可用于NeMo工具,可用于预训练的检查点,用于推理或在另一个数据集上进行微调。

自动实例化模型import nemo.collections.asr as nemo_asrasr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")

借助 Python 转录，先获取一个样本

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

获取Text文本：

output = asr_model.transcribe(['2086-149220-0033.wav'])print(output[0].text)

带有时间戳的转录：

output = asr_model.transcribe(['2086-149220-0033.wav'], timestamps=True)# by default, timestamps are enabled for char, word and segment levelword_timestamps = output[0].timestamp['word'] # word level timestamps for first samplesegment_timestamps = output[0].timestamp['segment'] # segment level timestampschar_timestamps = output[0].timestamp['char'] # char level timestampsfor stamp in segment_timestamps: print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")

支持的GPU架构：

NVIDIA AmpereNVIDIA BlackwellNVIDIA HopperNVIDIA Volta技术构建说明写在最后

英伟达的 Parakeet-TDT-0.6B V2 模型不仅在参数规模小（仅 0.6B）的前提下超越了许多更大体量的闭源模型。

而且具备极高的推理效率和极低的词错误率（WER），尤其适合需要低延迟 + 高精度 + 商用许可的语音转写场景。

不过目前对于语言支持方面，仅支持英文，期待后续能够支持中文。

这个模型对于需要轻量部署 + 高精度语音识别的开发者来说，是当前最具性价比的选择之一。

HF 模型地址：

ASR 排行：

https://huggingface.co/spaces/hf-audio/open\\\\_asr\\\\_leaderboard

更多免费AI功能云片AI：https://y-p.cc/?f=tt