摘要:在我们日常生活中,语音识别已经成为手机助手、字幕生成、会议记录等场景中的重要技术。5月1日,NVIDIA 推出了一个全新语音识别模型——Parakeet-tdt-0.6b-v2,它不仅听得清、听得准,还听得快,是目前 Hugging Face 公布的自动语音识
在我们日常生活中,语音识别已经成为手机助手、字幕生成、会议记录等场景中的重要技术。5月1日,NVIDIA 推出了一个全新语音识别模型——Parakeet-tdt-0.6b-v2,它不仅听得清、听得准,还听得快,是目前 Hugging Face 公布的自动语音识别排行榜上的行业最佳之一。
Parakeet-tdt-0.6b-v2 是一个拥有 6亿参数 的英文自动语音识别(ASR)模型,可以:
自动加标点和大小写,生成像人写的一样自然的文字;精准预测每个词的时间戳,方便做字幕同步或语音高亮;支持听歌识词,能把歌曲歌词准确写出来;对于说出的数字、金额等格式化内容,也能正确识别。Parakeet V2 在 Hugging Face 的公开 ASR 排行榜上,取得了仅 6.05% 的词错误率(WER),意味着每 100 个词中只有约 6 个出错,在当前业界处于领先水平。
更惊人的是它的速度:比其他模型快上 50 倍,在测试中实现了 RTFx(实时因子)为 3386 的成绩。这意味着它不仅听得准,而且听得飞快!
这个模型基于一个叫 FastConformer 的架构,是语音识别领域中的高效变体,同时融合了先进的 TDT 解码器,可以处理长达 20分钟 的音频段,直接一次性转写完成,无需切割成小段。
这种设计,既减少了切片带来的上下文信息丢失,也提升了整体效率。
Parakeet V2 已经为商业与非商业用途做好准备,你可以用它来:
为会议、播客、讲座生成字幕;为客服语音记录建立文本索引;开发基于语音的搜索引擎;或者干脆打造你的“听写神器”!试用地址:https://build.nvidia.com/explore/speech
这个AI模型经过设计和/或优化,可在NVIDIA GPU加速系统上运行。利用 NVIDIA 的硬件(例如GPU 内核)和软件框架(例如 CUDA 库),与仅 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。
极致转录效率:60 分钟音频仅需 1 秒内完成转录(A100 推理)OpenASR 榜首表现:超越 Whisper、Conformer、Wav2Vec 等主流闭源模型极小参数量:仅 0.6B(轻量级,适合边缘设备)高精度:平均 WER 6.05%(Hugging Face Open ASR 榜单),优于 Whisper-large-v3高鲁棒性:多语速、多口音、多录音环境下表现稳定(英文)Parakeet TDT 0.6B V2 需 NVIDIA NeMo 工具包。
要训练、微调或使用模型,官方建议在安装最新版本的PyTorch之后再进行安装 NVIDIA NeMo。
安装 PyTorch:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126安装 NVIDIA NeMo 工具包:
pip install -U nemo_toolkit['asr']该模型可用于NeMo工具,可用于预训练的检查点,用于推理或在另一个数据集上进行微调。
自动实例化模型import nemo.collections.asr as nemo_asrasr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")借助 Python 转录,先获取一个样本
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav获取Text文本:
output = asr_model.transcribe(['2086-149220-0033.wav'])print(output[0].text)带有时间戳的转录:
output = asr_model.transcribe(['2086-149220-0033.wav'], timestamps=True)# by default, timestamps are enabled for char, word and segment levelword_timestamps = output[0].timestamp['word'] # word level timestamps for first samplesegment_timestamps = output[0].timestamp['segment'] # segment level timestampschar_timestamps = output[0].timestamp['char'] # char level timestampsfor stamp in segment_timestamps: print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")支持的GPU架构:
NVIDIA AmpereNVIDIA BlackwellNVIDIA HopperNVIDIA Volta技术构建说明写在最后英伟达的 Parakeet-TDT-0.6B V2 模型不仅在参数规模小(仅 0.6B)的前提下超越了许多更大体量的闭源模型。
而且具备极高的推理效率和极低的词错误率(WER),尤其适合需要低延迟 + 高精度 + 商用许可的语音转写场景。
不过目前对于语言支持方面,仅支持英文,期待后续能够支持中文。
这个模型对于需要轻量部署 + 高精度语音识别的开发者来说,是当前最具性价比的选择之一。
HF 模型地址:
ASR 排行:
https://huggingface.co/spaces/hf-audio/open\\\\_asr\\\\_leaderboard
更多免费AI功能 云片AI:https://y-p.cc/?f=tt
来源:AIGC研究社一点号