视频背景音自动转为文字：FFmpeg 8.0 引入 Whisper 音频过滤器

摘要：多媒体框架 FFmpeg 开发团队发文，预热 FFmpeg 8.0 版本新增一项名为 Whisper 的音频过滤器，该功能整合了 OpenAI 的 Whisper 语音识别模型，通过内建过滤器机制，可以自动将视频背景音频内容识别转换为文字描述，并输出为字幕或结

IT之家 8 月 16 日消息，多媒体框架 FFmpeg 开发团队发文，预热 FFmpeg 8.0 版本新增一项名为 Whisper 的音频过滤器，该功能整合了 OpenAI 的 Whisper 语音识别模型，通过内建过滤器机制，可以自动将视频背景音频内容识别转换为文字描述，并输出为字幕或结构化数据。

据介绍，Whisper 过滤器的实现依赖 whisper.cpp 库，用户需要先在系统中安装并启用对应支持库，并在编译时通过“--enable-whisper”选项激活功能。相应过滤器支持纯文本 TXT、SRT、JSON 等输出模式，同时可以通过 HTTP 等协议直接将输出内容传输到其他系统。如果未指定输出位置，转录结果将作为元数据附加在音频帧上，供后续处理或分析使用。

官方强调，该过滤器提供了队列参数，用户可以设置累积多少音频数据再进行识别，默认值约为 3 秒，如果将时间设置更长，识别准确率则更高 / 处理频率更低，适合批处理工作场景；如果将时间设置更短，则可降低过滤器处理延迟，适合对重要音频内容进行具体分析和微调。

此外，Whisper 过滤器也支持 GPU 加速，结合 FFmpeg 本身的多线程处理，在高性能环境下能显著提升转录速度。同时它还支持“Silero 语音活动检测（VAD）”功能，能在长音频流中自动切片语音片段，从而进一步提升识别效率和段落准确度。

来源：IT之家

标签：音频过滤器 ffmpeg whisper whisper音

本文地址：http://news.43b.com.cn/a/770653.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!