本地大模型(OpenAI&Whisper models)提取音视频内容到文本中

B站影视 韩国电影 2025-09-23 06:23 1

摘要:选择模型:对于初学者,建议从 base 或 small 模型开始,在速度和精度之间取得较好平衡。如果你的电脑性能很强(如有独立显卡),可以尝试 medium 或 large 模型。下载地址:官方模型由 OpenAI 提供,可以在 Hugging Face 等平

很多企业有学习视频,但是有些视频是没有PPT或者文件的,尤其像一些演示产品的视频或音频,如果能提炼成文本文件,也方便进行后续学习。

基于这个需求,可以按以下两步操作:

一,视频转音频(可选)

如果是MP4、MP3等文件,则不需要,如果是VOD,AVI等文件,可能需要做视频转音频。

可以去问deepseek,有专门的工具可以解决,在此就不罗列了。

二,视频/音频提取内容到文本

Whisper 的核心是一个 AI 模型,主程序不包含它,需要单独下载。模型越大,精度越高,但所需资源越多,速度越慢。

选择模型: 对于初学者,建议从 base 或 small 模型开始,在速度和精度之间取得较好平衡。如果你的电脑性能很强(如有独立显卡),可以尝试 medium 或 large 模型。下载地址: 官方模型由 OpenAI 提供,可以在 Hugging Face 等平台下载。这里提供一个直接下载的链接:推荐下载页面: Whisper.cpp Model Downloads(这里包含所有模型)

ggerganov/whisper.cpp at main

所谓的“安装”其实就是解压和放置文件。

找到你下载的 WhisperDesktop.zip 文件,右键点击它,选择 “全部解压缩”。解压后会得到一个包含 WhisperDesktop.exe 和其他文件的文件夹。你可以将这个文件夹移动到你喜欢的位置,例如 C:\Program Files\WhisperDesktop\ 或 D:\Tools\。这就是绿色软件的好处,可以随意放置。进入这个文件夹,将你下载的模型文件(例如 ggml-base.bin)复制到该文件夹下的 Models 子文件夹中。如果看不到 Models 文件夹,可以自己新建一个。

最终,你的目录结构应该类似这样:

WhisperDesktop文件夹/├── WhisperDesktop.exe (主程序)├── (其他dll文件...)└── Models/├── ggml-base.bin (你下载的模型)└── (未来可以放入其他模型)双击文件夹内的 WhisperDesktop.exe 启动程序。首次运行时,需要加载模型:点击界面上的 “Browse” 按钮。导航到你的 WhisperDesktop文件夹/Models/,选择你下载的模型文件(例如 ggml-base.bin)。点击 “Load” 加载模型。加载成功后,界面下方的状态栏会显示模型信息。开始转录:点击 “Transcribe” 选项卡。点击 “Select an audio file...” 选择你要识别的音频或视频文件(支持 wav, mp3, mp4, mkv 等多种格式)。在 “Language” 下拉菜单中选择音频的语言(例如“Chinese”或“Auto-detect”)。点击 “Transcribe” 按钮开始转录。完成后,文本将显示在右侧的文本框中,你可以复制或保存为 SRT 字幕/TXT 文本。

在我台式机上,没有独显的机器上,10分钟的视频约60秒就提取了视频的内容到文本文件中。

最终结果:

因为这个视频是前几年的录制的,时间上是有差异的。

因为我用的是base模型,总体看下来准确率在90%左右,如果换成大一点的模型,准确率应该会在98%或以上。

来源:企业HR数字化&AI

相关推荐