摘要:选择模型:对于初学者,建议从 base 或 small 模型开始,在速度和精度之间取得较好平衡。如果你的电脑性能很强(如有独立显卡),可以尝试 medium 或 large 模型。下载地址:官方模型由 OpenAI 提供,可以在 Hugging Face 等平
很多企业有学习视频,但是有些视频是没有PPT或者文件的,尤其像一些演示产品的视频或音频,如果能提炼成文本文件,也方便进行后续学习。
基于这个需求,可以按以下两步操作:
一,视频转音频(可选)
如果是MP4、MP3等文件,则不需要,如果是VOD,AVI等文件,可能需要做视频转音频。
可以去问deepseek,有专门的工具可以解决,在此就不罗列了。
二,视频/音频提取内容到文本
Whisper 的核心是一个 AI 模型,主程序不包含它,需要单独下载。模型越大,精度越高,但所需资源越多,速度越慢。
选择模型: 对于初学者,建议从 base 或 small 模型开始,在速度和精度之间取得较好平衡。如果你的电脑性能很强(如有独立显卡),可以尝试 medium 或 large 模型。下载地址: 官方模型由 OpenAI 提供,可以在 Hugging Face 等平台下载。这里提供一个直接下载的链接:推荐下载页面: Whisper.cpp Model Downloads(这里包含所有模型)ggerganov/whisper.cpp at main
所谓的“安装”其实就是解压和放置文件。
找到你下载的 WhisperDesktop.zip 文件,右键点击它,选择 “全部解压缩”。解压后会得到一个包含 WhisperDesktop.exe 和其他文件的文件夹。你可以将这个文件夹移动到你喜欢的位置,例如 C:\Program Files\WhisperDesktop\ 或 D:\Tools\。这就是绿色软件的好处,可以随意放置。进入这个文件夹,将你下载的模型文件(例如 ggml-base.bin)复制到该文件夹下的 Models 子文件夹中。如果看不到 Models 文件夹,可以自己新建一个。最终,你的目录结构应该类似这样:
在我台式机上,没有独显的机器上,10分钟的视频约60秒就提取了视频的内容到文本文件中。
最终结果:
因为这个视频是前几年的录制的,时间上是有差异的。
因为我用的是base模型,总体看下来准确率在90%左右,如果换成大一点的模型,准确率应该会在98%或以上。
来源:企业HR数字化&AI
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!