本地大模型（OpenAI&Whisper models）提取音视频内容到文本中

摘要：选择模型：对于初学者，建议从 base 或 small 模型开始，在速度和精度之间取得较好平衡。如果你的电脑性能很强（如有独立显卡），可以尝试 medium 或 large 模型。下载地址：官方模型由 OpenAI 提供，可以在 Hugging Face 等平

很多企业有学习视频，但是有些视频是没有PPT或者文件的，尤其像一些演示产品的视频或音频，如果能提炼成文本文件，也方便进行后续学习。

基于这个需求，可以按以下两步操作：

一，视频转音频（可选）

如果是MP4、MP3等文件，则不需要，如果是VOD，AVI等文件，可能需要做视频转音频。

可以去问deepseek，有专门的工具可以解决，在此就不罗列了。

二，视频/音频提取内容到文本

Whisper 的核心是一个 AI 模型，主程序不包含它，需要单独下载。模型越大，精度越高，但所需资源越多，速度越慢。

选择模型： 对于初学者，建议从 base 或 small 模型开始，在速度和精度之间取得较好平衡。如果你的电脑性能很强（如有独立显卡），可以尝试 medium 或 large 模型。下载地址： 官方模型由 OpenAI 提供，可以在 Hugging Face 等平台下载。这里提供一个直接下载的链接：推荐下载页面： Whisper.cpp Model Downloads（这里包含所有模型）

ggerganov/whisper.cpp at main

所谓的“安装”其实就是解压和放置文件。

找到你下载的 WhisperDesktop.zip 文件，右键点击它，选择 “全部解压缩”。解压后会得到一个包含 WhisperDesktop.exe 和其他文件的文件夹。你可以将这个文件夹移动到你喜欢的位置，例如 C:\Program Files\WhisperDesktop\ 或 D:\Tools\。这就是绿色软件的好处，可以随意放置。进入这个文件夹，将你下载的模型文件（例如 ggml-base.bin）复制到该文件夹下的 Models 子文件夹中。如果看不到 Models 文件夹，可以自己新建一个。

最终，你的目录结构应该类似这样：

WhisperDesktop文件夹/├── WhisperDesktop.exe (主程序)├── (其他dll文件...)└── Models/├── ggml-base.bin (你下载的模型)└── (未来可以放入其他模型)双击文件夹内的 WhisperDesktop.exe 启动程序。首次运行时，需要加载模型：点击界面上的 “Browse” 按钮。导航到你的 WhisperDesktop文件夹/Models/，选择你下载的模型文件（例如 ggml-base.bin）。

点击 “Load” 加载模型。加载成功后，界面下方的状态栏会显示模型信息。开始转录：点击 “Transcribe” 选项卡。点击 “Select an audio file...” 选择你要识别的音频或视频文件（支持 wav, mp3, mp4, mkv 等多种格式）。在 “Language” 下拉菜单中选择音频的语言（例如“Chinese”或“Auto-detect”）。