OpenWhispr本地的AI语音工具

摘要：这东西能把你说的话直接变成文字，能在本地完成，能把转写自动粘到当前光标里，还能把模型、历史、设置都放在一个控制面板里管理。开源、跨平台、界面现代，响应快，隐私有保证——就这么简单明了。

这东西能把你说的话直接变成文字，能在本地完成，能把转写自动粘到当前光标里，还能把模型、历史、设置都放在一个控制面板里管理。开源、跨平台、界面现代，响应快，隐私有保证——就这么简单明了。

我先讲最直观的用感：按下一个全局热键（默认是反引号 `），开始说话，松手或者再按一次就结束，马上看到文字出现在你在编辑的位置，或者保存在本地的历史里。过程很直接，不用跳来跳去。面板是个可拖拽的小窗，随手往屏幕角落一放就行，窗里能看到当前用的模型、转写进度和最近的记录，像个小工具箱，常用的功能都不复杂。

功能上，能本地跑也能走云端。想把语音数据完全留在自己电脑，就开本地模式，音频和文本只存在本地数据库；想图省事或要更强的模型，就切到云端。这个设计解决了两件事：隐私和能力之间的折中。你能在面板里随时切换，界面会告诉你当前数据走向，清清楚楚，不会糊涂。

模型管理这块做得挺细的。支持下载 tiny、base、small、medium、large、turbo 等不同大小的 Whisper 模型，下载可以并行，也能断点续传，必要时一键删除模型并触发卸载钩子，连残留缓存都尽量清干净。面板里还显示模型占用的磁盘空间、版本和最后更新时间，方便你判断要不要删掉旧模型。历史记录全部存在本地的 SQLite，按时间排序，点开能看到原始音频、转写文本和时间戳，支持检索，查某次发言不费劲。

交互细节上也想得挺实用。转写任务可以暂停、取消，避免误触发造成资源浪费。自动粘贴默认很顺，但在少数富文本编辑器里会受权限限制，读 README 时会看到提示。macOS 上支持用 Fn/Globe 键作为硬件触发键，按物理键稳定一些，适合需要频繁唤醒的人。小面板可以拖动，不会挡住主要窗口，体验上更贴合实际办公场景。

技术栈采用的是比较新的前端组合：React 19、TypeScript、Tailwind CSS v4，构建和热重载基于 Vite，启动快、开发体验流畅。跨平台支持 macOS、Windows、Linux，笔记本党和台式机用户都能用。实现方向明显：把输入路径缩短，把延迟降到可以忽略的程度，让用户感觉就是“说完话，文字就有”。

开发者的需求也顾到了。面板里可以填 API Key、绑定多个 AI 服务商，切换后即时生效；支持 OpenAI Responses API，意味着转写结果能直接送到更高级的对话模型做后处理或精修。模型区能看到可用空间、已下载模型、支持一键删除和卸载清理，便于维护。对团队部署来说，可以统一下发配置，内部使用时把数据留在内网，减少外泄风险。

用场景很直白：写文章不想敲字，开编辑器按热键，说完文字自动粘上；开会做记录，把设备放中间录音，回去能查每句原话和对应时间戳；有隐私考量的律师、医生或企业，完全离线转写更安心；内容创作者可以先在本地做一轮初稿，觉得满意再拿去云端做精修。总之，既能顶速率又能顾隐私的场景不少。

另外还有一些实操上的小细节值得说明。模型下载时会显示进度和剩余空间，下载失败会支持重试和断点续传，避免频繁从头来。删除模型时触发的卸载钩子会清理缓存，防止磁盘被模型残留吞噬。历史记录支持全文检索，这在需要回溯讨论或找上次会议要点时特别有用。对资源紧张的机器，可以选 tiny 或 base，保证基本体验而不拖慢系统。

关于安全，这个项目把“本地优先”放在明显位置。选本地模式时，音频文件和转写结果都不上传到服务器；云模式是可选的，给那些追求更高准确率或更快结果的人。面板里会实时显示当前选项，让用户知道自己的数据到底往哪流。对于敏感行业来说，这点相当关键。

项目是开源的，代码和安装说明放在 GitHub，上面有一步步的部署文档和常见问题。想自己编译的可以克隆仓库，想先试界面的也能去在线体验。社区活跃的话，插件式扩展比较好做，比如接入别的语音模型或添加自定义的后处理脚本都不是难事。

最后提两件小事：一是默认热键是反引号，这个键在大多数键盘上不常被其他常用快捷占用，但你可以随意改成别的键；二是自动粘贴在多数应用里兼容性好，但部分富文本编辑器可能需要额外授权，README 有说明，遇到权限问题先按文档来处理。

想看源码或试在线版，可以去这两个地址：

来源：池边赏白鹭骚客

标签：语音转写 openwhispr openwhispr本地

本文地址：http://news.43b.com.cn/a/1663867.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!