OpenWhispr本地的AI语音工具

B站影视 电影资讯 2025-10-28 03:49 2

摘要:这东西能把你说的话直接变成文字,能在本地完成,能把转写自动粘到当前光标里,还能把模型、历史、设置都放在一个控制面板里管理。开源、跨平台、界面现代,响应快,隐私有保证——就这么简单明了。

这东西能把你说的话直接变成文字,能在本地完成,能把转写自动粘到当前光标里,还能把模型、历史、设置都放在一个控制面板里管理。开源、跨平台、界面现代,响应快,隐私有保证——就这么简单明了。

我先讲最直观的用感:按下一个全局热键(默认是反引号 `),开始说话,松手或者再按一次就结束,马上看到文字出现在你在编辑的位置,或者保存在本地的历史里。过程很直接,不用跳来跳去。面板是个可拖拽的小窗,随手往屏幕角落一放就行,窗里能看到当前用的模型、转写进度和最近的记录,像个小工具箱,常用的功能都不复杂。

功能上,能本地跑也能走云端。想把语音数据完全留在自己电脑,就开本地模式,音频和文本只存在本地数据库;想图省事或要更强的模型,就切到云端。这个设计解决了两件事:隐私和能力之间的折中。你能在面板里随时切换,界面会告诉你当前数据走向,清清楚楚,不会糊涂。

模型管理这块做得挺细的。支持下载 tiny、base、small、medium、large、turbo 等不同大小的 Whisper 模型,下载可以并行,也能断点续传,必要时一键删除模型并触发卸载钩子,连残留缓存都尽量清干净。面板里还显示模型占用的磁盘空间、版本和最后更新时间,方便你判断要不要删掉旧模型。历史记录全部存在本地的 SQLite,按时间排序,点开能看到原始音频、转写文本和时间戳,支持检索,查某次发言不费劲。

交互细节上也想得挺实用。转写任务可以暂停、取消,避免误触发造成资源浪费。自动粘贴默认很顺,但在少数富文本编辑器里会受权限限制,读 README 时会看到提示。macOS 上支持用 Fn/Globe 键作为硬件触发键,按物理键稳定一些,适合需要频繁唤醒的人。小面板可以拖动,不会挡住主要窗口,体验上更贴合实际办公场景。

技术栈采用的是比较新的前端组合:React 19、TypeScript、Tailwind CSS v4,构建和热重载基于 Vite,启动快、开发体验流畅。跨平台支持 macOS、Windows、Linux,笔记本党和台式机用户都能用。实现方向明显:把输入路径缩短,把延迟降到可以忽略的程度,让用户感觉就是“说完话,文字就有”。

开发者的需求也顾到了。面板里可以填 API Key、绑定多个 AI 服务商,切换后即时生效;支持 OpenAI Responses API,意味着转写结果能直接送到更高级的对话模型做后处理或精修。模型区能看到可用空间、已下载模型、支持一键删除和卸载清理,便于维护。对团队部署来说,可以统一下发配置,内部使用时把数据留在内网,减少外泄风险。

用场景很直白:写文章不想敲字,开编辑器按热键,说完文字自动粘上;开会做记录,把设备放中间录音,回去能查每句原话和对应时间戳;有隐私考量的律师、医生或企业,完全离线转写更安心;内容创作者可以先在本地做一轮初稿,觉得满意再拿去云端做精修。总之,既能顶速率又能顾隐私的场景不少。

另外还有一些实操上的小细节值得说明。模型下载时会显示进度和剩余空间,下载失败会支持重试和断点续传,避免频繁从头来。删除模型时触发的卸载钩子会清理缓存,防止磁盘被模型残留吞噬。历史记录支持全文检索,这在需要回溯讨论或找上次会议要点时特别有用。对资源紧张的机器,可以选 tiny 或 base,保证基本体验而不拖慢系统。

关于安全,这个项目把“本地优先”放在明显位置。选本地模式时,音频文件和转写结果都不上传到服务器;云模式是可选的,给那些追求更高准确率或更快结果的人。面板里会实时显示当前选项,让用户知道自己的数据到底往哪流。对于敏感行业来说,这点相当关键。

项目是开源的,代码和安装说明放在 GitHub,上面有一步步的部署文档和常见问题。想自己编译的可以克隆仓库,想先试界面的也能去在线体验。社区活跃的话,插件式扩展比较好做,比如接入别的语音模型或添加自定义的后处理脚本都不是难事。

最后提两件小事:一是默认热键是反引号,这个键在大多数键盘上不常被其他常用快捷占用,但你可以随意改成别的键;二是自动粘贴在多数应用里兼容性好,但部分富文本编辑器可能需要额外授权,README 有说明,遇到权限问题先按文档来处理。

想看源码或试在线版,可以去这两个地址:

来源:池边赏白鹭骚客

相关推荐