tts模型

Kitten-TTS：CPU可运行的最小TTS模型

如今大多数文本转语音模型都过于庞大。像Whisper一样大，拥有数十亿参数，需要GPU才能断断续续地说出“Hello World”。即使是那些声称是“轻量级”的模型，最终也需要比你的手机更多的芯片。当然，有很棒的声音，但只有在你拥有强大的GPU时才可用。

快速生成：约 0.33 秒生成 1 秒音频，适合批量生成长语音内容；说话人适配：支持自定义说话人，进行个性化语音定制；支持长内容连贯合成：无需打断，可自然连续地朗读 5 分钟甚至更长文本；离线部署友好：Hugging Face 提供模型权重，支持本地推理。