科学工具
科学工具让世界更美好
让世界更美好

轻量高音质文本转语音模型 Kitten TTS,仅用1500万参数实现高质量的语音合成

Kitten TTS是一个开源的超轻量级文本转语音模型,以极小的模型体积(仅1500万参数,小于25MB)实现高质量的语音合成,完全针对进行CPU优化,可以在任何设备上高效运行,提供快速的实时推理能力。

• 超轻量级:模型大小不足25MB

• 适配CPU:无需GPU,可在任何设备运行

• 优质语音:提供多种高级语音选项

• 快速推理:针对实时语音合成优化

安装 Kitten TTS

pip install https://github.com/KittenML/KittenTTS/releases/download/0.1/kittentts-0.1.0-py3-none-any.whl

Kitten TTS 使用

from kittentts import KittenTTS
m = KittenTTS("KittenML/kitten-tts-nano-0.1")

audio = m.generate("这款高质量TTS模型无需GPU即可运行", voice='expr-voice-2-f' )

# 可用语音:[  'expr-voice-2-m', 'expr-voice-2-f', 'expr-voice-3-m', 'expr-voice-3-f',  'expr-voice-4-m', 'expr-voice-4-f', 'expr-voice-5-m', 'expr-voice-5-f' ]

# 保存音频
import soundfile as sf
sf.write('output.wav', audio, 24000)

Kitten TTS在任何设备都能运行。