Show HN: 新しい「Kitten TTS」モデル3種 - 最小サイズは25MB未満
45日前原文(github.com)
概要
- Kitten TTSは超軽量・高品質なテキスト読み上げ(TTS)ライブラリ
- ONNXベースでCPUのみで動作、GPU不要
- 15M~80Mパラメータの3種類の新モデルをリリース
- 8種類の音声、速度調整や前処理機能を搭載
- 商用サポートやカスタム音声開発にも対応
Kitten TTS v0.8 概要
- Kitten TTSはオープンソースの軽量TTSライブラリ
- ONNX上に構築され、エッジデバイスやローカル環境での利用を想定
- 15M, 40M, 80Mパラメータの3モデルを新たに公開
- ディスク容量25~80MBで動作、CPUのみで高品質な音声合成が可能
- 開発者プレビュー段階、API仕様は今後変更の可能性あり
主な特徴
- 超軽量設計:モデルサイズ25MB(int8)~80MB、エッジデプロイ向け
- CPU最適化:GPU不要、ONNX推論で高速動作
- 8種類の内蔵音声:Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo
- 速度調整:speedパラメータで再生速度を変更可能
- テキスト前処理:数値・通貨・単位などの自動展開
- 高音質出力:24kHzサンプルレートでクリアな音声生成
利用可能なモデル一覧
- kitten-tts-mini:80Mパラメータ, 80MB
- kitten-tts-micro:40Mパラメータ, 41MB
- kitten-tts-nano:15Mパラメータ, 56MB
- kitten-tts-nano (int8):15Mパラメータ, 25MB(不具合報告あり)
デモ・オンライン体験
- Hugging Face Spacesでブラウザ上からデモ利用可能
- サンプル動画・音声も公開
クイックスタート
-
Python 3.8以降が必要
-
インストール:
- pip install https://github.com/KittenML/KittenTTS/releases/download/0.8.1/kittentts-0.8.1-py3-none-any.whl
-
基本的な使い方:
- from kittentts import KittenTTS
- model = KittenTTS("KittenML/kitten-tts-mini-0.8")
- audio = model.generate("この高品質TTSモデルはGPU不要で動作します。", voice="Jasper")
- import soundfile as sf
- sf.write("output.wav", audio, 24000)
-
応用例:
- 速度調整:speed=1.2などで再生速度を変更
- ファイルへ直接保存:model.generate_to_file("こんにちは", "output.wav", voice="Bruno", speed=0.9)
- 利用可能な音声一覧:model.available_voices
APIリファレンス
-
KittenTTS(model_name, cache_dir=None)
- Hugging Face Hubからモデルをロード
- model_name:リポジトリID
- cache_dir:キャッシュ保存先
-
model.generate(text, voice, speed, clean_text)
- テキストから音声を生成(NumPy配列、24kHz)
- パラメータ:text, voice, speed, clean_text(前処理有無)
-
model.generate_to_file(text, output_path, voice, speed, sample_rate, clean_text)
- 音声ファイルとして直接保存
- パラメータ:text, output_path, voice, speed, sample_rate, clean_text
-
model.available_voices
- 利用可能な音声名リストを返却
システム要件
- 対応OS:Linux, macOS, Windows
- Python 3.8以上
- CPU動作:GPU不要
- ディスク容量:モデルにより25~80MB
- 仮想環境推奨(依存関係の競合回避)
今後のロードマップ
- 推論エンジンの最適化
- モバイルSDKのリリース
- より高品質なTTSモデルの公開
- 多言語TTSへの対応
- KittenASR(音声認識)リリース予定
商用サポート・コミュニティ
- 商用利用支援、カスタム音声開発、エンタープライズライセンス提供
- 問い合わせ:info@stellonlabs.com
- コミュニティ:Discord、公式サイト(kittenml.com)、GitHub Issues
ライセンス
- Apache License 2.0で公開
Kitten TTS 開発背景・ビジョン
- Kitten TTSはオンデバイスAI向けの極小・高表現力TTSモデル群
- Raspberry Pi、低価格スマートフォン、ウェアラブル、ブラウザ等で動作
- GPU不要でどこでも使えることを重視
- 14Mパラメータモデルは同規模で最高水準の表現力を実現
- モデルの多くはint8+fp16量子化、ONNXランタイム利用
- オンデバイス・クラウド間のギャップ解消を目指す
- 近く多言語モデルも公開予定
- 小型で実用的なAIモデルの不足が現状の課題
- 今後もオープンソースで高性能モデルを提供し、完全オンデバイスの音声エージェントやアプリ開発を支援
- フィードバック歓迎