Pocket TTS: CPUに声を与える高品質なTTS

Hackerたちの意見

みんなが自分のTTSモデルを作ってるのがいいね。トレーニングにかかる費用が他のモデルに比べてそんなに高くないし、アーキテクチャもいろいろあるし。最近の例としては、これがあるよね。https://github.com/supertone-inc/supertonic

└

ありがとう！コードもあって、いろんな言語に対応してるのはすごくいい提案だね。

└

もう一つはSoprano-1.1だね。どうやら一人でトレーニングしてるみたいで、こんな小さなモデルなのに驚くほど自然な声だよ。TTSって昔はロボットみたいで、ほとんど理解できない声ばかりだったのを思い出すな。https://www.reddit.com/r/LocalLLaMA/comments/1qcusnt/soprano... https://huggingface.co/ekwek/Soprano-1.1-80M

└

ブラウザ内デモのSupertonic、WASMで動いてるよ。

これ、めっちゃいいね！シェアしてくれてありがとう！ココロの大ファンで、自分の完全ローカルな音声アシスタントも作ったんだ。[1] ポケットTTSも試してみるつもり！[1] https://github.com/acatovic/ova

└

リポジトリをシェアしてくれてありがとう！めっちゃクールだね。試してみる予定なんだけど、これはmlxベースなの？それともhfトランスフォーマーだけ？

└

KokoroはTTSに関しては圧倒的に良いね。ボイスクローンについては、Pocket TTSは壁があって、よくわからないけど。

STTに似たようなものはある？今、Whisper Distillモデルを使ってるけど、まあまあ動いてるよ。でも、たまに全然違うことを理解されちゃうことがあるんだよね。

└

先日からのやつだよ。

└

ParakeetはWhisperより正確ではないけど、かなり速いよ。CPUでもリアルタイムより速いくらいだね。Nemoを使わないといけないけど、サードパーティの変換をいじる必要があるよ。（さらに大きい兄貴のCanaryもあるし、混乱を招く名前のNemotronスピーチもあるよ。）

軽量なのがいいね。最近、ポケット用のビジョンエージェントに対応したみたい。https://github.com/GetStream/Vision-Agents/tree/main/plugins...

クオリティはいいけど、残念ながら英語の単一言語だけなんだよね。

└

これに同意するわ。TTSシステムが、英語だけを話す小さな人口以外でも役立つためには、多言語対応で、ほぼ単語ごとに言語を切り替えられる必要があるよね。でも、クールな技術デモだね！

いいね！MCPサーバーにしたから、クラウドが何か終わったときに教えてくれるようにしたよ :)

└

まさにその理由で、pushoverを設定してメッセージをスマホに送るようにしたよ！次は君のサーバーを試してみるね！

└

面白い！最近、piper-ttsを使って作ったのもあるよ！https://github.com/tylerdavis/speak-mcp

これ好き。MITライセンスって書いてあるけど、READMEには禁止事項のセクションがあって、制限が加わって非自由なものになってるかも？法的な意味合いはよくわからないな。

└

いい質問だね。ライセンスに「これを使ってもいい、でもこれを使ってはいけない」と書いてあって、使った場合、ライセンスを破ったことになるのかな？

└

「禁止された使用」のセクションは基本的に「犯罪に使ってはいけない」ってことみたいだけど、法的にはあんまり意味がない気がする。

└

参考までに、MITライセンスにはこんな文言があるよ。「ここに許可を与えます... 制限なくソフトウェアを扱うことができます」。だから、「禁止された使用」セクションがあるREADMEは、明らかに矛盾した表現になってるね。

└

うん、禁止された使用のセクションの意味が全然わからない。無駄なものに感じる。

うわ、M1 Macで`uvx pocket-tts serve`をやってみたんだけど、接続したら、>「それは最良の時代であり、最悪の時代であり、知恵の時代であり、愚かさの時代であり、信念の時代であり、信じられない時代であり、光の季節であり、暗闇の季節であり、希望の春であり、絶望の冬であり、私たちはすべてのものを前に持っていた、私たちは何も持っていなかった、私たちは皆天国に向かっていた、私たちは皆反対の方向に向かっていた—要するに、その時代は現在の時代に非常に似ていて、一部のうるさい権威者たちは、それが良いか悪いかにかかわらず、比較の最上級で受け入れられるべきだと主張していた（『二都物語』の冒頭）」って始まるんだけど、問題はジャヴェールが文の一部を飛ばしちゃうこと！例えば、>「それは最良の時代であり、最悪の時代であり、知恵の時代であり、信念の時代であり、信じられない時代であり、光の季節であり、希望の春であり、絶望の冬であり、私たちはすべてのものを前に持っていた、...」ってなってるけど、「愚かさの時代であり、」「絶望の冬であり、」が飛ばされてる。これじゃ、TTSシステムに対する信頼感が薄れるよね。（マリウスの方がマシみたい；https://github.com/kyutai-labs/pocket-tts/issues/38に投稿したよ）

ちょうどいいタイミングだ！今やってるちょっとしたプロジェクトにぴったりだ。声もいい感じ！

もしかしたら、音声モデルとあんまり話してなかったからか、ChatGPTの声が変に感じてたのかも。クラウドサーバーに行くと思ってたし。でもPocket TTSからunmute.shを見つけたんだ。オープンソースで、Pocket TTSと同じ会社から出てると思うし、Pocket TTSも使えるかも。4Bとかのエージェントモデルがあって、結構いい感じだよ。あんまりお金をかけずにホームラボで使えると思う。少なくともunmute.shはChatGPTの音声モデルと似てる/競合してると思う。オープンソースのモデルがすごく良くて（効果的で）驚くよ。ほとんど誰にでも合うものがある感じ。唯一の本当のモートはコーディングモデルにあるかもしれない。結構いいのもあるけど、最高のものには10倍から20倍の値段を払う人もいるからね（minimax/z.aiのサブスクリプション料金とclaude codeの比較）。AIでまた深層探求の瞬間が見られるかどうか、興味深いね。claude sonnetやそれに似たものを超えるかもしれないし。DeepseekはDeepseek 4を持ってるから、sonnetを超えられるかどうか、注目だね。（話がそれてごめん）

ハクソク

Pocket TTS: CPUに声を与える高品質なTTS

Hackerたちの意見