ハクソク

世界を動かす技術を、日本語で。

Hackerたちの意見

みんなが自分のTTSモデルを作ってるのがいいね。トレーニングにかかる費用が他のモデルに比べてそんなに高くないし、アーキテクチャもいろいろあるし。最近の例としては、これがあるよね。https://github.com/supertone-inc/supertonic
ありがとう!コードもあって、いろんな言語に対応してるのはすごくいい提案だね。
もう一つはSoprano-1.1だね。どうやら一人でトレーニングしてるみたいで、こんな小さなモデルなのに驚くほど自然な声だよ。TTSって昔はロボットみたいで、ほとんど理解できない声ばかりだったのを思い出すな。https://www.reddit.com/r/LocalLLaMA/comments/1qcusnt/soprano... https://huggingface.co/ekwek/Soprano-1.1-80M
ブラウザ内デモのSupertonic、WASMで動いてるよ。
これ、めっちゃいいね!シェアしてくれてありがとう!ココロの大ファンで、自分の完全ローカルな音声アシスタントも作ったんだ。[1] ポケットTTSも試してみるつもり![1] https://github.com/acatovic/ova
リポジトリをシェアしてくれてありがとう!めっちゃクールだね。試してみる予定なんだけど、これはmlxベースなの?それともhfトランスフォーマーだけ?
KokoroはTTSに関しては圧倒的に良いね。ボイスクローンについては、Pocket TTSは壁があって、よくわからないけど。
STTに似たようなものはある?今、Whisper Distillモデルを使ってるけど、まあまあ動いてるよ。でも、たまに全然違うことを理解されちゃうことがあるんだよね。
先日からのやつだよ。
ParakeetはWhisperより正確ではないけど、かなり速いよ。CPUでもリアルタイムより速いくらいだね。Nemoを使わないといけないけど、サードパーティの変換をいじる必要があるよ。(さらに大きい兄貴のCanaryもあるし、混乱を招く名前のNemotronスピーチもあるよ。)
軽量なのがいいね。最近、ポケット用のビジョンエージェントに対応したみたい。https://github.com/GetStream/Vision-Agents/tree/main/plugins...
クオリティはいいけど、残念ながら英語の単一言語だけなんだよね。
これに同意するわ。TTSシステムが、英語だけを話す小さな人口以外でも役立つためには、多言語対応で、ほぼ単語ごとに言語を切り替えられる必要があるよね。でも、クールな技術デモだね!
いいね!MCPサーバーにしたから、クラウドが何か終わったときに教えてくれるようにしたよ :)
まさにその理由で、pushoverを設定してメッセージをスマホに送るようにしたよ!次は君のサーバーを試してみるね!
面白い!最近、piper-ttsを使って作ったのもあるよ!https://github.com/tylerdavis/speak-mcp
これ好き。MITライセンスって書いてあるけど、READMEには禁止事項のセクションがあって、制限が加わって非自由なものになってるかも?法的な意味合いはよくわからないな。
いい質問だね。ライセンスに「これを使ってもいい、でもこれを使ってはいけない」と書いてあって、使った場合、ライセンスを破ったことになるのかな?
「禁止された使用」のセクションは基本的に「犯罪に使ってはいけない」ってことみたいだけど、法的にはあんまり意味がない気がする。
参考までに、MITライセンスにはこんな文言があるよ。「ここに許可を与えます... 制限なくソフトウェアを扱うことができます」。だから、「禁止された使用」セクションがあるREADMEは、明らかに矛盾した表現になってるね。
うん、禁止された使用のセクションの意味が全然わからない。無駄なものに感じる。
うわ、M1 Macで`uvx pocket-tts serve`をやってみたんだけど、接続したら、>「それは最良の時代であり、最悪の時代であり、知恵の時代であり、愚かさの時代であり、信念の時代であり、信じられない時代であり、光の季節であり、暗闇の季節であり、希望の春であり、絶望の冬であり、私たちはすべてのものを前に持っていた、私たちは何も持っていなかった、私たちは皆天国に向かっていた、私たちは皆反対の方向に向かっていた—要するに、その時代は現在の時代に非常に似ていて、一部のうるさい権威者たちは、それが良いか悪いかにかかわらず、比較の最上級で受け入れられるべきだと主張していた(『二都物語』の冒頭)」って始まるんだけど、問題はジャヴェールが文の一部を飛ばしちゃうこと!例えば、>「それは最良の時代であり、最悪の時代であり、知恵の時代であり、信念の時代であり、信じられない時代であり、光の季節であり、希望の春であり、絶望の冬であり、私たちはすべてのものを前に持っていた、...」ってなってるけど、「愚かさの時代であり、」「絶望の冬であり、」が飛ばされてる。これじゃ、TTSシステムに対する信頼感が薄れるよね。(マリウスの方がマシみたい;https://github.com/kyutai-labs/pocket-tts/issues/38に投稿したよ)
ちょうどいいタイミングだ!今やってるちょっとしたプロジェクトにぴったりだ。声もいい感じ!
もしかしたら、音声モデルとあんまり話してなかったからか、ChatGPTの声が変に感じてたのかも。クラウドサーバーに行くと思ってたし。でもPocket TTSからunmute.shを見つけたんだ。オープンソースで、Pocket TTSと同じ会社から出てると思うし、Pocket TTSも使えるかも。4Bとかのエージェントモデルがあって、結構いい感じだよ。あんまりお金をかけずにホームラボで使えると思う。少なくともunmute.shはChatGPTの音声モデルと似てる/競合してると思う。オープンソースのモデルがすごく良くて(効果的で)驚くよ。ほとんど誰にでも合うものがある感じ。唯一の本当のモートはコーディングモデルにあるかもしれない。結構いいのもあるけど、最高のものには10倍から20倍の値段を払う人もいるからね(minimax/z.aiのサブスクリプション料金とclaude codeの比較)。AIでまた深層探求の瞬間が見られるかどうか、興味深いね。claude sonnetやそれに似たものを超えるかもしれないし。DeepseekはDeepseek 4を持ってるから、sonnetを超えられるかどうか、注目だね。(話がそれてごめん)