Microsoft VibeVoice: オープンソースのフロンティア音声AI
7時間前原文(github.com)
概要
- VibeVoiceは、音声AI分野における最先端のオープンソースモデル群
- ASR(自動音声認識)およびTTS(テキスト音声合成)両方をサポート
- 長時間音声の一括処理や多言語対応など、独自の技術革新を実現
- Hugging Face Transformersとの統合や、vLLM推論による高速化
- 利用時の倫理的注意事項や制限も明示
VibeVoiceモデルファミリーの概要
- VibeVoiceは、**Text-to-Speech (TTS)とAutomatic Speech Recognition (ASR)**の両方に対応したオープンソースAI音声モデル群
- 連続音声トークナイザー(音響・セマンティック)を超低フレームレート(7.5Hz)で動作させ、音質を保ちつつ計算効率を大幅に向上
- 次トークン拡散フレームワークと**大規模言語モデル(LLM)**を組み合わせ、文脈理解や対話の流れを保持
- 高忠実度な音響生成を実現するディフュージョンヘッド搭載
- Hugging Face Transformersライブラリから直接利用可能、プロジェクトへの統合が容易
VibeVoice-ASR:長時間音声認識モデル
- 最大60分の音声を一度に入力し、**話者(Who)・タイムスタンプ(When)・内容(What)**を含む構造化テキストを出力
- カスタマイズ可能なホットワード(固有名詞や専門用語)に対応し、ドメイン固有の認識精度を向上
- 話者分離・タイムスタンプ付与・ASRを同時に実行
- 50以上の言語にネイティブ対応、多言語音声認識を実現
- vLLMによる高速推論、ファインチューニング用コードも公開
- Hugging Face, Playground, 技術レポートも提供
VibeVoice-TTS:長時間・多話者テキスト音声合成
- 最大90分の会話・単独音声を一括生成、最大4人の話者に対応
- 自然な話者のターンテイクや話者一貫性を保持
- 感情表現や会話のダイナミクスを反映した自然な音声生成
- 英語・中国語ほか多言語対応
- Hugging Face, 技術論文, デモ音声も公開
VibeVoice-Realtime-0.5B:リアルタイム音声合成
- 0.5Bパラメータの軽量モデルで、ストリーミング入力と**長時間音声生成(約10分)**に対応
- リアルタイムTTS(初回音声レイテンシ約300ミリ秒)
- 多言語・多様な話者スタイルも実験的に搭載
オープンソース化とコミュニティ
- TTS/ASRコードやファインチューニング用スクリプトを順次公開
- 一部TTSコードは、悪用事例発生によりMicrosoftの方針に基づきリポジトリから削除
リスクと制限事項
- 基盤モデル(Qwen2.5 1.5b等)由来のバイアスや誤りを引き継ぐ可能性
- ディープフェイクや偽情報拡散など悪用リスク
- 法令遵守・AI利用の開示が必須
- 商用利用や実運用前には追加検証・開発が推奨
- 研究・開発用途向け、責任ある利用を強調
参考リンク・リソース
- 公式プロジェクトページで詳細・デモ・サンプル音声を公開
- Hugging Face, Colabノートブック, 技術レポートなど多彩なリソースを提供
- CONTRIBUTING.mdで貢献ガイドラインを提示