Launch HN: RunAnywhere (YC W26) – Apple Siliconでの高速AI推論
50日前原文(github.com)
概要
- RCLIはApple Silicon向けの高速オンデバイス音声AI。
- STT(音声認識)、LLM(大規模言語モデル)、TTS(音声合成)が完全ローカルで動作。
- MetalRTエンジンによる圧倒的な推論速度と低遅延(200ms未満)。
- クラウドやAPIキー不要、38種類のmacOSアクション音声操作を実現。
- ドキュメントRAGやモデルのホットスワップ、TUI管理など多機能。
RCLIとは
- Apple Silicon(M1/M2/M3/M4)専用のオンデバイス音声AIパイプライン。
- STT + LLM + TTSの全処理をローカルで実行、クラウド通信ゼロ。
- 38種類のmacOSアクションを音声で直接操作可能。
- **RAG(Retrieval-Augmented Generation)**によるローカルドキュメントQ&A機能。
- MetalRT(RunAnywhere, Inc.開発)による独自GPU推論エンジンで超高速処理。
- **TUI(ターミナルUI)**でモデル管理やアクション切替、ハードウェアモニタリングに対応。
インストール・セットアップ
- macOS 13以降、Apple Silicon必須。
- MetalRTはM3以降で利用可、M1/M2は自動でllama.cppへフォールバック。
- インストールコマンド例
- Homebrew:
brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.gitbrew install rclircli setup(モデル約1GBダウンロード・一度のみ)
- 直接インストール:
curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash
- Homebrew:
- アップグレード・トラブルシュート
brew update、brew upgrade rcli- SHA256エラー時はtapの強制リフレッシュやキャッシュクリアを推奨
クイックスタート
rcli:インタラクティブTUI(プッシュトゥトーク+テキスト入力)rcli listen:連続音声モードrcli ask "open Safari":ワンショットコマンドrcli ask "play some jazz on Spotify":Spotify操作例rcli metalrt:MetalRT管理rcli llamacpp:llama.cpp管理
パイプライン・特徴
- VAD(音声区間検出):Silero
- STT:Zipformer(ストリーミング)、Whisper/Parakeet(オフライン)
- LLM:Qwen3, LFM2, Qwen3.5(KVキャッシュ+Flash Attention対応)
- TTS:ダブルバッファリングによるスムーズな音声合成
- ツールコーリング:LLMネイティブな形式でアクション呼び出し
- マルチターンメモリ:会話履歴をトークンバジェット内で自動管理
macOSアクション例(38種類)
- 生産性:create_note, create_reminder, run_shortcut
- コミュニケーション:send_message, facetime_call
- メディア:play_on_spotify, play_apple_music, play_pause, next_track, set_music_volume
- システム:open_app, quit_app, set_volume, toggle_dark_mode, screenshot, lock_screen
- Web:search_web, search_youtube, open_url, open_maps
- TUIのActionsパネルで有効/無効切替や全一覧表示可能
RAG(ローカル文書Q&A)
- ローカル文書(PDF、DOCX、テキスト)を約4msでハイブリッド検索
- コマンド例
rcli rag ingest ~/Documents/notesrcli ask --rag ~/Library/RCLI/index "summarize the project plan"
- 5,000チャンク超の高速インデックス対応
モデル管理
- 20種類以上のモデル(LLM, STT, TTS, VAD, 埋め込み)をローカル運用
- モデルのブラウズ・ダウンロード・ホットスワップがTUIから可能
- デフォルトインストール:約1GB(LFM2 1.2B + Whisper + Piper + Silero VAD + Snowflake埋め込み)
- コマンド例
rcli models:モデル管理rcli upgrade-llm:LLMアップグレードrcli voices:TTS音声切替rcli cleanup:未使用モデル削除
MetalRTエンジンの特徴
- Apple Silicon向けに最適化された独自GPU推論エンジン
- LLM最大550 tok/s、音声パイプライン200ms未満の超低遅延
- M3/M4以降でMetal 3.1のGPU機能をフル活用
- M1/M2はllama.cppへ自動フォールバック
- MetalRTはプロプライエタリライセンス(ライセンス問合せ:founder@runanywhere.ai)
ベンチマーク・パフォーマンス
- LLMデコード:llama.cppやApple MLXの1.2~2倍高速
- 例:Qwen3-0.6B → 658 tok/s(mlx-lm 552, llama.cpp 295)
- STT:70秒音声を101msで書き起こし(リアルタイム比714倍)
- TTS:178ms合成(mlx-audioやsherpa-onnxの2.8倍高速)
- 詳細な手法・数値は公式ブログ参照
CLIリファレンス
rcli:TUI起動rcli listen:連続音声rcli ask <テキスト>:ワンショットコマンドrcli actions [name]:アクション一覧・詳細rcli rag ingest <dir>:RAG用文書インデックス作成rcli rag query <テキスト>:RAGクエリrcli models [llm|stt|tts]:モデル管理rcli voices:TTS音声管理rcli metalrt:MetalRT管理rcli llamacpp:llama.cpp管理rcli setup:デフォルトモデルダウンロードrcli info:エンジン・モデル情報表示- オプション例:
--models <dir>,--rag <index>,--gpu-layers <n>,--ctx-size <n>,--no-speak,--verbose
開発・ライセンス情報
- RCLI本体はMITライセンス(MetalRTはプロプライエタリ)
- 貢献歓迎:新アクション・モデル・音声追加やビルド手順はCONTRIBUTING.md参照
- ソース:
https://github.com/RunanywhereAI/RCLI - デモ動画:
https://www.youtube.com/watch?v=eTYwkgNoaKg
MetalRT開発の思想・技術詳細
- カスタムMetalシェーダーによるグラフスケジューラ・ランタイムオーバーヘッドの排除
- 初期化時の全メモリ確保、推論中の動的アロケーションゼロ
- 3モーダル一体型エンジン(STT/LLM/TTSを一つのGPUパイプラインで処理)
- ロックフリーリングバッファ、ダブルバッファTTS、各処理の同時並行化
- RAG最適化:5,000チャンク超の文書を4ms未満で検索
- 詳細なアーキテクチャ・最適化手法は公式ブログ参照
まとめ
- RCLIはApple Siliconの性能を最大限引き出すオンデバイス音声AIソリューション
- 超低遅延・高機能な音声操作環境をローカルで実現
- クラウド依存ゼロでプライバシーとレスポンスを両立
- 将来的なM1/M2のMetalRT対応や、さらなるモデル追加にも期待