Launch HN: RunAnywhere (YC W26) – Apple Siliconでの高速AI推論

50日前原文(github.com)

概要

RCLIはApple Silicon向けの高速オンデバイス音声AI。
STT（音声認識）、LLM（大規模言語モデル）、TTS（音声合成）が完全ローカルで動作。
MetalRTエンジンによる圧倒的な推論速度と低遅延（200ms未満）。
クラウドやAPIキー不要、38種類のmacOSアクション音声操作を実現。
ドキュメントRAGやモデルのホットスワップ、TUI管理など多機能。

RCLIとは

Apple Silicon（M1/M2/M3/M4）専用のオンデバイス音声AIパイプライン。
STT + LLM + TTSの全処理をローカルで実行、クラウド通信ゼロ。
38種類のmacOSアクションを音声で直接操作可能。
**RAG（Retrieval-Augmented Generation）**によるローカルドキュメントQ&A機能。
MetalRT（RunAnywhere, Inc.開発）による独自GPU推論エンジンで超高速処理。
**TUI（ターミナルUI）**でモデル管理やアクション切替、ハードウェアモニタリングに対応。

インストール・セットアップ

macOS 13以降、Apple Silicon必須。
- MetalRTはM3以降で利用可、M1/M2は自動でllama.cppへフォールバック。
インストールコマンド例
- Homebrew:
  - brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
  - brew install rcli
  - rcli setup（モデル約1GBダウンロード・一度のみ）
- 直接インストール:
  - curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash
アップグレード・トラブルシュート
- brew update、brew upgrade rcli
- SHA256エラー時はtapの強制リフレッシュやキャッシュクリアを推奨

クイックスタート

rcli：インタラクティブTUI（プッシュトゥトーク＋テキスト入力）
rcli listen：連続音声モード
rcli ask "open Safari"：ワンショットコマンド
rcli ask "play some jazz on Spotify"：Spotify操作例
rcli metalrt：MetalRT管理
rcli llamacpp：llama.cpp管理

パイプライン・特徴

VAD（音声区間検出）：Silero
STT：Zipformer（ストリーミング）、Whisper/Parakeet（オフライン）
LLM：Qwen3, LFM2, Qwen3.5（KVキャッシュ＋Flash Attention対応）
TTS：ダブルバッファリングによるスムーズな音声合成
ツールコーリング：LLMネイティブな形式でアクション呼び出し
マルチターンメモリ：会話履歴をトークンバジェット内で自動管理

macOSアクション例（38種類）

生産性：create_note, create_reminder, run_shortcut
コミュニケーション：send_message, facetime_call
メディア：play_on_spotify, play_apple_music, play_pause, next_track, set_music_volume
システム：open_app, quit_app, set_volume, toggle_dark_mode, screenshot, lock_screen
Web：search_web, search_youtube, open_url, open_maps
TUIのActionsパネルで有効/無効切替や全一覧表示可能

RAG（ローカル文書Q&A）

ローカル文書（PDF、DOCX、テキスト）を約4msでハイブリッド検索
コマンド例
- rcli rag ingest ~/Documents/notes
- rcli ask --rag ~/Library/RCLI/index "summarize the project plan"
5,000チャンク超の高速インデックス対応

モデル管理

20種類以上のモデル（LLM, STT, TTS, VAD, 埋め込み）をローカル運用
モデルのブラウズ・ダウンロード・ホットスワップがTUIから可能
デフォルトインストール：約1GB（LFM2 1.2B + Whisper + Piper + Silero VAD + Snowflake埋め込み）
コマンド例
- rcli models：モデル管理
- rcli upgrade-llm：LLMアップグレード
- rcli voices：TTS音声切替
- rcli cleanup：未使用モデル削除

MetalRTエンジンの特徴

Apple Silicon向けに最適化された独自GPU推論エンジン
LLM最大550 tok/s、音声パイプライン200ms未満の超低遅延
M3/M4以降でMetal 3.1のGPU機能をフル活用
M1/M2はllama.cppへ自動フォールバック
MetalRTはプロプライエタリライセンス（ライセンス問合せ：founder@runanywhere.ai）

ベンチマーク・パフォーマンス

LLMデコード：llama.cppやApple MLXの1.2～2倍高速
- 例：Qwen3-0.6B → 658 tok/s（mlx-lm 552, llama.cpp 295）
STT：70秒音声を101msで書き起こし（リアルタイム比714倍）
TTS：178ms合成（mlx-audioやsherpa-onnxの2.8倍高速）
詳細な手法・数値は公式ブログ参照

CLIリファレンス

rcli：TUI起動
rcli listen：連続音声
rcli ask <テキスト>：ワンショットコマンド
rcli actions [name]：アクション一覧・詳細
rcli rag ingest <dir>：RAG用文書インデックス作成
rcli rag query <テキスト>：RAGクエリ
rcli models [llm|stt|tts]：モデル管理
rcli voices：TTS音声管理
rcli metalrt：MetalRT管理
rcli llamacpp：llama.cpp管理
rcli setup：デフォルトモデルダウンロード
rcli info：エンジン・モデル情報表示
オプション例：--models <dir>, --rag <index>, --gpu-layers <n>, --ctx-size <n>, --no-speak, --verbose

開発・ライセンス情報

RCLI本体はMITライセンス（MetalRTはプロプライエタリ）
貢献歓迎：新アクション・モデル・音声追加やビルド手順はCONTRIBUTING.md参照
ソース：https://github.com/RunanywhereAI/RCLI
デモ動画：https://www.youtube.com/watch?v=eTYwkgNoaKg

MetalRT開発の思想・技術詳細

カスタムMetalシェーダーによるグラフスケジューラ・ランタイムオーバーヘッドの排除
初期化時の全メモリ確保、推論中の動的アロケーションゼロ
3モーダル一体型エンジン（STT/LLM/TTSを一つのGPUパイプラインで処理）
ロックフリーリングバッファ、ダブルバッファTTS、各処理の同時並行化
RAG最適化：5,000チャンク超の文書を4ms未満で検索
詳細なアーキテクチャ・最適化手法は公式ブログ参照

まとめ

RCLIはApple Siliconの性能を最大限引き出すオンデバイス音声AIソリューション
超低遅延・高機能な音声操作環境をローカルで実現
クラウド依存ゼロでプライバシーとレスポンスを両立
将来的なM1/M2のMetalRT対応や、さらなるモデル追加にも期待

Hackerたちの意見

ちょっと混乱してるんだけど、あなたが提供してるのは何なの？GitHubに書いてあるみたいな音声アシスタント/AIなの？それとももっと一般的な目的のLLMなの？RAGはどう関係してるの？音声からRAGへの機能ってちょっとランダムな気がするんだけど。軽く無視してるように聞こえたらごめんね、本当に何を提供してるのか分からなくて。

└

ここにコメントを見に来たのは、誰かがこれが何か分かってるかと思ったから。君だけじゃないよ。

└

TFAからの引用：ドキュメントインテリジェンス（RAG）：文書を取り込み、音声で質問する — 約4msのハイブリッド検索。かなり明確だね。モデルに文書を入力として供給して、それについて口頭で質問できるってことだ。

└

RunAnywhereは、AIモデルをクラウドにリクエストを送るのではなく、デバイス上で速く動かすソフトウェアを作ってるんだ。今はApple Siliconに焦点を当ててる。現在、2つのパーツがあるよ：MetalRT - Apple Silicon用の独自の推論エンジン。これがローカルのLLM、音声認識、音声合成の処理を速くする。時間が経つにつれて、モデルのカバレッジを拡大していく予定で、もっと多様なモダリティと広いサポートが来るよ。RCLI - これを実際に示すオープンソースのCLI。Macに話しかけたり、ローカルのドキュメントをクエリしたり、アクションをトリガーしたり、すべてデバイス上で完結するんだ。だから、私たちを考える最もシンプルな方法は、デバイス上のAIのためのランタイム/インフラ層を構築していて、RCLIはその一例だよ。長期的には、Apple Siliconだけでなく、もっと多くのチップやデバイスタイプにも同じアプローチを持っていきたい。スピードアップが本物かどうか聞いてる人のために、私たちのベンチマーク手法と結果をここに公開してるよ：LLM: https://www.runanywhere.ai/blog/metalrt-fastest-llm-decode-e... 音声: https://www.runanywhere.ai/blog/metalrt-speech-fastest-stt-t...

└

いい質問だね、ちょっと説明するね。RunAnywhereは推論の会社なんだ。デバイス上のAIのためのランタイムレイヤーを作ってる。二つの部分があって、MetalRTはApple Silicon用の独自のGPU推論エンジンだよ。これがあれば、LLMや音声認識、音声合成が他のどれよりも速く動くんだ（ベンチマークはここにあるよ: https://www.runanywhere.ai/blog/metalrt-fastest-llm-decode-e...）。これが私たちのコア製品。RCLIはオープンソースのCLI（MITライセンス）で、MetalRTが何をできるかを示しているんだ。音声認識＋LLM＋音声合成を43のmacOSアクション、ローカルRAG、TUIを使ってリアルな音声パイプラインに繋げてる。エンジンの上に構築されたリファレンスアプリケーションみたいなものだね。特にRAGについて言うと、音声＋文書のQ&Aはデバイス上での使用ケースにぴったりなんだ。クラウドにアップロードしたくない敏感な文書があったら、ローカルで取り込んで、音声で質問できるんだ。取得は5K以上のチャンクで約4msで動くから、音声パイプラインでは瞬時に感じるよ。これはランダムじゃなくて、すべてをローカルで動かすことの強力なプライバシーの理由の一つなんだ。長期的なビジョンは、MetalRTをもっと多くのチップやプラットフォームに持っていくこと。そうすれば、どんな開発者でも最小限の統合努力でクラウド競争力のある推論をデバイス上で実現できるようになるよ。

さっき試してみたけど、めっちゃクールだね！rcliを使った楽しい技術デモだ。バグレポートも出したよ；homebrew経由でインストールしたら、全部がちゃんと読み込まれない。お願いが一つ：クワントをもっとスムーズにしてほしい；ビットごとにやる方がいいと思う。あと、一般的に言うと、huggingfaceのモデル選択のためのUIも欲しいな。全部を提供するのは難しいのは分かってるけど、組み合わせて使いたいんだ！それと、グラウンディングについて： "open safari"（サファリが開いて、音声が「サファリを開きました」って言う） "navigate to google.com in safari"（何も起こらず、音声が「google.comにナビゲートしました」って言う）。とにかく、すごく楽しいよ。

└

どうやって試したの？GitHubには動かないって書いてあったよね。

└

> 「サファリを開いて」（サファリが開いて、声が「サファリを開きました」と言う）「サファリでgoogle.comに移動して」（何も起こらず、声が「google.comに移動しました」と言う）だから、コアの壊れた機能を説明してるんだね。最も簡単なテストでアプリが壊れてる。

└

試してくれてありがとう、バグ報告も感謝！Homebrewのインストール問題を調査中だよ。Unslothの量子化については同意、ビットごとに一貫して良いよね。より広い量子化フォーマットのサポート（Unslothのアプローチを含む）を追加する予定だよ。今はMetalRTはMLXの4ビットファイルとGGUFのQ4_K_Mで動いてるけど、これを拡張したいんだ。グラウンディングの問題（「google.comに移動」と言っても実際には移動しない）については、君の言う通り、それはギャップだね。「open_url」アクションは存在するけど、LLMが正しくルーティングしないことがある、特に複合コマンドではね。小さなモデル（0.6B-1.2B）はツール呼び出しの精度が限られてるから、rcli upgrade-llmでQwen3.5 4Bにアップグレードするとかなり改善されるよ。アクションルーティングのプロンプトも改善中だよ。詳しいフィードバックに感謝、これがまさに私たちに必要なことなんだ。

Portfileのパッチを送ったら、MacPortsの配布を考えてくれる？

└

はい、お願いします！

└

もしこれをmacports/macports-portsに提出するなら、共同メンテナーとして追加してもらってもいいよ：{macports.halostatue.ca:austin @halostatue} 私は定期的にhttps://github.com/macports/macports-ports/blob/master/sysut...を管理してるから。

└

もちろん、Portfileの貢献を歓迎するよ。レビューしてマージするのも喜んでやる。halostatueが共同メンテナンスしたいなら、さらにいいね。RCLIリポジトリでPRや問題をオープンしてくれれば、調整するよ。

すごくクールだね、おめでとう！Appleの多くの未公開APIを考えると、どうやってこれを実現したのか気になるな。プライベートなNeural Engine APIを使ってるの？それとも完全に公開されてるMetal API？どちらにしても、これは素晴らしい成果だし、私のコンピュータから敏感な情報を出したくないOpenClawの世界では非常に重要だよ。

└

完全に公開されたMetal API、プライベートフレームワークなし、Neural Engineなし、文書化されていない権限なし。MetalRTは公開されたMetal APIの上に構築されているんだ。パフォーマンスはGPUの使い方から来ていて、Appleが文書化していないものにアクセスすることからは来ていないよ。特別な権限やSIPの回避策なしでMetalRTがApple Silicon Macのどれでも動くように、公開APIにこだわったんだ。これにより、将来のmacOS/iOS配布にもApp Store互換になるってわけ。結果は自明だよ：同じモデルファイルでAppleのMLXより1.1-1.19倍速いし、音声認識では4.6倍、音声合成では2.8倍速い。詳細な方法論はここに公開してるよ: https://www.runanywhere.ai/blog/metalrt-fastest-llm-decode-e... いい言葉をありがとう、「OpenClaw world」のフレーミングがまさに私たちがこれを作った理由なんだ。

Mac Studioで本当に大きなモデルを試したことある？メモリが十分なら、大きなクエンのレイテンシーがどうなるのか気になるんだ。

└

まだMetalRTでは対応してないけど、今は約4Bパラメータまでのモデル（Qwen3 4B、Llama 3.2 3B、LFM2.5 1.2B）をサポートしてるよ。これらは音声パイプラインの使用ケースに最適化されていて、デコード速度とレイテンシがモデルサイズよりも重要なんだ。もっと大きなモデル（7B、14B、32B）への拡張は計画中だよ。192GBのメモリを持つMac Studioは面白いターゲットになるかも。4ビットの32Bモデルが快適に収まるし、MetalRTのアーキテクチャ的な利点（融合カーネル、最小限のディスパッチオーバーヘッド）はうまくスケールするはず。どんなモデルや使用ケースを考えてるの？それが優先順位を決めるのに役立つよ。

これを試してみたけど、今のところすごく気に入ってる。質問なんだけど、tuiアプリやMetalRtがサポートしているモデルにダイアライゼーションのサポートはある？もしまだサポートされていないなら、追加する予定はある？

└

はい、サポートする予定はありますよ。

それは、以前のコンテキストを覚えるためのメモリ管理も試みてるし、自動コンパクト機能もあるよ。さらに、パーソナリティ機能もあるから、ぜひ試してみて！めっちゃ楽しい :)

あなたのウェブデモでElevenLabsのAPIキーが漏れてるみたいだね。OpenAIのコンプリーションエンドポイントもリクエストヘッダーにAPIキーが含まれてるけど、それはすでに無効になってて401を返してるみたい。

└

バランスはないと思うよ。これはおとりだね :)

2026年にMacOSを使ってる自己卑下な開発者ってどんな人なんだ？

└

残念ながら、いくつかの会社は開発者にこれしか提供してないんだよね。

└

ローカルのLLMを使うのが好きな人たち。最高のハードウェアが好きな人たち。物を作るのが好きで、何でも宗教的な問題にしない人たち。

あなたの独自ライブラリMetalRTをモバイルデバイスに移植する計画はありますか？このパフォーマンス向上はプライバシー重視のモバイルアプリケーションにとって大きな恩恵になると思うんだけど。

└

うん。

└

そうだね、モバイルが私たちの主力製品で、ちゃんと計画に入ってるよ。同じMetalRTを動かしてるMetal GPUパイプラインが、iOSにもそのまま使えるんだ（同じApple Silicon、同じMetal APIだし）。

ハクソク