ハクソク

世界を動かす技術を、日本語で。

Nvidia NemoClaw

概要

  • NVIDIA NemoClawは、OpenClaw常時稼働アシスタントを安全に実行するためのオープンソーススタック
  • NVIDIA OpenShellランタイムやAgent Toolkitを利用し、安全なサンドボックス環境を提供
  • **初期段階(アルファ版)**のため、仕様変更や不具合の可能性あり
  • コミュニティからのフィードバックと実験を歓迎
  • 本番環境利用は非推奨、自己責任での検証・導入を推奨

NVIDIA NemoClaw 概要

  • NVIDIA NemoClawは、OpenClawアシスタントの安全な実行と管理を簡素化するオープンソースプロジェクト
  • NVIDIA OpenShellランタイムとAgent Toolkitを活用し、クラウド経由で推論を実施
  • サンドボックスオーケストレーションの生産利用を目指し、現在は環境構築と実験が主な用途
  • APIやインターフェースは今後大きく変わる可能性あり
  • コミュニティからのバグ報告や議論を歓迎

クイックスタート手順

  • OpenClawの新規インストールが必要
  • ハードウェア要件
    ・最小:CPU 4 vCPU、RAM 8GB、ディスク20GB
    ・推奨:CPU 4+ vCPU、RAM 16GB、ディスク40GB
  • ソフトウェア要件
    ・Linux Ubuntu 22.04 LTS以降
    ・Node.js 20以降、npm 10以降
    ・Docker、OpenShellのインストール必須
  • インストール方法
    ・インストーラースクリプトを実行
    curl -fsSL https://www.nvidia.com/nemoclaw.sh | bash
    
    ・nvmやfnm利用時はPATHの再読み込みが必要
  • インストール完了後の確認
    ・サンドボックス、モデル、APIキーの設定状況を表示 ・主要コマンド
    nemoclaw <name> connect サンドボックス接続
    nemoclaw <name> status ステータス確認
    nemoclaw <name> logs --follow ログ監視

OpenClawとの連携・利用方法

  • TUI(テキストユーザーインターフェース)
    ・対話型チャットインターフェース
    ・コマンド例:
    sandbox@my-assistant:~$ openclaw tui
    
  • CLI(コマンドラインインターフェース)
    ・長文やコード出力向き
    ・コマンド例:
    sandbox@my-assistant:~$ openclaw agent --agent main --local -m "<プロンプト>" --session-id <id>
    

NemoClawの仕組み

  • OpenShellランタイムとNemotronモデルのインストール
  • バージョン管理されたブループリントでサンドボックス作成・設定
  • nemoclaw CLIによる全体オーケストレーション
    ・OpenShellゲートウェイ
    ・サンドボックス
    ・推論プロバイダー
    ・ネットワークポリシー
  • ブループリントライフサイクル
    ・アーティファクト解決
    ・ダイジェスト検証
    ・リソース計画
    ・OpenShell CLI経由で適用
  • 障害発生時
    nemoclaw <name> statusでNemoClawの状態確認
    openshell sandbox listで基盤サンドボックス状態確認

推論・セキュリティ

  • 推論リクエストは必ずサンドボックス内でOpenShell経由でNVIDIAクラウドへ
  • NVIDIA APIキーが必要(build.nvidia.comで取得)
  • 保護レイヤー
    ・ネットワーク:許可されていない外部接続をブロック(ランタイムで変更可能)
    ・ファイルシステム:/sandboxと/tmp以外のアクセスを制限(作成時に固定)
    ・プロセス:特権昇格や危険なシステムコールをブロック(作成時に固定)
    ・推論:モデルAPI呼び出しを管理されたバックエンドにリルート(ランタイムで変更可能)
  • 未許可ホストへのアクセス時
    ・OpenShellがリクエストをブロックし、TUIでオペレーター承認を求める

主要コマンド一覧

  • ホストコマンド(nemoclaw)
    nemoclaw onboard インタラクティブセットアップ
    nemoclaw deploy <instance> Brev経由のリモートGPU展開(実験的)
    nemoclaw <name> connect サンドボックスシェル接続
    openshell term OpenShell TUI起動
    nemoclaw start/stop/status 各種サービス管理(Telegram連携等)
  • プラグインコマンド(openclaw nemoclaw)
    openclaw nemoclaw launch [--profile ...] OpenClawのサンドボックス起動
    openclaw nemoclaw status サンドボックス・ブループリント・推論状況の表示
    openclaw nemoclaw logs [-f] サンドボックスログのストリーム表示

制限事項・既知の問題

  • openclaw nemoclawプラグインコマンドは開発中
  • nemoclawホストCLIを主なインターフェースとして利用推奨
  • 一部環境でセットアップに手動対応が必要になる場合あり
  • 問題発生時はIssue提出を推奨

参考・詳細情報

  • 公式ドキュメント参照推奨
    ・NemoClaw概要
    ・仕組みとアーキテクチャ
    ・推論プロファイル
    ・ネットワークポリシー
    ・CLIコマンドリファレンス
    ・トラブルシューティング
  • ライセンス:Apache License 2.0

Hackerたちの意見

この部分が面白いと思った: 「エージェントからの推論リクエストは、サンドボックスを直接出ることはない。OpenShellがすべての呼び出しをキャッチして、NVIDIAのクラウドプロバイダーにルーティングする。」これをやってるのは、OpenClawを簡単にセットアップするためのデフォルトのコンピュートプロバイダーになりたいからみたいだね。うまくいけば、消費者向けの推論収益が結構入ってくるかも。
OpenClawのセキュアなインストールは、主な問題じゃないと思う。このプロジェクトは、実際の問題を解決しているようには見えない。もちろん、本当の問題は、LLMにすべてへのアクセスを与えて、あとはうまくいくことを期待することだね。
s/収益/データ/
そう、それだよ。でも、一般の消費者はこれを使わないと思う。Googleが自分たちのバージョンを作って、また勝つだろうね。みんなGoogleを使ってるし。
キャリアの初期にこれを実現したのはすごいね。最近、初期のエンジニアからの高品質なAIやデータプロジェクトが急増してる気がするし、何がその要因なのかめっちゃ気になる(正直言うと、ちょっと嫉妬もしてる)。
多くのシニアエンジニアリングの問題は、経験によって制限されるんじゃなくて、大勢のジュニアをまとめる信頼が必要なんだよね。今、ジュニアとしてAIのチームを立ち上げて委任できるようになったから、うまく調整できればシニアレベルのタスクにも取り組めるかも。
コミットやGitHubの著者を見た感じ、貢献している「人」は4人いるみたいだけど(https://github.com/NVIDIA/NemoClaw/graphs/contributors)、みんなプログラミングの初心者には見えない。君がここに書いたことは何がきっかけだったの?
時には経験(または長いキャリアで積み重ねた知恵)が、リスクや問題についてのメンタルブロックや先入観を生むことがある。そうなると、直面するであろう大きな問題に取り組むのが難しくなるんだよね。知恵がない賢いエンジニアと比べてみて。そういう人たちは、すべての問題を事前に知るメンタルの負担なしに、難しい問題に飛び込むのが楽かもしれない。私が見た中で最も意味のある技術的進歩は、いつも「とりあえずやってみよう、週末だけで終わるだろう」から始まって、2年後には完成品ができてるって感じ。もし最初から2年かかるってわかってたら、やらなかったかもしれないしね。無知は必ずしも悪いことじゃない。
このプロジェクトの何が印象的なの?同じ分野の他のプロジェクトと似てるように見えるけど。
> キャリアの初期にこれを出荷したのはすごいね。でも、何がすごいの?
一緒に発火するニューロンは、つながる。脳は時間とともに環境に最適化されるんだ。年を取るにつれて、脳は若い頃よりも効率的に動いている。だから、年配のハンターは若いハンターよりも効果的なんだよね。彼らは環境にしっかり適応してるから。それが進化的なアドバンテージ。でも、同時に「子供たち」のように「新しい」方法で発火することが少なくなるってことでもある。「子供たち」はまだ脳が新しいものを探求しているから、もっとクリエイティブだと思う。このことは、社会が「年を取る」につれて、より多くの高齢者がいて「子供」が少なくなることの大きな落とし穴かもしれない。私たちは、子供たちに違うやり方を強制してもらう必要があるんだ。
これはClaude Codeみたいなツールだって明らかだよね。もし君がジュニア開発者で、全体のプロダクトを届けた経験があまりないけど、いいアイデアを持っているなら、今はすごいレバレッジがあるよ。
これが皮肉じゃないか100%確信はないけど、反応してみるね。私(キャリア初期じゃない開発者)にとって、これらのプロジェクトは怖いよ。人々は、他の誰かが主導しているツールに依存している巨大な負債のようなものを作っている。直感的に何かが違う気がする。全部間違っているかもしれないけど、長年の経験で学んだことの一つは、直感を無視するのは大体うまくいかないってことだ!
OpenClawはいろんなものだけど、決して「高品質」ではないね。
もしキャリアを2-3年以上前に始めたなら、全く違うゲームで訓練されてきたんだ。明確な抽象化、所有権、慎重な反復、そういうの。そういう筋肉記憶が今はあなたを妨げてる。成功を妨げてるんだ。今の若い人たちはそんな荷物を背負ってない。「自分でコードを書く」ってのがデフォルトじゃないから。彼らはシステムを生成して、物事を動かして、結果を確認することを考えてる。伝統的な意味でのエンジニアリングよりも、プロセスを管理することに近い。で、これが出荷されるものに影響してる。21歳の子はエージェントを使って20の方向に並行して突っ込んで、うまくいくものを選ぶ。一方で、もっと「経験豊富な」人は「正しい」アプローチを前もって設計しようと同じ時間を使う。考え終わった頃には、他の人はもう先に進んでる。基本的に、これらの「シニアな直感」が今や負担になってるのが不安だよね。完璧な構造を気にしたり、ランダムにアレルギーを持ったり、前に進む前にすべてのレイヤーを理解する必要がある、なんてのは昔は強みだった。でも今はただ遅くするだけ。若いビルダーたちは、完全には理解していないシステムに物事をやらせることに慣れてる。シニアエンジニアはすべてを分かりやすく、コントロールできるものに戻そうとし続けて、自分を足止めしてる。そのギャップは小さくない。私の周りの創業者やCEOたちは、徐々に年配の開発者を解雇して(カットオフ年齢は約24歳)、この新しいエージェント時代に適した新鮮で若い才能に置き換えてる。彼らの報告によると、速度の向上はすごいし、それがさらに加速する。基本的に、年配の人たちは指数関数的な環境で多項式的な思考を続けてる。彼らは絶滅が予定されている恐竜だよ。
コミット履歴を見ると、発表の前の土曜日から作業を始めたみたいだから、約2日間だね。設計ドキュメントへの言及があるから、ある程度の時間は進めていたみたいだけど、実装はゼロからのようだよ(何か理由があってタイムスタンプを偽造しない限り)。
笑、これらのGitHubリポジトリがそのまま現れると思ってるの?彼らは内部で全ての反復や開発を行って、それからGitHubリポジトリに移して公開したんだよ。
それが、いろんなクローから出てきた買収やパートナーシップについて理解できなかったことなんだ。シンプルな概念なのに、以前からやってた人もいたけど、ただのミームじゃなかった。AIを使えば、週末に100ドル分のトークンで簡単にクローを作れる。どうして分かるかって?
何か見落としてる?みんながOpenClawについてサンドボックスの話をしてるのはどうして?私にとっては、犬に重要な書類の束を渡して、食べちゃうかもしれないから犬をクレートに入れて、その書類と一緒に閉じ込めるような感じなんだけど。このアイデアの問題は、エージェントが役に立つためにはカレンダーやメールプロバイダー、他のサービスに接続しないといけないってことだと思ってたけど、それが混乱や破壊を生むことにもなるよね。そして今、Nvidiaが直接推論を行うことで良くなるの?彼らのハードウェアがAIが私のメールを全部削除するのを防いでくれるの?
カレンダーやメール、他の何かに接続する必要はないよ。私はそれと話しながらアイデアを出したり、GitHubにコードやMarkdownファイルをプッシュしたりしてすごく楽しいよ(OpenClaw用に作った全く別のアカウントでね)。一方で、私の生活はそんなにクレイジーじゃないから、全てをカレンダーに入れる必要はないんだ。
君が言ってることは完全に正しいと思うから、これは悪魔の代弁者的な意見として受け取ってほしいんだけど… 人々は、Clawエージェントを使うことで、サービスをプロキシする形でいくつかの利点を得ながら、より安全に使えるって主張してるよね。例えば、Gmailでは新しいGoogleアカウントを作って、メールをルールで転送したり、Googleのファミリーシェアリングを使ってカレンダーにアクセスを追加したりしてる。これでClawエージェントはメールを読んだりカレンダーにアクセスしたりできるけど、もしメールを送るように頼んでも、プロキシアカウントとしてしか送れないし、カレンダーの予定も君を参加者として追加することしかできないんだ。君が作った予定を壊したり変更したりはできない。それって、本当に得られるものに対して労力が見合うのかな?そこが悩みどころなんだ。安全でないClawエージェントは役に立つかもしれないけど、安全にすることはできない(君が指摘した論理的誤謬のせいで)、安全なClawエージェントはほんの少ししか役に立たない。そうなると、全体のアイデアが圧縮されちゃう感じがする。
同意だね。「OpenClawを常時稼働させるアシスタントを安全にする」って部分はかなり誤解を招くと思う。確かにローカルファイルシステムに与える影響は少なくなるかもしれないけど、君が指摘したように、アカウントの認証情報(Slack、メール、Amazonとか)が本当の危険なんだよね。
そうだね、ただこのセットアップで違うと思うのは、OpenShellゲートウェイのオーバーライドだと思う。彼らが言ってるように: 「NemoClawはNVIDIAのOpenShellランタイムとNemotronモデルをインストールし、バージョン管理されたブループリントを使って、すべてのネットワークリクエスト、ファイルアクセス、推論呼び出しが宣言的ポリシーによって管理されるサンドボックス環境を作成します。」 nemoclaw CLIはフルスタックをオーケストレーションするんだ: OpenShellゲートウェイ、サンドボックス、推論プロバイダー、ネットワークポリシー。これによって、君が定義したポリシーで進行中のリクエストを止めることができる真のプロキシレイヤーが得られるってことだと思う。だから、彼らのハードウェアではなく、OpenShellゲートウェイとネットワークポリシーの組み合わせが重要なんだ。彼らがこれをやってる理由は、ワンクリックデプロイメントの周りに防御を作ろうとしてるからだと思うし、君がMac miniを買って「怖い」ことを学ぶ代わりに、GPUをレンタルする形にしたいんだろうね(ここでのユーザーマーケットはかなり変わってるから笑)。
> 何か見落としてる? いや、めっちゃ見落としてるよ。多くのオープンクローのユーザーは全てを与えてるわけじゃない。必要なことをするために特定のアクセスを与えてるんだ。もしエージェントに24時間体制でサービスの稼働率を最大化させたいなら、特定のデータやPR権限のあるGitHubリポジトリ、サービスを再起動する権限を与える必要がある。これらはすべて非常に考慮されていて意図的でなければならない。「オープンクローを使う唯一の「有用」な方法は全てを与えることだ」というのはストローマン論法だよ。
それが私にとってすごく役立つから、必要なものにアクセスするリスクを受け入れる覚悟があるんだ。でも、必要のないものにアクセスするリスクは受け入れたくない。そういえば、OpenClawの自由なアクセスには警戒して、自分で「必要なアクセスだけ、余計なものはなし」というコンセプトで代替品を作ったよ(https://github.com/skorokithakis/stavrobot)。
さらに良いのは、これらの犬がマリノアのようだってこと。何かに入り込みたいと思ったら、絶対にやるからね。人々は、夜間に動かしておいたボットによってネットワーク全体が侵害されたり、アカウントのログイン情報などの重要な情報が悪用されるリスクがある。サンドボックスを使って、ボットに一時的で限られた$100のカードやアカウントを与えて特定のタスクを実行させるのは一つの方法だけど、これらのエージェントには一貫した思考がないからね。思考の流れや、インターネットで見かけるテキストによっては、スパイ小説やハッカーのファンフィクション、エロ小説、あるいは変なredditの迷宮に飛び込んで、全く予測できない方向に進む可能性がある。今のところ、Clawボットは便利なツールというよりは、変な別世界のRPGみたいだね。検証可能なタスクに制限すれば安全かもしれないけど、「夜間に動かしておいて、朝起きたらプロジェクトが完成してた!」って言ってる人をよく見るよ。確かにそうだけど、家のネットワークをハッキングしたり、家族の写真フォルダーを削除したり、銀行口座にログインしてお金をエビの慈善団体に送金する可能性もあるからね。これらの製品の安全なバージョンが出るまで待った方が賢明だと思う。
いや、何か見落としてるよ。そのクレートは、犬が触れてほしくない書類を食べないようにするためのものだから。
でも、犬が書類をナイジェリアの誰かに送信するのは避けたいよね。
人々が自分のコンピュータから物事を実行していたら、利益は出せないよ。一部の人はSSHを知らないしね。
nanoclawはこの問題を解決するのに建築的にずっと適してると思う。
完全に自律的なエージェントエコシステムは、ちょっと狂った気分になる — 常識が消えたみたい。まるでタイタニック号のエンジンルームを浸水から守るために、ものすごいエンジニアリングの努力が注がれているように感じる。すごく安全に見えるけど…海の底で瓦礫に埋もれてる。国家が支援する脅威アクターがゼロデイのプロンプトインジェクション攻撃を発見したら、君の*Clawがどれだけ隔離されていても関係ないんだ。なぜなら、他のアシスタントと同じように、彼らは君の生活にアクセスできるときだけ役に立つから。アクセスが目立つ脅威の表面で、これを修正することはできない — ソフトウェアやそれが動いているサーバーではなくて。これは、80年代後半にコンドームなしでフリーラブを実践するのと同じようなものだ。遠くから見るとすごく楽しそうに見えるし、その瞬間は本当に楽しいかもしれないけど、みんな正気じゃないよ。
まあ、少なくとも私たちはこれらの人たちと同じ世界を共有しているから、彼らの行動の結果を私たちも経験することになるね。それって、いい視点だよね。
フリーラブは60年代と70年代で、その後はセックス、ドラッグ、ロックンロールの80年代だった。エイズと薬物依存が襲ったとき、パーティーは終わった。あなたのアナロジーはまだ正確だと思うけど、AIのエイズや薬物過剰摂取、依存の時期がいつ来るのか気になる。
うーん… タイタニックはエンジンルームで浸水したから… うまくいくかも? そのユーモアは置いといて、リスク耐性の問題だと思う。必要な範囲でロックダウンして、良い結果を探して、リスクが高すぎるときはシャットダウンすればいい。フリーラブを実践するけど、プロテクション付きで。たぶんまだ楽しいよ? セキュアチャットを介して利用可能なネットワーク内で、比較的狭い範囲のボットを運用するのと、すべてのログイン情報と銀行口座を持つフル管理権を与えるのは大きな違いがある。中間にはたくさんの有用さがあるよ。
私は、nemoclawの普及とsparkの使用が、LLM開発のためにARMを注目させることを期待してる。x86ではなく、主要なリリースターゲットになるといいな。これが、MicrosoftやAppleから本当にオープンソースファーストのエコシステムを引き離すためのチャンスになるかもしれない。
クローズってジャンルにはまだめっちゃ懐疑的なんだよね。特に、常に本部に報告してるクローにはもっと疑問がある。閉じたクローの用途って何なの?
それは、クローズドソースソフトウェアのユースケースを尋ねるようなものだね。
正直、全体的に頭おかしいと思うわ。クロードとか使ってコードを書くのは好きだけど、ある程度の監視が必要だし、自分が人間として変な風に変わってないかチェックしてる。みんな知ってるけど、AIが変な風に寝ちゃって、突然いつもやってることを全然違うやり方でやり始めることもあるし、単純に間違ってて、頼んだことの実装がひどいこともある。たとえ10年も一緒にいる信頼できる秘書がいたとしても、彼らが自分の名前で世の中に出すコンテンツには、やっぱり自分の意見を入れたいと思うのは明らかだよね。「クロー」ってのは、まるで「耳をふさいで、全てが大丈夫だと pretend する」みたいな奇妙なことに見える。実際に何が起こってるか全然考えてない人が多い。メールやカレンダー、携帯に無制限にアクセスさせるのは、どんな「セキュリティコンテキスト」で包んでても、セキュリティの大惨事だってことは明らかだよ。プロキシメールアカウントはまだあなたの名義でメールを送ってるし、プロキシカレンダーはあなたのカレンダーで物事を整理してる。これが役立つためには、ある程度あなたの情報にフルアクセスしなきゃならない。今のエージェントの状態を考えると、少なくとも今はそれは無理だし、メリットもよく分からない。そんなに忙しいわけじゃないし、誰かに「日々を整理してもらう」必要なんてないよ。
だったら、自分のエージェントに名前をつけて、アカウントも別にして、あなたの名前なしで物事を進めさせればいいじゃん。
より役立つツールは、意味のある境界を設けて機密データの流出や破壊的な指示を防ぐためのLLMプロンプトプロキシ/ファイアウォールだと思う。会話やコーディングのワークフローに同じコンテキストループを使うと、目の前のタスクとそのタスクのセキュリティを区別するのが非常に難しくなる。POST?DELリクエストを送信するのはリスキーだし、資格情報やプライベート情報を持つコンテキストをクラウドLLMに送信するのもリスキー。RMコマンドや物を削除できるコマンドを実行するのもリスキーだし、それらのコマンドを含むスクリプトを実行するのもリスキー。どうして私たちが4つのコントロールオプションに落ち着いて、これで満足しているのか分からない。「すべてを聞いてくる」「読み取り専用を許可」「書き込みを許可」「すべてを許可」って、もっと細かくてコンテキストを意識したコントロールが必要だと思うんだけど、また別の箱にOpenClawを入れて何も変わらないって感じだね。