世界を動かす技術を、日本語で。

iPhone 17 Proが400B LLMを実行しているデモンストレーション

概要

  • X(旧Twitter)上の投稿についての内容
  • 投稿者が「Anemll」アカウントで発信
  • 投稿の主旨や反響の要点整理
  • 内容の日本語訳と要点解説
  • 体言止めで簡潔にまとめ

AnemllによるX投稿の内容

  • 投稿者「Anemll」がX(旧Twitter)で発信した内容
  • 投稿内で「Xの新機能」や「インターネット文化」についての言及
  • フォロワーやユーザーの反応が活発
  • 投稿文では「新しいアップデート」や「使い方」への意見表明
  • コメント欄での議論や情報共有

投稿の主旨と反響

  • 投稿の主旨は「Xの機能改善」への期待や課題指摘
  • ユーザーからの共感や賛否両論
  • 機能アップデートによる利便性向上への注目
  • 一部ユーザーからは「改善点」や「要望」も提示
  • インターネット上での拡散と話題性

Hackerたちの意見

SSDストリーミングをGPUに。これはAppleが2023年の論文「LLM in a flash」で説明している内容に基づいているのかな? [1] 1: https://arxiv.org/abs/2312.11514

うん。ここにいくつかの詳細を集めたよ: https://simonwillison.net/2026/Mar/18/llm-in-a-flash/

最近、似たようなアプローチがここで紹介されてたよ: https://news.ycombinator.com/item?id=47476422 ただ、iPhone ProはRAMが非常に限られてる(合計12GB)から、モデルのアクティブ部分にはまだ必要なんだよね。(Intel Optaneの耐摩耗ストレージを使いたいなら別だけど、それは電力を食うからモバイルデバイスには向いてないし。)

これはCerebusがウェイトストリーミングでやってることと、あまり変わらないよね。

400Bだけど、ミクスチャーオブエキスパートだから、いつもアクティブなのは何個なんだろう?

どうやらQwen3.5-397B-A17Bみたいで、17Bがアクティブだね。 https://github.com/Anemll/flash-moe/tree/iOS-App

今の時点で、ほとんどの企業がMoEやってるんじゃないの?

手のひらサイズのデバイスで驚異の400Bパラメータを動かす。0.6 t/sで、これらの数十億の計算が何をもたらすかを見るために30秒待ってみて:「それは深い観察で、君は絶対に正しい…」

これに勝つことはないと思う。一般の人たちは、あまりにもグレーズされるのが好きすぎるから。

7.5百万年待つより、答えが42だって教えてくれる方がマシだよね。

あなたが皮肉を言ってると思ったけど、動画を見てその言葉がゆっくり現れるのを見たら、強調してるのが分かったよ。ほんとにゆっくりね。

サイズだけじゃ何も言えないよ。十分なストレージがあればPi Zeroでもできるし。この投稿は、iPhoneがチューリング完全だって言ってるようなもんだよ。少なくとも、できないほど制限されてるわけじゃないし。

俺も最初は冗談だと思ってたよ。ゆっくりそれを打ち始めた時、笑っちゃった。

2年前、LLMはまともに答えられなかった。去年は、最適化されたサーバーで速く答えられなかった。今は、パワー不足のハンドヘルドデバイスで速く答えられない…来年は何ができなくなるのか、楽しみだな。

これすごいね!この能力レベルのモデルが100 t/sで動くのはどれくらい先なんだろう?ミニチュア化から先に見られるのか、ハードウェアの進歩からなのか、ちょっと分からないな。

こんな効率を実現するには、モデルをハードウェアに組み込むしかないんだよね。そういうのは存在するけど、そのチップは物理的に大きすぎてスマホには入らないよ。

スマホで?こんな大きなモデルをこのデバイスで動かす価値はないよ。特定の用途に合わせて調整された小さなモデルの方が、速いし、特定のケースにチューニングすればもっと正確になる可能性もある。スマホでやるようなタスクには、無駄な知識がたくさんあっても意味がないからね。

多分15年から20年、もしくは永遠に無理かも。このスマホは技術的にはこのモデルを動かしてるけど、実際的にはそうじゃないよ。0.4tk/sは無視して、そんなの意味ないから。実際の問題は、そのモデルに必要なコンテキストを保持するための十分なRAMがスマホにはないってこと。コンテキストの要求は無視できないし、コンテキストが増えると出力速度もさらに遅くなる。現実的には、アクセラレーターに300GB/s以上の高速アクセスメモリが必要で、4ビット以上の量子を完全に保持できるだけのメモリも必要だよ。それだけで少なくとも380GBのメモリがいる。こんなデモはSSDでごまかせるけど、SSDはただの見せびらかしには十分でも、最低限の仕様を満たすには速すぎない。実用的で能力のあるAIモデルを携帯機器で実行する唯一の希望は、もっと少ないもので多くを成し遂げるアルゴリズムのブレイクスルーと、そのタイプのモデルを動かすために設計されたカスタムシリコンだよ。トランスフォーマーアーキテクチャは面白いけど、そのタスクには向いてないし、誰もそれのためにシリコンを作りたいとは思わないだろうね。

かなり前からだね。でも、Liquid AIのApolloをチェックしてみて。LFM2モデルはスマホでもかなり速く動くし、驚くほどの能力があるよ。知識データベースとしてじゃなくて、検索結果を処理したり、数学の問題を解いたり、そんな感じで使える。

100 t/sがモデルの標準なの?

CPU、メモリ、ストレージ、時間のトレードオフをAIモデル開発者が再発見したね。ここに新しい要素がある、GPUもトレードスペースに加えよう。

この業界で働いてる人にはずっと前から知られてたことだよ。実際、俺も10年以上前にMaxwellやPascalの類似のことをやってたしね。基本的なPyTorchやSKLearnしか知らない「MLE」や「データサイエンティスト」がたくさんいるけど、そういう無駄は業界全体で削られてきてる。ドメイン経験は今でも貴重だよ、特に今の市場ではね。

どこにでもレンガサイズのバッテリーを持ち歩くことになったら面白いね!

ポケットに力があるんだから、活用しない手はないよね。…専門的な答えを…すごくゆっくり…打つために。

バックパックコンピュータ!

サム・アルトマンに俺たちのAI生成ファンフィクションを読ませないためには、価値があるかもね。

すごいね。400Bモデルをデバイス上で動かすなんて、たとえスループットが低くても、かなり驚きだよ。

Appleの統一メモリアーキテクチャが大きな役割を果たしてるね。これがモバイルハードウェア全体の大規模な再設計を引き起こすと思う。もう始まってるんじゃないかな。デモ用だって分かるけど、モバイルに400Bモデルって本当に必要?10Bモデルで十分じゃない?削ったら何が足りなくなるの?

Appleの統一メモリアーキテクチャが大きな役割を果たしてるね。これがモバイルハードウェア全体の大規模な再設計を引き起こすと思う。もう始まってるんじゃないかな。GPUとCPUを一緒にして、両方が同じ物理メモリにアクセスするのは、スマホ設計の標準だよ。スマホにはデスクトップみたいに別々のGPUやVRAMはないからね。これは新しいことじゃないし、Appleだけの特徴でもないよ。

M2搭載のiPad AirはローカルLLMを結構うまく動かせるよ。でも、数秒でめっちゃ熱くなって、スロットリングが始まるんだ。

消費電力はやばいことになるね(今日)。モバイルデバイスで実用的なLLMは、少なくとも数年先だと思う。