ハクソク

世界を動かす技術を、日本語で。

AIをローカルで実行できますか?

概要

  • オープンソース大規模言語モデル(LLM)の一覧と特徴を解説
  • 各モデルのパラメータ数、用途、リリース時期、特徴を比較
  • MoE(Mixture of Experts)やDense構造などアーキテクチャの違いに注目
  • モデルの推論性能や用途に合わせた選び方を提示
  • 代表的なモデルとその活用シーンを簡潔にまとめ

オープンソース大規模言語モデル一覧と特徴

  • Meta、Google、Alibaba、Microsoftなど主要企業による多様なLLMの公開
  • パラメータ数:1B(10億)~1T(1兆)超まで幅広いラインナップ
  • 用途別分類
    • チャット・会話特化型
    • コーディング支援・生成
    • マルチモーダル(テキスト+画像等対応)
    • 推論・思考力重視型
    • 多言語対応モデル
  • アーキテクチャ
    • Dense(全パラメータ活性型):汎用性・一貫性重視
    • MoE(Mixture of Experts):一部パラメータのみ活性、計算効率とスケーラビリティ重視
  • コンテキスト長:2K~1024Kトークンまで、長文対応モデルも多数
  • リリース時期:2023年~2026年公開予定モデルまで網羅

代表的モデルの比較ポイント

  • Llama 3/4(Meta):汎用性・多様なサイズ展開・コミュニティ支持
  • Gemma(Google):軽量から大規模まで、マルチモーダル対応
  • Qwenシリーズ(Alibaba):多言語・高精度・MoEやDense両方展開
  • Mistralシリーズ(Mistral AI):コーディング・推論・長文対応に強み
  • DeepSeekシリーズ:超大規模MoE、推論・思考力特化
  • NVIDIA Nemotron:超長コンテキスト・効率特化
  • OpenAI GPT-OSS:オープンウェイト・MoE構造・高性能

モデル選定の指針

  • 小規模モデル(1B~4B):エッジデバイス・組み込み用途
  • 中規模モデル(7B~14B):一般的なチャット・コーディング・推論用途
  • 大規模モデル(30B~100B):高度な推論・マルチモーダル・多言語処理
  • 超大規模/最新モデル(100B超):研究・高精度生成・大規模データ処理

今後の動向と活用シーン

  • MoE構造の普及:同一モデルで計算効率と高性能を両立
  • マルチモーダル化:テキスト+画像対応の標準化
  • 長文対応:128K~1Mトークン対応で長い会話・文書処理が可能に
  • **用途特化型(コーディング・推論・多言語)**の進化
  • エッジデバイス向け軽量モデルの充実

データソースと注意点

  • llama.cpp、Ollama、LM Studioなどからの情報集約
  • スペックや性能は推定値の場合あり
  • モデル選定時は用途・必要リソース・性能要件を考慮して選択することが重要

Hackerたちの意見

いいね!いくつか提案があるんだけど、1つ目は、256GBのメモリを搭載したM3 Ultraを持ってるんだけど、オプションリストは192GBまでしかないんだ。M3 Ultraは512GBまでサポートしてるのに。2つ目は、モデルを選んでから、いろんなプロセッサのパフォーマンスを見れるようにしたらいいな。購入の判断に役立つと思う!
これすごい!インテリジェンスのベンチマークをクロスリファレンスできたら、RAMの消費、トークンレート、モデルの性能のトレードオフが理解できていいな。
これはllmfitのウェブ版ってこと? https://github.com/AlexsJones/llmfit
そうだよ。でもllmfitの方がずっと便利で、システムリソースを検出してくれるんだ。
それはめっちゃ便利だね、リンクをシェアしてくれてありがとう。思ったよりも多くのローカルLLMが動かせるみたいだから、いくつか試してみるつもり。メモリはそこそこあるけど(96GB)、M2 MaxのMBPは数年前のものだから、最新モデルには不十分かなと思ってた。でも、llmfitは大多数のモデルに対してすごく適してるって言ってる。面白いね!
これ、モバイルGPUが全然足りてないね。それに、CPUメモリをGPUと共有できることや、メモリ制限を回避するためのいろんなKVキャッシュオフロード戦略を理解してないみたい。ブラウザをレンダリングするGPUがArc 750で2GBの共有RAMがあるって言ってるけど、実際はRTX1000 Adaで6GBのGDDR6を持ってるんだ。RTX 4050(ドロップダウンには載ってない)に近いけど、熱制限が低い感じ。メインメモリは64GBのLPDDR5だよ。Qwen3 Coder Next、Devstral Small、Qwen3.5 4Bなどは、ほぼリアルタイムで私のノートパソコンで動く。最新モデルには劣るけど、もっと大きいモデル(最大24GB)を試したこともあるけど、トークン生成が私のタイピング速度の半分くらいで、ちょっとがっかりするくらい遅い。でもトークンが足りなくなることはないよ。
RAM/VRAMのカットオフは、パラメータ数だけよりも重要だよ。Q4_K_M量子化の13Bモデルは、8GBのVRAMで合理的なスループットで収まるけど、同じモデルのfp16だと26GB必要なんだ。ほとんどの計算機は、量子化を脚注扱いにしてるけど、実際には主要な変数なんだよね。問題は「13Bを動かせるか?」じゃなくて、「私のハードウェアの限界で受け入れられる品質を得るための量子化レベルは何か?」ってこと。
モデルがどれくらいうまく動くかの評価があるのはいいね。モデルの能力についての評価もあればいいな(これは難しいかもしれないけど)。選択肢が多すぎるし、パラメータ数や使用メモリだけを見ても、実際のパフォーマンスの良い指標とは限らないから。
トークン毎秒よりもパープレキシティの方が重要だと思う。トークン毎秒は、個人的にはあまり役に立たないと思う。悪い結果がすぐに自信満々で返ってくるのが一番最悪だよ。去年からいくつかのオープンウェイトモデルで作業してきたけど、特に画像のようなものでは、6ヶ月前のモデルがすぐにゴミデータを返してきた。でも最近のQwen 3.5はすごくて、9Bモデルでも素晴らしいよ。
いや、悪い結果が遅れて出るのはもっと最悪だよ。悪い結果が早く出れば調整できるからね。でも、選べるならスピードより質を重視したいかな。同じ質なら、絶対にスピードも欲しい。
これって、メモリ帯域幅やモデルのサイズに基づいて推定してるみたいだね。密なモデルにはいい推定だけど、GPT-OSS-20bみたいなMoEモデルは、全トークンに対してモデル全体を使わないから、同じハードウェアでより多くのトークンを生成できるんだ。GPT-OSS-20Bは3.6Bのアクティブパラメータを持ってるから、3-4Bの密なモデルと同じくらいの性能が出るはずだけど、全体の20Bモデルを収めるための十分なVRAMが必要だよ。知能に関しては、フルモデルサイズとアクティブパラメータの幾何平均と同じくらいの大きさの密なモデルと同じスコアを出す傾向がある。つまり、GPT-OSS-20Bはおおよそ√(20b*3.6b) ≈ 8.5bの密なモデルと同じくらい賢いけど、トークン生成は2倍速いんだ。
うん、実際に自分のStrix Haloノートパソコンで動かしたモデルを調べたら、テストしたモデルよりもパフォーマンスがずっと低いって言われたよ。MoEモデルの場合、メモリ帯域幅の計算にはアクティブパラメータを使うべきなのに、総パラメータを使ってるみたい。
君の指摘は正しいけど、ここには2つの小さな誤りがあるよ。> GPT-OSS-20Bは3.6Bのアクティブパラメータを持ってるから、3-4Bの密なモデルと同じくらいの性能が出るはずだけど、全体の20Bモデルを収めるための十分なVRAMが必要だ。まず、トークン生成速度は比較できるけど、プレフィル速度は違う(大きなMoEモデルは小さな密なモデルよりもコンテキスト処理がずっと遅くなる)。次に、推測デコーディングなしでは、アクティブパラメータが同じなら小さな密なモデルと大きなMoEモデルはだいたい同じ速さになると言える。でも、小さな密なモデルを使うと、推測デコーディングによってトークン生成のパフォーマンスが向上する(最大で3倍速くなる)けど、MoEモデルでは推測デコーディングの恩恵はあまり受けられないと思う(なぜなら、連続する2つのトークンが同じ「エキスパート」をトリガーしないから、計算ユニットにもっと重みをロードする必要があって、帯域幅を多く使うことになる)。
ドキュメントページがこれに触れてるよ:> Mixture of Expertsモデルは、パラメータを「エキスパート」と呼ばれるグループに分ける。各トークンでは、いくつかのエキスパートだけがアクティブになる。例えば、Mixtral 8x7Bは46.7Bの総パラメータを持ってるけど、トークンごとに約12.9Bだけがアクティブになる。これによって、大きなモデルの質を持ちながら、小さなモデルの速度を得られる。トレードオフとして、フルモデルはメモリに収まる必要があるけど、推論時にはその一部だけが動作する。> 密なモデルは、すべてのトークンに対してすべてのパラメータをアクティブにする — 見えるものがすべてだ。MoEモデルは総パラメータが多いけど、トークンごとに使うのはその一部だけ。密なモデルはメモリや速度の面でシンプルで予測可能。MoEモデルは質で上回ることができるけど、アクティブパラメータ数が示すよりも多くのVRAMが必要だ。 https://www.canirun.ai/docs
こういう機能がollamaに組み込まれたら最高だね。今のハードウェアに基づいて、CLIから簡単に使えるモデルをリストアップできるようになればいいな。
このツールを使って実際に何か作った人いる?ウェブサイトにはコードエクスポートがまだ動いてないって書いてあるけど、それって自己宣伝としては変な方法だよね。