ハクソク

世界を動かす技術を、日本語で。

FLUX.2 [クライン]: インタラクティブな視覚知能に向けて

概要

  • FLUX.2 [klein] は、超高速な画像生成・編集AIモデルの新ファミリー
  • 高品質・低遅延を両立し、一般的なGPU環境でも動作可能
  • テキストから画像生成・画像編集・複数参照画像合成を統合
  • ライセンス・モデルバリエーションも豊富で開発者フレンドリー
  • リアルタイム・インタラクティブなビジュアルAI活用を目指す設計

FLUX.2 [klein]:インタラクティブ・ビジュアルインテリジェンスへの進化

  • **FLUX.2 [klein]**は、これまでで最速の画像生成・編集AIモデルファミリー
  • 生成と編集を1つのコンパクトなアーキテクチャに統合
  • エンドツーエンド推論が1秒未満(0.5秒以下)で完了
  • 高品質なフォトリアリスティック出力と多様性を両立
  • **一般的なGPU(13GB VRAM以上)**で稼働し、RTX 3090や4070でも利用可能

[klein]モデルの特徴と新機能

  • サブセカンド推論:最新ハードウェアで0.5秒未満の画像生成・編集
  • 高品質・高多様性出力:特にベースバリアントで顕著
  • 統合モデル:テキスト→画像、画像編集、マルチリファレンス生成を1モデルで対応
  • 消費者向けGPU対応:4Bモデルは13GB VRAMで動作
  • 開発者向けライセンス:4BはApache 2.0、9BはFLUX NCLで提供
  • API・オープンウェイト:本番APIまたはローカル実行可能

モデルバリエーション

  • FLUX.2 [klein] 9B
    ・フラッグシップ小型モデル
    ・テキスト→画像・単一画像編集・複数参照生成で高品質・低遅延
    ・9Bフローモデル+8B Qwen3テキストエンベッダー構成
    ・複数画像合成やコンセプトブレンドもサブセカンドで実現
    ・ライセンス:FLUX NCL

  • FLUX.2 [klein] 4B
    ・Apache 2.0で完全オープン
    ・RTX 3090/4070等で動作
    ・T2I(テキスト→画像)、I2I(画像→画像)、マルチリファレンスに対応
    ・ローカル開発やエッジ展開向け

  • FLUX.2 [klein] Base 9B / 4B
    ・未蒸留のフルキャパシティ基礎モデル
    ・微調整・LoRA学習・研究・カスタムパイプライン向け
    ・蒸留モデルより高い出力多様性
    ・4B Base:Apache 2.0、9B Base:FLUX NCL

量子化バージョン

  • FP8/NVFP4量子化版もリリース、NVIDIAと共同開発 ・FP8:最大1.6倍高速化、VRAM最大40%削減 ・NVFP4:最大2.7倍高速化、VRAM最大55%削減 ・同じライセンス体系(4B:Apache 2.0、9B:FLUX NCL)

性能分析・用途

  • **FLUX.2 [klein]**は、QwenやZ-Imageよりも低遅延・少VRAMで同等以上の品質
  • **テキスト→画像、画像→画像(単一/複数参照)**を統合的にサポート
  • Baseバリアントはカスタマイズ性・研究用途に最適
  • リアルタイムデザインツール、エージェント型視覚推論、インタラクティブコンテンツ制作など新しいアプリケーションカテゴリを創出

リソース・利用方法

  • デモ・プレイグラウンド:オンラインで即体験可能
  • Hugging Face Space:klein 9B/4B用
  • ドキュメント・GitHub・モデルウェイト:公式サイト(https://bfl.ai/models/flux-2-klein)で公開
  • API・ローカル実行:本番環境やカスタム開発に対応

まとめ

  • **FLUX.2 [klein]**は、コンパクトで超高速・高品質な画像生成・編集AIモデル
  • 消費者向けGPUでも動作し、リアルタイム・インタラクティブなビジュアルAI活用を実現
  • 多様なモデル・ライセンス・量子化バージョンで、開発者・研究者・クリエイターに最適

Hackerたちの意見

すごいけど、驚きはしないな。モデルがどんどん小さくなってるのに、品質と効果が上がってるのは面白い。z image turboはすごそうで、試してみるのが楽しみだよ。これに関する古いスレッドにはコメントがたくさんあるよね。
小さいモデルにも微妙な転換点があると思う。100GBのモデルの課題の一つは、4GBのモデルにはない、ダウンロードや実行の面での難しさがあることだね。4GBなら、ほとんどの開発者が試してみて、どんな感じか分かると思う。
質は上がってるけど、これらの小型モデルは大きい兄弟たち(Qwen Image/フルサイズのFlux 2)に比べて知識がほとんどないんだ。キャラクターやアーティスト、特定のアイテムとかね。
特定の出力に対するパラメータの理論的な最小値ってあるのかな? GPT 3.5のニュースを見た後、コストの一部でDeepseekのトレーニングモデルが出て、さらに3.5を上回るモデルを動かすノートパソコンも見た。これっていつまで続くんだろう?
Flux2 Kleinは特別な進化ってわけじゃないよ。いいモデルだけど、正直言って、これは広告だね。本当に興味深いのはZ-imageのリリースだと思う。もしその方向に進むなら、自然言語SDXL 2.0になるだろうし、みんなが本当に求めてるものみたいだ。Turbo/Distilled/Finetuneを数ヶ月前にリリースしたのは本当に賢い判断だったね。それがFluxやQwenのリリースに影響を与えたのは、未来の可能性だけでも痛手だった。もしこれが意図的だったなら、こんなに巧妙なマーケティングを見たのはいつ以来だろう。
ちょっと混乱してるんだけど、あなたと別のコメント者がZ-Imageっていうものについて言及してるよね。たぶん別のFluxモデルだよね?あなたの言い方は推測的で、つまりこれから出るってことみたいだけど、彼らは現在形で話してる。もう少し文脈を教えてもらえる?:) 例えば、今のままでは、特にturboが数ヶ月前にリリースされていて、他のモデルがまだ出てない場合、「どうなるか」の観察がどう可能なのかが不明だよ。あなたに聞くことにしたのは、他のコメントがラボ戦略にあまり焦点を当ててなかったから。
Z-Image Turboのチームは、論文の中で何度もTurboモデルの出力品質が大きなベースモデルより優れていると言ってるんだ。多くのユーザーにはその情報がまだ伝わっていないと思う。「特に、結果として得られた蒸留モデルは、元のマルチステップ教師と同等であるだけでなく、フォトリアリズムや視覚的インパクトにおいてそれを上回る。」 「100ステップの教師と見分けがつかない8ステップの推論を実現し、しばしばその品質や美的魅力において上回る。」 https://arxiv.org/abs/2511.22699
> FLUX.2 [klein] 4B クラインファミリーの中で最も速いバリアント。インタラクティブなアプリケーション、リアルタイムプレビュー、遅延が重要なプロダクションユースケースのために作られている。どんなユースケースが「遅延が重要なプロダクションユースケース」になるのか気になるな。
たぶん、速い画像編集ができるから、そのサポートがあるんじゃないかな。
ローカルモデル。Stable Diffusionの頃みたいに、1枚の画像に10分も待ってられないよ。それに特に画像編集もね。
GenAIモデルを圧縮実装として考えると、一般的にテキストは非常にうまく圧縮される。画像や動画はそうじゃない。でも、最先端のテキストから画像、テキストから動画のモデルは、Llama-3のような大きな言語モデルよりもパラメータ数がずっと少ないことが多い。視覚モデルが小さいのは、実際には視覚世界の多くを圧縮していないからかもしれない。トレーニングデータは、一般的なシーン、オブジェクト、スタイルの狭い人間バイアスのある多様体をカバーしている。視覚現実の組み合わせ空間はほとんど探求されていない。人間バイアスのある多様体の外に何があるのか、楽しみにしてるよ。
> 一般的に、テキストは非常にうまく圧縮されるけど、画像や動画はそうじゃない。これって本当にそうなの? テキスト(抽象的でノイズのない)のロスレス圧縮比と、元々ランダムなサンプリングノイズを持つ画像や動画を比べるのは公平じゃない気がする。人間には区別がつかない圧縮を見れば、ロスレスのテキストよりもロスのある画像や動画の圧縮比がずっと良いと思うよ。
画像や動画はテキストよりも圧縮がずっと得意だよ。テキストは4:1から6:1の圧縮ができればラッキーって感じだけど、静止画像のための最高の知覚コーデックは通常、視覚的にロスレスで10:1、20:1以上でもまだ素晴らしい見た目を保ってる。動画圧縮は時間的なコヒーレンスのおかげでさらに良いよ。1: 現在のハッターコンペティションのリーダーは9:1に近いみたいで、これには気づかなかった。歴史的に見てもかなりすごいね。
LLMにはまだいくつかの大きな効率化のトリックが欠けている気がする。でも、LLMがメタレベルで持っているべき暗黙の知識やスキルの量を過小評価するのも良くないね。
実際にオープンソースの小さいバージョンをリリースしてくれたのはありがたいね。ソフトウェアを動かすのに大きな予算が必要ないと、もっと多くの機会が生まれるから。速度の改善もかなり重要そうだね。
2026年は小型/オープンモデルの年になるだろうね。
ポゴスティックの画像は作れないんだ。ポゴスティックの上でジャンプしている虎の画像を作らせようとしたけど、それは能力を超えてるし、ポゴスティックだけの画像も作れないみたい。
どちらも良いベンチマークプロンプトだね。Z-Image Turboもこれが好きじゃないみたい:ポゴスティックの上の虎:https://i.imgur.com/lnGfbjy.jpeg これが何かは分からないけど、ポゴスティックじゃない:https://i.imgur.com/OmMiLzQ.jpeg ナノバナナプロ最高:https://i.imgur.com/6B7VBR9.jpeg
地元のモデルには厳しいテストだね。(gpt-imageとNBは全く問題なし) それに近いのはQwen-Image、Z-Image、Flux 2、Hidream、Omnigen2、Qwenだったかな。サンプルはこちら: https://imgur.com/a/tB6YUSu 小さいモデルはどうしても制約が多くて、「ポゴスティック」の物理的な説明を引き出すには追加のプロンプトが必要になると思う。アレクサンダー大王がヒッピティホップに乗って突撃するのを生成しようとしたときも、似たような問題があったよ。
その通りだね、リファレンス画像を使ってもできなかった。いいプロンプトがあればできるかも。理論的には、知識はモデルに組み込む必要はなくて、リファレンス画像を使って追加できるはずなんだ。モデルがそれについて推論できる能力があればだけど。
空のワイングラスの画像を与えたら、ワインでいっぱいにできないんだ。ポゴスティックを描く人やワイングラスを満たす人たちは、しばらくは仕事が安泰だね!
まだKleinをGenAI Showdownサイトに追加してないけど、Z-Image Turboみたいなら、かなり良いパフォーマンスを発揮するはず。参考までに、Z-Image TurboはGenAI Showdownで15点中4点を獲得したんだ。あまり多くないように聞こえるかもしれないけど、最大のモデルの一つであるFlux.2(32b)が、ZiT(6bモデル)をたった1点差で上回ったことを考えると、かなり印象的だよ。ローカルモデルの比較だけ:https://genai-showdown.specr.net/?models=fd,hd,kd,qi,f2d,zt
モバイルの情報バブルを直してもらえない? 一つ押すと、すぐに消えちゃうんだよね…
正直言って、テストに問題があるように思うよ。もっと大きなモデルは、君が言ってるよりずっと能力があるんだ。CGIのレンダリング出力、例えばノーマルマップやIDマスクの理解やトレーニングも得意だしね。君のテストスイートは、構造化データが誤った自信を生む典型的な例だよ。純粋なt2iは、もう良いベンチマークじゃないね。
いいね、Flux 1は本当に楽しんだよ。今はZ-Image Turboを使って遊んでる。Flux2 Kleinが追加されるのを待つつもり。
+1 - invokeのzitは使っててめっちゃ良い!
インタラクティブな機能に関して、GPTのバージョンと比べてどうなの?