プロ志向画像生成 FLUX.2 最速ガイド! Google Colabノートブック付き
- AICU Japan

- 3 日前
- 読了時間: 11分

2025年11月25日、Black Forest Labsは、実用的なクリエイティブワークフローのために設計された次世代の画像生成AIモデル「FLUX.2」を発表しました。
元気いっぱいの AiCuty の黄色担当&画像生成担当、 メイ・ソレイユ だよ!🌟今日は画像生成界隈が激震するニュースを持ってきたから、みんなついてきてね!あのBlack Forest Labsから FLUX.2 がついに登場したんだけど、これがただのデモとかお遊びレベルじゃなくて、ガチの仕事で使えるレベルの「実用的なクリエイティブワークフロー」のために設計されてるっていうから、もうメイのテンション上がりまくりなんだけど、何がすごいってキャラクターの一貫性とかブランドガイドラインを守るとか、そういう「プロが欲しかった機能」が全部盛り込まれてるってことだから!まずは早口で解説していくよ〜!💨
1. FLUX.2は何が違うのか!🍌
まずこれ!FLUX.2は「フロンティア・ビジュアル・インテリジェンス」って呼ばれてて、なんと最大4メガピクセル(4MP)までの高解像度で画像の編集ができちゃうし、ディテールを保ったまま編集できるのがヤバい!

それに、複数の参照画像を使ってもキャラクターやスタイルの 一貫性(Consistency) を維持できるから、AiCutyのメンバー全員を描き分けるのも余裕になっちゃうかも!?

2. 驚きの新機能たち(New Features)✨
メイが特に感動した新機能をピックアップしたよ!
マルチリファレンス(Multi-Reference Support) 📸
これマジで革命!最大10枚までの画像を同時に参照して、キャラクターや製品の一貫性を保てるの!
それぞれの画像を読み込んでポージングした例!

文字が読める!(Text Rendering) 📝
インフォグラフィックとかミームとか、UIのモックアップに含まれる細かい文字も、本番環境で使えるレベルで生成できるようになったんだって!

賢い頭脳(World Knowledge) 🧠
「Mistral-3 24B」っていう視覚言語モデル(VLM)を組み込んでるから、現実世界の知識とか空間的なロジックを理解して、もっともらしいシーンを作れるの!

An extreme aerial panoramic view of a futuristic solar-punk city built into a giant canyon. Thousands of individual windows, flying vehicles, hanging gardens, and waterfalls are visible. In the center, a massive holographic billboard displays the text "WELCOME TO NEO-YOKOHAMA". Daytime, clear blue sky, hyper-realistic, 8k resolution, extreme detail, architectural visualization.

A wide-angle shot of a busy modern coffee shop interior seen through a large circular mirror hanging on a brick wall. The reflection shows a barista making coffee, customers sitting at tables with laptops, and a menu board with legible text "TODAY'S SPECIAL". The lighting is warm and cozy. The mirror frame is rustic wood. Photorealistic, highly detailed, ray-traced reflections, coherent spatial logic.
3. ラインナップも最強!🔥
用途に合わせて選べるモデルがいっぱいあるよ!
FLUX.2 [pro] :最高画質で高速!クローズドなモデルに匹敵する最強版!: State-of-the-art image quality that rivals the best closed models]
FLUX.2 [flex] :ステップ数とかを自分でいじれて、テキスト描写が得意なやつ!: Take control over model parameters such as the number of steps and the guidance scale]
FLUX.2 [dev] :32Bのオープンウェイトモデル!Hugging Faceで公開されてて、非商用ならローカルでも動かせる最強のオープンモデル!: 32B open-weight model, derived from the FLUX.2 base model.] weights are available on Hugging Face]
FLUX.2 [klein] :もうすぐ来るらしいんだけど、これはApache 2.0ライセンスのオープンソースモデルなんだって! (coming soon): Open-source, Apache 2.0 model]
ComfyUIで動かすには!
みんな〜!ここからはちょっとマニアックな「開発者向け」のコーナーだよ!今回公開された FLUX.2 [dev] は、なんと 320億(32B)パラメータ の超巨大モデル!そのまま動かすのは大変だけど、Hugging Faceの diffusers ライブラリを使えば、お家のつよつよPC(RTX 4090推奨!)でも動かせるコードが公開されてるよ!
GPU: RTX 4090 や RTX 5090 などのハイエンドGPU
Python環境: diffusers, torch, huggingface_hub など
Hugging Face Token: モデルへのアクセス権が必要だよ!
さらに量子化版のコードやNVIDIAのサポートも
FLUX.2 には、大規模な場合でもフォトリアリスティックなディテールとよりクリーンなフォントで、数十の類似した画像のバリエーションを生成できるマルチ参照機能など、新しいツールと機能が満載されています。
NVIDIA は Black Forest Labs および ComfyUI と連携して、モデルを FP8 量子化と RTX GPU パフォーマンス最適化とともにリリース時に利用できるようにし、実行に必要な VRAM を 40% 削減し、パフォーマンスを 40% 向上させました。
これは diffusers のドキュメントにある、メモリを節約して動かすためのコードだよ。これなら動くかも…!?
import torch
from diffusers import Flux2Pipeline, Flux2Transformer2DModel
from diffusers.utils import load_image
from huggingface_hub import get_token
import requests
import io
# モデルIDを指定(4bit量子化版で軽量化!)
repo_id = "diffusers/FLUX.2-dev-bnb-4bit"
device = "cuda:0"
torch_dtype = torch.bfloat16
# テキストエンコーダーをリモートで処理する関数(メモリ節約!)
def remote_text_encoder(prompts):
response = requests.post(
"https://remote-text-encoder-flux-2.huggingface.co/predict",
json={"prompt": prompts},
headers={
"Authorization": f"Bearer {get_token()}",
"Content-Type": "application/json"
}
)
prompt_embeds = torch.load(io.BytesIO(response.content))
return prompt_embeds.to(device)
# パイプラインの読み込み
pipe = Flux2Pipeline.from_pretrained(
repo_id, text_encoder=None, torch_dtype=torch_dtype
).to(device)
# プロンプトの設定(ヤドカリの缶ジュースハウス!)
prompt = "Realistic macro photograph of a hermit crab using a soda can as its shell, partially emerging from the can, captured with sharp detail and natural colors, on a sunlit beach with soft shadows and a shallow depth of field, with blurred ocean waves in the background. The can has the text `BFL Diffusers` on it and it has a color gradient that start with #FF5733 at the top and transitions to #33FF57 at the bottom."
# 画像生成実行!
image = pipe(
prompt_embeds=remote_text_encoder(prompt),
generator=torch.Generator(device=device).manual_seed(42),
num_inference_steps=50, # 28〜50ステップくらいがおすすめ!
guidance_scale=4,
).images[0]
# 保存
image.save("flux2_output.png")
⚠️ ライセンスに注意!
この FLUX.2 [dev] モデルは 「FLUX [dev] Non-Commercial License(非商用ライセンス)」 だから気をつけてね!個人の趣味や研究目的、あるいはアーティストが新しいワークフローを開発するために使うのはOKだけど、商用利用はNGだよ。 Non-Commercial License.] Non-Commercial License.]
商用でバリバリ使いたい人は、API版の FLUX.2 [pro] をチェックしてね!
感謝とまとめ
Black Forest Labsの人たちは、「ビジュアル・インテリジェンスは一部の人だけじゃなくて、世界中の研究者やクリエイターによって形作られるべき」って信じてるんだって。だからこうやって強力なモデルを公開してくれてるの、本当に尊いよね…!🙏FLUX.2、内部ではMistral3とかも組み込まれていて大きいけど、量子化もどんどん進んでいるからマジで画像生成の歴史が変わる音がするから、みんなもComfyUIで触ってみてね!
2025/11/26のAICU Lab+ ComfyJapan勉強会で特集したよ
ComfyJapan勉強会への参加はこちら アーカイブもあるよ
FLUX.2の静止画をWan2.2でFLF-Loop動画化きゃわいい!
Google Colabノートブックとワークフロー、プロンプトの配布は以下のペイウォールの向こうで提供します!


![[Qwen Image Edit] ComfyUIでつくるシルエットアート](https://static.wixstatic.com/media/3801de_069f7b5c4a59473f9c5556ea2f35813d~mv2.png/v1/fill/w_980,h_513,al_c,q_90,usm_0.66_1.00_0.01,enc_avif,quality_auto/3801de_069f7b5c4a59473f9c5556ea2f35813d~mv2.png)
