top of page

真打登場!? 蒸留なしの「フルパワー」基盤モデル "Z-Image"をMacbookでビルド!


2026年1月27日、Alibaba傘下のTongyi Labは新世代画像生成AIの基盤モデル「Z-Image」を発表しました。このモデルは、先行する高速モデル「Z-Image-Turbo」とは異なり、画質、生成の多様性、そしてプロンプトへの忠実性を極限まで高めたフルキャパシティの基盤モデル(Foundation Model)です。かなり巨大なモデルである一方で、ユニファイドメモリ(Unified Memory)を搭載したMacBook Pro M4や、CPUのみの環境でも動作することが確認できました。そのビルド手順と実力についてレポートします。



前回のZ-Image-Turbo記事(2025-11-27)



元気いっぱいの AiCuty の黄色担当&画像生成担当、メイ・ソレイユ だよ!🌟 最近の画像生成界、マジで激戦すぎない!?昨日まで Nano Banana Pro で盛り上がってたと思ったら 、今度は AlibabaTongyi Lab から、とんでもない新モデルが降臨しちゃったんだよ!🚀 その名も「Z-Image」!これ、ただの速いモデルじゃないんだって!さっそくメイがいろんな環境でビルドして試してきたのを早口で解説していくから、みんなしっかりついてきてね!


Z-Image:表現の限界を突破する3つのポイント

Tongyi Labが発表したこの「Z-Image」は、単なるスピード重視のモデルじゃなくて、プロのクリエイターが「これだよこれ!」って言いたくなるような機能が詰まってるんだよ!



① 蒸留なしの「フルパワー」基盤モデル

多くの高速モデルは「蒸留(Distillation)」っていう処理で軽くしてるんだけど、Z-Imageはあえてそれをしないことで、学習データが持つ全ての信号を保持してるんだって。


  • フルCFG(Classifier-Free Guidance)対応:複雑なプロンプトエンジニアリングにもしっかり応えてくれる、プロのワークフローに最適な設計だよ!

  • 開発者フレンドリー:GitHubやHuggingFaceでオープンに公開されてるから、エンジニアのみんなもすぐに試せるのが最高じゃん!


② 「多様性」がマジで次元違い!

メイが一番「おっ!」って思ったのがここ!シード値(Seed)を変えた時の変化がすっごい大きいの。


  • 構図・顔・ライティングの変化:同じプロンプトでも、全く違う雰囲気の画像を生成できるから、探索(Exploration)がめっちゃ捗るっしょ!

  • 多人数シーンもバッチリ:複数の人物がいるシーンでも、それぞれの顔や個性がしっかり描き分けられるんだって。これ、アイドルグループの集合写真を作るメイたちには超重要!


③ 鉄壁の「ネガティブプロンプト」制御

「これ描かないで!」っていう指示、AIが無視することってあるじゃん?ネガティブプロンプトに対する反応がすごく正確だから、ノイズや変なアーティファクト(余計な描写)を確実に抑え込んで、思い通りの構図に調整できるんだよ。


🛠️ どうやって試すの?

Z-Imageはすでに以下のプラットフォームで公開されてるよ!



ComfyUI調査メモ(2026-01-28 時点)

公式情報を追ってみた結果、以下の状況が判明しました。


  • Day-0 サポート: 2026-01-27付のComfyUI公式ブログで「Z-Image Day-0 support」がアナウンス済み。

  • 推奨設定: 非蒸留版Z-Imageは 30〜50 steps / CFG 3〜5 が推奨されています。

  • 過去の更新: すでに v0.3.75(2025-11-26)でモデルの基礎調整が、changelog v0.4.0(2025-12-10)でFP16互換性改善やPAI-Fun ControlNet対応が進んでいます。


結論として、「公式対応は爆速で進んでいるけれど、ユーザー側の環境構築手順はまだこれから安定していく時期」という印象です!


調査リンク:



もう少し情報が集まったら別記事でまとめるね!


AICU Lab+での対応について:今のところ公式な専用ノードはこれからだけど、この盛り上がりなら数日中に誰かが作っちゃうはず!メイも楽しみすぎて夜しか眠れないよ! ComfyUIでのサポートが来たら、AICU Lab+勉強会 で爆速シェアするから待っててね!🌟


(1/29追記)対応開始しました!



ライセンスについて

README / 同梱LICENSE / モデルカードの範囲で整理してみたよ。最終判断は配布元の最新の規約を確認してね。



公式アナウンス



Macでやってみた!Z-Image最速インストール記(実走ログ)

Z-Imageがリリースされて数時間。もう待てないので、

READMEに沿って“実際にこのMacで”動かすところまでやってみたよ。


この記事は「読む → そのまま叩く」で進められる実走ログです。


このMacの環境(ざっくり)

  • macOS 15.6.1 / arm64

  • Python 3.14.2

  • 推論デバイス: mps(Apple GPU)

  • MacBook Pro M4 / 128GB(この環境)


はじめに注意!

MacでのGPU環境「mps」で生成はできましたが生成中にクラッシュしたり大変だったので、必ずバックアップなどをとってから作業してくださいね!なおWindowsやCPUでの推論も実験していますが、35GBぐらいRAMがあればできそうです(快適とも"必ずできる"とも言ってない!)。


今回の生成結果(実機)

実際に出た画像はこちら👇



え、いいじゃない!!公式プロンプトだけだよ!





READMEからお気持ちを考える

原作 Tongyi-MAI/Z-Image を読んで感じたことを整理します。


  • README は「PyTorch ネイティブ + diffusers」での推論中心で、pip install -e .→python inference.py までが最小ワークフロー。Diffusers版のサンプルもあるけど、UIやデプロイの話はなく、開発者が手元でパラメータを書き換えて走らせるスタイルです。

  • モデルロードは utils.ensure_model_weights 経由で Hugging Face から snapshot_download する仕組みになっており 30GB 近い checkpoint を丸ごと置くことを前提としています。

  • とはいえ README は“走らせる人向け”の薄いガイドで、UIや制限ポリシー・デプロイは一切書かれていない。


Z-Image(基盤モデル)の推奨パラメータはこれ👇

  • 解像度: 512×512〜2048×2048

  • ガイダンススケール: 3.0〜5.0

  • 推論ステップ: 28〜50

  • ネガティブプロンプト: 強く推奨


Z-Image-Turbo との違い(お気持ち解説付き)

  • 公式サイトと GitHub をベースに見ると、「Z-Image は 6B パラメータのシングルストリーム DiT」 で、Turbo は 8 ステップ(NFEs)だけでサブ秒推論、英中バイリンガルテキスト、16GB VRAM で実行可能という設計。Z-Image-Turbo は「少ステップで実用的な品質」に振っていて、モデルサイドでは Decoupled-DMD/DMDR で蒸留済み、Diffusers でZImagePipeline が用意されているのが基礎です。これを読みながら感じたのは、「多パラメータ/多ライブラリの土台はあるけど、UI・通知・運用は誰かが手を入れて拡張する余地が大きい」 ということ。

  • Z-Image-Turbo は Apache-2.0 で開放されていて、翻訳精度や制御性(英中文、poster デザイン、text rendering、instructionadherence)に強み。3 つのバリアント(Turbo/Base/Edit)を用意して、Turbo は速さ、Base はファインチューニング、Edit は画像編集に特化。

  • Diffusers 版の導入例(公式サイト)を見ると、pipeline(Tasks.text_to_image_synthesis, model="Tongyi-MAI/Z-Image-Turbo") で CUDA/MPS を自動判定、8 ステップ/0 CFG で動く簡潔さが魅力。ただしこのコードは「手元で torch を整えて、モデルをダウンロードして pipeline を使う」前提。

  • Apache-2.0 の開放(z-image-turbo.ai の Attribution ページ)が改めて強調されているので、クラウド展開や商用サービスなどもライセンス的には問題ありません。


なおDocker も公式タグがなかったことから、「公式コードは超高速でも、セルフホストで鋭く使うには環境整備が必要」という実感を持ちました!


AiCuty 5人を実際に生成してみた!(公式プロンプト参照)

AiCutyの公式READMEにあるメンバー設定と特徴を拾って、

5人集合写真のプロンプトを組んで回してみたよ。


実行したコマンド(そのままコピペOK)

※ Z-Imageは縦横が16の倍数じゃないと怒られるので、

1920×1080 と 1910×1000 は一旦16倍数で生成→中央トリミングにしてるよ!


  • 実行コマンド: `.venv/bin/python 2026-01-28-zimage-batch_inference.py`

  • コード全文: 文末の有料パートに移動


使用プロンプト(引用)


5 people, idol group lineup, full body, centered group composition, anime style, masterpiece, best quality,

clean white studio background, soft directional light from upper left, distinct color themes.

Center: Elena Bloom, sweet gentle idol girl, pastel pink twin tails tied high with big pastel pink ribbons and rose flower hair clips,

soft curled ends, shy warm smile, pastel pink and white idol outfit with subtle gold accents.

Right: Mei Soleil, vibrant golden yellow hair, high side ponytail tied with simple yellow ribbon, star-shaped yellow hairpin, freckles,

bright cheerful smile, sun-yellow tech-fabric idol outfit.

Left: Mina Azure, very long straight icy sky blue hair, round silver glasses, calm intelligent expression,

icy sky blue uniform with short capelet and beret.

Right back: Nao Verde, androgynous boy, dark green pixie cut with tapered nape, emerald eyes, confident smirk,

deep green bomber jacket over black top and black cargo pants.

Left back: Saki Noir, dark violet sleek straight bob cut with side bangs covering left eye, amethyst eyes,

mysterious vibe, black and violet elegant idol outfit.


Z-image-turboでの実行



実行結果メモ

  • 試行: 1024×1024, 1920×1080, 1910×1000(※いずれも16の倍数ではないため、1920×1088 / 1920×1008 で生成 → 中央トリミング)

  • 生成時間: 1024×1024 → 約 58.1 秒(mps) / 1920×1088 → 約 210.9 秒(mps) / 1920×1008 → 約 219.2 秒(mps)

  • ピークRSS(psutil計測): 1024×1024 → 約 0.61 GB / 1920×1088 → 約 0.63 GB / 1920×1008 → 約 0.33 GB

  • 出力ファイル: `assets/aicuty5_zimage_turbo_mps_gen1024x1024_out1024x1024_steps8_cfg0_seed1234.png` / `assets/aicuty5_zimage_turbo_mps_gen1920x1088_out1920x1080_steps8_cfg0_seed1234.png` / `assets/aicuty5_zimage_turbo_mps_gen1920x1008_out1910x1000_steps8_cfg0_seed1234.png`

  • README推奨解像度(Z-Image): 512×512〜2048×2048


※ RSSはプロセスの常駐メモリで、MPSのユニファイドメモリ上の実使用量と一致しない場合があります(参考値)。


ちなみに、1920×1080を直指定するとこんなエラーが出たよ:

`Height must be divisible by 16 (got 1080)`


3サイズの所感(短め)

  • 1024×1024: まとまりは良いけど、全身が詰まり気味で余白が少ない

  • 1920×1080: 並びの見やすさが一番良く、集合写真感が強い

  • 1910×1000: 1080より縦がタイトで引き締まる印象

  • 共通: Sakiの左目が隠れがちなので、必要なら `eyepatch, covered eye` をネガティブに追加


まとめ

はぁ〜〜〜っ!今日も一気に喋っちゃった!💨

「思考するAI」の Nano Banana Pro や、「4MPの衝撃」 FLUX.2 と並んで、今回の Z-Image は画像生成界の新しいスタンダードになりそうな予感!1月ももう終わりだけど、2月もAIニュースの荒波はすごそうじゃん?メイも乗り遅れないように、黄色いスニーカーの紐をギュッと結び直して突っ走るよ!👟💛


じゃ またね!それじゃ、また次のAIニュースで会おうね!いつも元気な AiCuty 画像生成担当、メイ・ソレイユ でした〜!バイバイ!👋💛



ペイウォールの向こうにめちゃ長い戦いの資料をおいとくね!

                    記事の続きは…

                    aicu.jp を定期購読してお読みください。

                     
                     
                     
                    bottom of page