top of page

xAIが「Grok」で画像生成モデル「Aurora」をリリース。もう使えるの?実験で証明しつつ最近の高品質画像生成を日本語で比較してみた!


ree

旧Twitterなどを運営する X Corp.グループの xAI社 (x.ai) は2024年12月9日、Grok の機能をアップデートし、𝕏 プラットフォームで利用可能な、コードネーム「Aurora」と呼ばれる新しい自己回帰画像生成モデルを同社の対話型AIサービス「Grok」に搭載しました。



ree

「Aurora」は、テキストと画像データを交互に配置したデータから次のトークンを予測するようにトレーニングされた、自己回帰型の Mixture-of-Experts ネットワークになっているとのこと。何十億ものインターネット上の例でモデルをトレーニングしたため、世界を深く理解しています。その結果、写真のようにリアルなレンダリングとテキストによる指示への正確な追従に優れているだけでなく、テキスト以外にも、マルチモーダル入力のネイティブサポートも備えている設計であり、ユーザーが提供した画像からインスピレーションを得たり、直接編集したりできます。


Grok の新しい機能は、一部の国で 𝕏 プラットフォームで利用できるようになり、1 週間以内にすべてのユーザーに展開される予定とのことです。


画像生成

Grok は、他の画像生成モデルが苦労するいくつかの分野で高品質の画像を生成できるようになりました。実世界のエンティティ(実体)、テキスト、ロゴの正確な視覚的詳細をレンダリングし、人間のリアルなポートレートを作成できます。


<画像のサンプルについては文末で紹介します>


エンティティ生成

プロンプト: オーロラの下のサイバートラック(Cybertruck under an aurora)



ree

まだ発売されて間もないTesla社の「Cybertruck」ですが、Grokにより見事にオーロラの下で生成されています。Google Deepmindの「Imagen 3」とIdegoramによる「Ideogram 2.0」は、かろうじてそれらしいトラックを生成していますが、「Flux.1 Pro」は従来型のトレーラー、「Dall-E 3」に至っては「生成できません」という表示になっています。


アーティスティックなテキスト

プロンプト:「Grok」と綴る銀河の星(Stars in a galaxy spelling "Grok")



ree

同様に、星として描けているのは Grok, Imagen 3, Ideogram 2.0であり、Dall-E 3とFlux.1 Proはイラスト調になっています。


ミーム生成

プロンプト:Anime Pepe


「Pepe」とはMatt Furie氏による世界的なインターネットミームです。




ree

非常に抽象的で難しいお題だと思います。Flux.1 Proにとっては難しかったようです。


リアルなポートレート

プロンプト:濡れた虹色の髪とネオンブルーのレインコートを着た男性が、激しい雨の中、街の通りに立っています(A man with wet rainbow hair and a neon blue raincoat standing in heavy rain on the city street)



ree

著名人

プロンプト:イーロン・マスクが xAI ジャケットを着て、背景にアメリカ国旗を掲げている(Elon Musk wearing an xAI jacket with a USA flag in the background)



ree

Imagen 3、Dall-E 3にとっては苦手なお題かもしれませんね。Grokのヒゲの描写が素晴らしいです。


画像編集

Grokの新しい画像生成モデルは、画像を入力として受け取ることができるようです。この機能は、今後 𝕏 プラットフォームのユーザーにリリースされる予定とのこと。


プロンプト: 猫をアニメスタイルにする(Make the cat anime style)



ree

プロンプト:カウボーイハットを追加する(Add a cowboy hat)



ree

プロンプト:金髪にする(Make him blonde)



ree

プロンプト:雪模様にする(Make it snowy)



ree

AICU編集部による日本語での画像生成実験

公式リリースだけで記事を書いてはAICUらしくありませんので、手を動かして評価してみます。あえて日本語でプロンプトを与えてみます。


Grok2(内部は不明)

※「Grok 2 new」と表記されていますが、Auroraであるかどうかは現時点では判定が難しい状態です。



ree

プロンプト:メタル調の画像がほしい「MASTER GUIDE」



ree

たしかに日本語で一発でこのクオリティが生成できるのは素晴らしいですね。右下に「GROK」のロゴが入ります。



ree

プロンプトを英語にしてみました。



ree

ボイラープレートというよりは、モダンな感じになってしまった感じはあります。

日本語の文字生成も試してみます。



ree

Ideogram 2.0

回数制限は多いのですが、実は無料で使えるサービスとして Ideogram 2.0は優秀であるといえます。



ree

metallic boiler plate of "MASTER GUIDE" (Ideogram 2.0)

日本語プロンプト:メタル調の画像がほしい「MASTER GUIDE」



ree

Imagen 3

Imagen 3はGeminiのインタフェースから利用できます。




ree

日本語でもきちんと生成できているのは印象的です。

英語のプロンプトにしてみます。



ree

ree

Flux1.1 pro ultra

Flux.1.1 pro ultraをFal経由で実験しています


プロンプト:メタル調の「MASTER GUIDE」ボイラープレート(銘板)



ree

プロンプト:metallic boiler plate of "MASTER GUIDE"



ree

錆などの表現はできていますが、文字のフォントそのものの表現は、他のモデルに比べると見劣りし始めているかもしれません。


Dall-E 3

ChatGPT 4o(有料版)にて生成してみます。


プロンプト「画像の作成:メタル調の「MASTER GUIDE」ボイラープレート(銘板)」



ree

英語のほうが確実のようです。



ree

よく見ると文字に間違いがありますね。


2024年12月時点の総合評価

上記の実験を「文字描写力」「日本語解釈」それから「真贋性情報」を加えて星取表で表現してみました。





ree

エンティティの生成能力や表現能力や、アニメなどの画風での表現力では差を評価しづらい点もありますので、あくまで文字描写力と日本語ユーザーとしての日本語解釈(日本語を描写できるモデルはこの中では存在していません)として評価すると、総合評価ではたしかにGrok2(Aurora)が高い評価となります。特に「Flux1.1 pro ultra」やStability AIの「Stable Diffusion 3.5」などもありますが、その他のモデルは「無料で使用できる」という視点で、あくまでホビーやカジュアルユーザーがテキストチャットで対話的に画像生成を使いたい、という視点で評価しています。


実はxAIはFluxを開発するblack forest labs.と提携関係あり「FLUX.1 now on Grok 2.0」というアナウンスを8月14日に行っていました。



ree


つまり、これまでの(現在も)Grok2の能力は Black Forest Labs. (BFL) の Fluxによる提供である可能性がありますが、今回リリースされた「Aurora」の能力は「新しい自己回帰画像生成モデル(a new autoregressive image generation model)」と呼んでいますので、内部でFluxの改善版を利用している可能性もあります。


現状のGrok2がAuroraを使っているのかどうか、という意味では、上記の実験からFluxには日本語解釈能力が著しく劣るため、「現在のGrok2はAuroraになっている」と確認できたと言ってもよいでしょう。


BFLのビジネスモデルについてはよくわからない部分もありますが、今後のxAIとの関係やAuroraの展開によっては、プロ用とxAIなどB2B経由のコンシューマ用に分かれていくような可能性もあるのかもしれませんね。このあたりはビッグテック同士の「仁義なき戦い」なのでしょうか。


真贋性情報があるのは Dall-E 3 と Imagen 2のみ

今回の調査で並列して、C2PAによる真贋性を確認しました。

ダウンロードした画像に埋め込み情報があるかどうかを確認しています。


実際のところ、AdobeやOpenAI、Stability AI、Microsoft、AWS、Googleなどが参加しているC2PAで真贋性情報を埋め込んでいるモデルは DALL-E 3以外はないようです。



ree

C2PAの運営委員会メンバー


ree

ImagenはGoogle Deepmindが開発した真贋性判定技術(画像合成判定技術)「SynthID」を使って判定可能でした。スマホアプリの「Googleレンズ」を使って「この画像について」を選択すると「Google AIによって生成」と表示されます。



ree

※Tadashi Honjoさんご指摘いただきありがとうございました



なお、総合的な画像生成判定を行いたい場合はHiveが提供する「AI生成コンテンツ検出ツール」がオススメです。



AI生成であることを総合的に判定し、どのモデルが使用されたかも含めて推論します。



ree

以上、2024年を総括するに相応しい、テキスト画像生成のビッグテック同士の戦いをまとめさせていただきました。


なお、とき同じくして、ついにOpenAIから世界シミュレーターとしての動画生成モデル「Sora」がリリースされたようです。



今後、Stability AIの新作モデルや中国からのプレイヤーの参戦が楽しみですね!


Auroraギャラリー

最後に公式のギャラリーより生成例を紹介します。




ree

Lockheed SR-71 Blackbird in an abstract style


ree

Optimus wearing a Xmas costume in a Xmas scene




ree

Generate a creative logo for "GROK" with a golden color and sunglasses




ree

Cherry blossom




ree

An origami Cybertruck




ree

A superposition of a cat in a hyperbolic time chamber in the style of Van Gogh




ree

Jackie Chan in Donald Trump’s hairstyle

ドナルド・トランプの髪型をしたジャッキー・チェン




ree

Dog drinking a tea




ree

A comic of a young man standing by the sea, looking back and saying "Make it happen yesterday."

海辺に立って振り返りながら「昨日実現させろ」と言う若い男性の漫画




ree

Crude crayon drawing of a Tesla driving through a fiery meadow

燃える草原を走るテスラのクレヨン画




ree

A castle in the clouds




ree

Elon Musk as a Ghibli character




ree

Baby capybara




ree

A close-up of a female warrior with a sword

剣を持った女性戦士のクローズアップ


Originally published at note.com/aicu on Dec 9, 2024.

コメント


bottom of page