ERNIE-Image レビュー：オープンソースSOTA級か

ERNIE-Imageというオープンソース画像生成モデルが、Reddit r/StableDiffusionで「新SOTAかも」と話題を集めた（679 upvotes / 244 comments）。投稿者の評価はベースモデルに対して高く、美的品質でクローズドソース系とも渡り合えるという。一方で、ターボ版の質や顔バイアスについてはコメント欄で見方が分かれている。本記事ではReddit原文に明示された情報のみに絞り、強み・弱み・ComfyUIでの入り口を整理する。

何が報告されたか
具体的なポイント
他選択肢との位置付け
導入・確認の最小手順
まとめ

何が報告されたか

投稿者はベースモデルを「間違いなくSOTA」と評し、特に映画的なカラーグレーディングを称賛している。

Base model is definitely SOTA, can even easily compete with closed-source ones in terms of aesthetic. Cinematic quality and color grading is next level.

レビュー文としては強めの言葉だ。ただしコメント欄では「Turboはslop（雑）に見える」「Baseは良い」と評価が分かれ、二系統で印象差がある点は押さえておきたい。

具体的なポイント

Base / Turbo の2系統：投稿者の実測（RTX6000 Blackwell Pro）でBaseは50ステップ・約29秒・1.9it/s、Turboは8ステップ・約2秒・3.9it/s。
顔の系統に関する議論：投稿者は「ベースはアジア人寄り」と書くが、トップコメント（240 ups）は「Base=Caucasian、Turbo=Asian」と逆の指摘。原文内で見解が割れている。
アニメ・イラスト適性：イラスト系スタイルに強い一方、投稿者のベースでのアニメ実験はあまり良くなかったとのこと。CFG値を上げるとベースでのアニメは多少改善するとの言及あり。
複雑プロンプトとテキスト統合：別コメントは「複雑な相互作用を含むプロンプトに強く、主軸はテキスト統合」と述べているが、これはコメントベースの情報で投稿本文の主張ではない。
fp8 / GGUF待ち：軽量量子化版を待っているとのコメントがある。