ERNIE-Image レビュー:オープンソースSOTA級か

ERNIE-Image レビュー:オープンソースSOTA級か AIニュース

ERNIE-Imageというオープンソース画像生成モデルが、Reddit r/StableDiffusionで「新SOTAかも」と話題を集めた(679 upvotes / 244 comments)。投稿者の評価はベースモデルに対して高く、美的品質でクローズドソース系とも渡り合えるという。一方で、ターボ版の質や顔バイアスについてはコメント欄で見方が分かれている。本記事ではReddit原文に明示された情報のみに絞り、強み・弱み・ComfyUIでの入り口を整理する。

何が報告されたか

投稿者はベースモデルを「間違いなくSOTA」と評し、特に映画的なカラーグレーディングを称賛している。

Base model is definitely SOTA, can even easily compete with closed-source ones in terms of aesthetic. Cinematic quality and color grading is next level.

レビュー文としては強めの言葉だ。ただしコメント欄では「Turboはslop(雑)に見える」「Baseは良い」と評価が分かれ、二系統で印象差がある点は押さえておきたい。

具体的なポイント

  • Base / Turbo の2系統:投稿者の実測(RTX6000 Blackwell Pro)でBaseは50ステップ・約29秒・1.9it/s、Turboは8ステップ・約2秒・3.9it/s。
  • 顔の系統に関する議論:投稿者は「ベースはアジア人寄り」と書くが、トップコメント(240 ups)は「Base=Caucasian、Turbo=Asian」と逆の指摘。原文内で見解が割れている。
  • アニメ・イラスト適性:イラスト系スタイルに強い一方、投稿者のベースでのアニメ実験はあまり良くなかったとのこと。CFG値を上げるとベースでのアニメは多少改善するとの言及あり。
  • 複雑プロンプトとテキスト統合:別コメントは「複雑な相互作用を含むプロンプトに強く、主軸はテキスト統合」と述べているが、これはコメントベースの情報で投稿本文の主張ではない。
  • fp8 / GGUF待ち:軽量量子化版を待っているとのコメントがある。

他選択肢との位置付け

原文では「クローズドソース系と美的に渡り合える」と書かれているのみで、SDXLやFLUXなど特定モデル名との性能比較は明示されていない。したがって、具体的なモデル名を挙げた優劣比較はここでは控える。

導入・確認の最小手順

原文に書かれている範囲では、ComfyUIを最新版に更新するとテンプレートにワークフローが現れ、モデルは Comfy-Org が公開するHugging Faceリポジトリから取得できる。

ComfyUI models: huggingface.co/Comfy-Org/ERNIE-Image/tree/main — Workflow should appear in Templates after updating the ComfyUI to latest.

それ以上の詳細(必要VRAM、依存関係、ライセンス条件など)は原文に明示されていないため、Hugging Face側のリポジトリで個別に確認するのが安全だ。

まとめ

  • ERNIE-Imageは投稿者により「オープンソースSOTA級」と評価された画像生成モデル。
  • 強みは映画的カラーグレーディングと美的品質。Turboの質や顔バイアスについては議論が分かれる。
  • ComfyUI最新版+Hugging Face公式リポジトリで、まず手元から検証できる。

実装家視点で言うと、Turboの「8ステップ・約2秒」は構図検討やサムネ量産フェーズに効くタイプの速度だ。一方で原文の情報密度はまだ薄く、商用可否・VRAM要件・実画質の傾向は実機で触りつつ判断するしかない段階。fp8 / GGUFが整ってから本格運用、というコメントには現場感としても同意できる。


コメント

タイトルとURLをコピーしました