Dense vs MoE 3.6-27B、コーディングで急接近

Dense vs MoE 3.6-27B、コーディングで急接近 AIニュース
{"prompt":"minimalist tech blog cover image, abstract digital art, futuristic AI aesthetic, deep blue purple gradient, no text, professional editorial style, 16:9","originalPrompt":"minimalist tech blog cover image, abstract digital art, futuristic AI aesthetic, deep blue purple gradient, no text, professional editorial style, 16:9","width":512,"height":480,"seed":42,"model":"sana","enhance":true,"nologo":true,"negative_prompt":"undefined","nofeed":false,"safe":false,"quality":"medium","image":[],"transparent":false,"has_nsfw_concept":false,"concept":[],"trackingData":{"actualModel":"sana","usage":{"completionImageTokens":1,"totalTokenCount":1}}}

Reddit r/LocalLLaMAで「3.6世代の27B Denseと35B-A3B MoEの差が急速に縮まっている」という投稿が話題になった。投稿者の主張をかいつまむと、Denseは総合的にはまだ優位だが、10ベンチマーク中7つでMoEが追い上げており、特にコーディングで顕著とのこと。一方でTerminal-Bench 2.0だけは逆にDenseが大きくリードを広げる例外も報告されている。24GB VRAM環境での実用視点でも見過ごせない動きなので、原文ベースで整理する。

何が報告されたか

投稿の核は、同世代(3.6)における27B Denseモデルと35B-A3B MoEモデルのベンチマーク差分の変化だ。

Dense still holds the crown: It still wins out on most tasks overall. The gap is closing: In 7 out of 10 benchmarks, the MoE model is quietly creeping up and closing the distance.

つまり「Denseが王者」という構図自体は崩れていないが、優位幅が小さくなっているベンチが多い、というのが投稿者の見立てだ。具体的なベンチマーク10種の内訳は元記事中では一覧化されておらず、ここで全項目を列挙することはできない。

具体的なポイント

  • コーディングでMoEが大幅前進:SWE-bench MultilingualでのDenseのリードが +9.0 から +4.1 まで縮小したと投稿者は報告している。
  • 例外はTerminal-Bench 2.0:こちらだけは逆にDenseが +1.1 から +7.8 までリードを広げた、と投稿者は指摘している。
  • VRAM視点:投稿者は「24GB VRAMで広いコンテキストを使いたいなら、MoEのトレードオフはこれまで以上に良くなっている」と結んでいる。
  • 256kコンテキストの実測は未確認:投稿者自身が読者に「256kコンテキストを試した人はいるか?」と問いかけており、この点は元記事ベースでは結論が出ていない。

他選択肢との位置付け

コメント欄では「27Bと35Bだけでなく、3.6世代の122Bや80Bコーダーモデルとも比較すべき」「3.6 35B q5は3.6 27B q5と品質差を体感できないのに3倍速い」といった声が上がっている。ただしこれらはコメントベースの個人検証であり、投稿本体のベンチマーク数値ではない点には留意が必要だ。さらに量子化に関しては次のような指摘もある。

Important to consider how MoE vs Dense behave to quantization, which is not the same; MoE models are more sensitive to quantization

このコメントが指摘するように、量子化(quantization)への耐性はDenseとMoEで挙動が異なり、MoEの方が量子化に敏感だという見方が出ている。ベンチ数値だけ見て選ぶと、自宅環境のq5/q4運用で印象が変わる可能性がある。

まとめ

  • 3.6世代でMoE(35B-A3B)はDense(27B)に対し、特にコーディング系で差を詰めている。
  • ただしTerminal-Bench 2.0のように逆行する項目もあり、用途次第で結論は変わる。
  • 24GB VRAMで広コンテキスト運用したいなら、MoE側の魅力が増しているのは確かだが、量子化感度の違いを踏まえ、自分のq設定で実測するのが安全。

Kazuma視点:実装家の感覚で言うと、ベンチの差分そのものよりも「MoEが量子化に弱い」という現場ノウハウの方がローカル運用では効いてくる。24GB VRAMで実戦投入するなら、ベンチ表よりも自分のユースケース(長文コードレビューか短文生成か)でq5/q4の両方を回して体感差を取るのが結局いちばん早い。元記事の数値は出発点として有用だが、Terminal-Benchの逆転が示す通り、タスク特性で評価が簡単に反転するので鵜呑みは禁物だ。


コメント

タイトルとURLをコピーしました