Reddit r/LocalLLaMAで「3.6世代の27B Denseと35B-A3B MoEの差が急速に縮まっている」という投稿が話題になった。投稿者の主張をかいつまむと、Denseは総合的にはまだ優位だが、10ベンチマーク中7つでMoEが追い上げており、特にコーディングで顕著とのこと。一方でTerminal-Bench 2.0だけは逆にDenseが大きくリードを広げる例外も報告されている。24GB VRAM環境での実用視点でも見過ごせない動きなので、原文ベースで整理する。
何が報告されたか
投稿の核は、同世代(3.6)における27B Denseモデルと35B-A3B MoEモデルのベンチマーク差分の変化だ。
Dense still holds the crown: It still wins out on most tasks overall. The gap is closing: In 7 out of 10 benchmarks, the MoE model is quietly creeping up and closing the distance.
つまり「Denseが王者」という構図自体は崩れていないが、優位幅が小さくなっているベンチが多い、というのが投稿者の見立てだ。具体的なベンチマーク10種の内訳は元記事中では一覧化されておらず、ここで全項目を列挙することはできない。
具体的なポイント
- コーディングでMoEが大幅前進:SWE-bench MultilingualでのDenseのリードが
+9.0から+4.1まで縮小したと投稿者は報告している。 - 例外はTerminal-Bench 2.0:こちらだけは逆にDenseが
+1.1から+7.8までリードを広げた、と投稿者は指摘している。 - VRAM視点:投稿者は「24GB VRAMで広いコンテキストを使いたいなら、MoEのトレードオフはこれまで以上に良くなっている」と結んでいる。
- 256kコンテキストの実測は未確認:投稿者自身が読者に「256kコンテキストを試した人はいるか?」と問いかけており、この点は元記事ベースでは結論が出ていない。
他選択肢との位置付け
コメント欄では「27Bと35Bだけでなく、3.6世代の122Bや80Bコーダーモデルとも比較すべき」「3.6 35B q5は3.6 27B q5と品質差を体感できないのに3倍速い」といった声が上がっている。ただしこれらはコメントベースの個人検証であり、投稿本体のベンチマーク数値ではない点には留意が必要だ。さらに量子化に関しては次のような指摘もある。
Important to consider how MoE vs Dense behave to quantization, which is not the same; MoE models are more sensitive to quantization
このコメントが指摘するように、量子化(quantization)への耐性はDenseとMoEで挙動が異なり、MoEの方が量子化に敏感だという見方が出ている。ベンチ数値だけ見て選ぶと、自宅環境のq5/q4運用で印象が変わる可能性がある。
まとめ
- 3.6世代でMoE(35B-A3B)はDense(27B)に対し、特にコーディング系で差を詰めている。
- ただしTerminal-Bench 2.0のように逆行する項目もあり、用途次第で結論は変わる。
- 24GB VRAMで広コンテキスト運用したいなら、MoE側の魅力が増しているのは確かだが、量子化感度の違いを踏まえ、自分のq設定で実測するのが安全。
Kazuma視点:実装家の感覚で言うと、ベンチの差分そのものよりも「MoEが量子化に弱い」という現場ノウハウの方がローカル運用では効いてくる。24GB VRAMで実戦投入するなら、ベンチ表よりも自分のユースケース(長文コードレビューか短文生成か)でq5/q4の両方を回して体感差を取るのが結局いちばん早い。元記事の数値は出発点として有用だが、Terminal-Benchの逆転が示す通り、タスク特性で評価が簡単に反転するので鵜呑みは禁物だ。


コメント