Meta、Tuna-2を一部欠損のまま公開へ

Metaが新しいピクセル空間モデル「Tuna-2」を公開予定であることが、Redditのr/StableDiffusionで話題になっている。注目すべきは、Metaが意図的にモデルの一部レイヤーを欠損させた状態でリリースし、ファインチューニングによる復元をコミュニティに委ねるという、前例の少ない配布方針を取る点だ。

発表内容
なぜ重要か
現時点での未確定事項
まとめ

発表内容

公開予定のリポジトリは facebookresearch/tuna-2。プロジェクトサイトは tuna-ai.org/tuna-2/ で、ピクセル空間で動作するモデルとして紹介されている。Metaは「組織のポリシー上、本番学習済みの完全な重みは公開できない」と明記しており、代わりにファウンデーションチェックポイントを限定的な構成で配布する方針を示している。

“Due to organizational policy constraints, we are unable to release the full production-trained model weights. To support the research community, we plan to release a foundation checkpoint with a small number of layers removed from both the LLM backbone and the diffusion head (flow head). The remaining layers and all other components (vision encoder, projections, embeddings, etc.) are fully preserved. With a short fine-tuning pass on your own data, the removed layers can be quickly re-learned and the model restored to full quality.”

要点を整理すると次のとおり。

LLMバックボーンと拡散ヘッド（flow head）の一部レイヤーが抜かれた状態で配布される。
ビジョンエンコーダ、プロジェクション、埋め込みなどそれ以外のコンポーネントはフル保持。
利用者は自前のデータで短いファインチューニングを行い、抜かれたレイヤーを再学習させて品質を取り戻す前提。

動画生成モデルについては扱いが分かれており、重みは公開されないものの学習・推論コード一式は提供される。リポジトリには configs/train/video_t2v.yaml と configs/predict/t2v_2b.yaml が用意されているとされる。

なぜ重要か

Tuna-2が話題化している理由は、ピクセル空間モデルを大手が公開すること自体に加え、「壊したまま出してコミュニティに直させる」というリリース戦略の珍しさにある。Redditスレッドでは310のupvoteと120件超のコメントが集まり、自前データでレイヤーを埋め直せる設計に対する関心と戸惑いが交錯している。

また、Meta側はリポジトリ内で次のような補足も行っているとコメントで報告されている。

“Meanwhile, we are also actively working on fine-tuning the removed layers using external data, and plan to release the complete weights as soon as possible.”

Meta自身も外部データで欠損レイヤーの再学習を進めており、最終的には完全な重みを公開する計画があるとも読める。現状の配布形態は、ポリシー上許容できる範囲に収めるための過渡的な処置という位置づけに見える。