QUICK REVIEW

[論文レビュー] Decentralized Autoregressive Generation

Stepan Maschan, Haoxuan Qu|arXiv (Cornell University)|Jan 6, 2026

Speech and dialogue systems被引用数 0

ひとこと要約

The paper develops a Discrete Decentralized Flow Matching (DDFM) framework and shows autoregressive generation is a special case, proving equivalence between decentralized and centralized training for multimodal language models, with experiments on LLaVA and InternVL.

ABSTRACT

We present a theoretical analysis of decentralization of autoregressive generation. We define the Decentralized Discrete Flow Matching objective, by expressing probability generating velocity as a linear combination of expert flows. We also conduct experiments demonstrating the equivalence between decentralized and centralized training settings for multimodal language models across diverse set of benchmarks. Specifically, we compare two distinct paradigms: LLaVA and InternVL 2.5-1B, which uses a fixed CLIP vision encoder and performs full-parameter fine-tuning (ViT+MLP+LLM) during the instruction tuning stage.

研究の動機と目的

Discrete Time における離散フロー整合法（Discrete Flow Matching）を拡張する。
確率生成速度を専門家フローの線形結合として定義する Decentralized Discrete Flow Matching を定義する。
自己回帰生成が離散フロー整合法の特別なケースであることを証明する。
マルチモーダル言語モデルにおける分散化と集中トレーニングの等価性をベンチマークで示す。
専門家ベースの分散化における実践的なトレーニング／推論戦略を検討する。

提案手法

離散時間の Discrete Flow Matching とその確率経路の定式化を導入する。
確率生成速度をエキスパート・フローの凹結合（凸結合）としてルーティングスケジューラと共に定義する。
自己回帰サンプリングが連続方程式を満たし、フレームワークの縮退的実装であることを示す。
Discrete Decentralized Flow Matching の目的を導出する。
データを K 個のエキスパートクラスタに分割し、割り当てられたデータ上でエキスパートを独立して訓練する。
推論はクラスタ別のルーティングを用い、dense ベースラインと整合するよう top-k フィルタリングを行う。

実験結果

リサーチクエスチョン

RQ1マルチモーダル自己回帰モデルの分散トレーニングは理論的に集中トレーニングと等価になり得るのか？
RQ2離散時間における Discrete Flow Matching の枠組みに自己回帰生成をどのように組み込めるのか？
RQ3分散型（エキスパートベース）アプローチはマルチモーダルベンチマークで集中モデルと同等の性能を示すのか？
RQ4データ分割とルーティングの選択が性能と効率に及ぼす影響は？

主な発見

Method	VQAv2	GQA	VizWiz	SciQA-IMG	TextVQA
Dense baseline	78.50	62.00	50.00	66.80	58.20
2 experts	79.99	61.97	45.53	67.03	56.67

自己回帰生成は、各タイムステップにおける単一の結果で定義される確率経路を持つ、離散フロー整合法の特別な縮退ケースである。
分散型離散フロー整合法は全体の速度をエキスパートフローの加重和として表現でき、特定の条件下で分散トレーニングが集中トレーニングの性能と一致する。
LLaVA と InternVL の実験は、複数のベンチマークで計算資源を揃えた dense ベースラインにほぼ並ぶことを示した。
LLaVA では、エキスパート集合はコアの QA 能力を維持するが、OCR 集約的または分布シフトを伴うタスクでは劣化する可能性がある。
InternVL では、エキスパート集合は一般的な QA を概ね維持するが、OCR およびアーギュメントの基づく地固めタスクで混合結果となり、視覚的なグラウンディングでいくつかの利得が見られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。