Skip to main content
QUICK REVIEW

[論文レビュー] Continual-NExT: A Unified Comprehension And Generation Continual Learning Framework

Jingyang Qiao, Zhizhong Zhang|arXiv (Cornell University)|Feb 20, 2026
Domain Adaptation and Few-Shot Learning被引用数 0
ひとこと要約

本論文はContinual-NExTを提案し、Dual-to-DualマルチモーダルLLMの統一継続学習フレームワークと知識転送と忘却防止のためのMAGEを導入する。評価指標を提供し、6つのマルチモーダルタスクにおいて最先端の継続学習性能を実証する。

ABSTRACT

Dual-to-Dual MLLMs refer to Multimodal Large Language Models, which can enable unified multimodal comprehension and generation through text and image modalities. Although exhibiting strong instantaneous learning and generalization capabilities, Dual-to-Dual MLLMs still remain deficient in lifelong evolution, significantly affecting continual adaptation to dynamic real-world scenarios. One of the challenges is that learning new tasks inevitably destroys the learned knowledge. Beyond traditional catastrophic forgetting, Dual-to-Dual MLLMs face other challenges, including hallucination, instruction unfollowing, and failures in cross-modal knowledge transfer. However, no standardized continual learning framework for Dual-to-Dual MLLMs has been established yet, leaving these challenges unexplored. Thus, in this paper, we establish Continual-NExT, a continual learning framework for Dual-to-Dual MLLMs with deliberately-architected evaluation metrics. To improve the continual learning capability of Dual-to-Dual MLLMs, we propose an efficient MAGE (Mixture and Aggregation of General LoRA and Expert LoRA) method to further facilitate knowledge transfer across modalities and mitigate forgetting. Extensive experiments demonstrate that MAGE outperforms other continual learning methods and achieves state-of-the-art performance.

研究の動機と目的

  • Dual-to-Dual MLLMsがマルチモーダルの理解と生成を共同で扱う統一継続学習フレームワーク(Continual-NExT)を定義する。
  • マルチタスク設定における忘却・転移・新規タスク学習を捉えるタスクファミリと評価指標を確立する。
  • 忘却を緩和するためのモダリティ特化LoRAエキスパートとパラメータ毎EMA機構を備えたMAGEを提案する。
  • 6タスクの多様なセットでベースラインより継続学習性能を向上させる。

提案手法

  • 多様なマルモーダルタスクと忘却診断指標を備えた統一継続学習フレームワーク(Continual-NExT)を提案する。
  • モダリティ理解と生成を分離するGeneral LoRAとExpert LoRAの混成・集約であるMAGEを導入する。
  • タスク固有LoRAを更新し他は固定するFisher行列に基づくパラメータ毎EMA(PEMA)を組み込む。
  • GeneralとExpert LoRAの出力を等重み線形結合して、モダリティ固有知識を保護しつつ跨模態知識転送を可能にする。
  • 6タスク(VQA、画像分類、画像生成、OCRトークン認識、視覚的グラウンディング、画像編集)を、データ分布の異なる状況で評価する。
  • 非モデル拡張設定の下で、複数の継続学習ベースライン(LoRA、MoELoRA、EWC、PGP、CIA、RegLoRA)と比較する。

実験結果

リサーチクエスチョン

  • RQ1Dual-to-Dual MLLMsにおけるマルチモーダル理解と生成で継続学習はどのように異なる形で現れるのか?
  • RQ2統一フレームワークは複数のマルチモーダルタスクにわたる継続適応を効果的に評価・改善できるのか?
  • RQ3モダリティ特化LoRA戦略(General vs Expert)は忘却を減らしつつ新規タスク学習を保持・改善できるのか?
  • RQ4パラメータ毎EMA更新が継続マルチモーダル学習における忘却防止と知識転移に与える影響は?
  • RQ5継続タスク列における知識転移と跨モーダル相互作用はDual-to-Dual MLLMsでどのように生まれるのか?

主な発見

MethodVenueVQAv2ImageNetFlickr30kOCRVQARefCOCOHQEditAvg.ACCForgettingNew.ACC
Zero-Shot-26.6428.3819.7613.7825.5458.7628.81--
LoRA (Hu et al., 2022)ICLR’2259.6865.1931.1841.2266.6091.2742.2320.3659.19
MoELoRA (Chen et al., 2024)NIPS’2462.1082.1631.4621.5270.0091.5443.9019.0859.80
EWC (Kirkpatrick et al., 2017)PNAS’1759.6873.2931.1137.5068.4091.3047.0015.8560.21
PGP (Qiao et al., 2024)ICLR’2459.6878.2031.4019.9673.2091.4347.7013.5458.97
CIA (Qiao et al., 2025)ICML’2559.6868.9531.0841.0670.2891.3647.9914.8960.40
RegLoRA (Chen et al., 2025)ICML’2559.6873.3131.2936.9266.8291.6047.3915.0559.94
Ours(MAGE)-62.1068.3531.2637.0968.7491.1949.5812.2659.79
Upper-Bound-62.7247.8831.2442.8447.6887.4953.31--
  • Continual-NExTは、マルチモーダル継続学習における忘却、幻覚、指示不遵守、その他のエラーを含む新規指標を備えた統一的テストベッドを提供する。
  • 四種のLoRAタイプとタスク固有更新を備えるMAGEは、6タスクを通じて強力な忘却対策と新規タスク性能を競争力ある水準で達成する。
  • MAGEはベースライン(LoRA、MoELoRA)よりAvg.IUFとAvg.HALを大幅に低減し、Avg.OTHを維持・競合的または優越な水準を示し、指示追従失敗と幻覚の抑制効果を示す。
  • タスク間・モダリティ間の知識転移が観察され、特にテキスト-to-textやテキスト-to-image転送の共通意味を持つタスクで顕著。
  • パラメータ毎EMA(PEMA)ベースの更新は、従来のEMAやヘッセ行列ベース手法と比較して安定性-可塑性のバランスを改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。