[論文レビュー] Decision MetaMamba: Enhancing Selective SSM in Offline RL with Heterogeneous Sequence Mixing
Decision MetaMamba は Mamba のトークンミキサーを密結合層シーケンスミキサーへ置換し、位置付け構造を調整することでオフライン強化学習における選択的シーケンスモデリングを改善し、コンパクトなパラメータ数で最先端の性能を達成する。
Mamba-based models have drawn much attention in offline RL. However, their selective mechanism often detrimental when key steps in RL sequences are omitted. To address these issues, we propose a simple yet effective structure, called Decision MetaMamba (DMM), which replaces Mamba's token mixer with a dense layer-based sequence mixer and modifies positional structure to preserve local information. By performing sequence mixing that considers all channels simultaneously before Mamba, DMM prevents information loss due to selective scanning and residual gating. Extensive experiments demonstrate that our DMM delivers the state-of-the-art performance across diverse RL tasks. Furthermore, DMM achieves these results with a compact parameter footprint, demonstrating strong potential for real-world applications.
研究の動機と目的
- オフライン RL における Mamba スタイルの選択的シーケンス混合の制約を動機づける。
- 単純で効果的な置換案を提案する:局所情報を保持する密結合層ベースのシーケンスミキサー。
- グローバルでチャネル認識のあるシーケンス混合が選択スキャンとゲーティングによる情報損失を減らすことを示す。
- コンパクトなモデルサイズを維持しつつ、多様なオフライン RL タスクで最先端の性能を示す。
提案手法
- Mamba のトークンミキサーを密結合層ベースのシーケンスミキサーへ置換。
- 局所情報を保持するような位置付け構造を修正。
- 情報損失を防ぐために Mamba の前で全チャンネルに跨るシーケンスミキシングを実施。
- 選択スキャンと残差ゲーティングによる情報損失を緩和する構造を使用。
- 多様なオフライン RL タスクで性能と効率の向上を評価。
実験結果
リサーチクエスチョン
- RQ1 dense layer-based シーケンスミキサーはオフライン RL において Mamba のトークンミキサーを上回れるか?
- RQ2再構成された位置情報は局所的なディテールを保持しシーケンスモデリングを改善するか?
- RQ3グローバルで Mamba 前のシーケンス混合は選択スキャンとゲーティングによる情報損失を減らすか?
- RQ4得られたモデルは性能で最先端かつパラメータ数はコンパクトか?
主な発見
- DMM は多様なオフライン RL タスクで最先端の性能を達成。
- DMM は強力な結果を提供しつつコンパクトなパラメータフットプリントを維持。
- Mamba の前で全チャンネルに跨るシーケンス混合は選択スキャンと残差ゲーティングによる情報損失を防ぐ。
- 修正された位置付け構造はシーケンス処理中の局所情報を保持するのに有効。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。