Skip to main content
QUICK REVIEW

[論文レビュー] Characterizing and overcoming the greedy nature of learning in multi-modal deep neural networks

Nan Wu, Stanisław Jastrzȩbski|arXiv (Cornell University)|Feb 10, 2022
Human Pose and Action Recognition被引用数 20
ひとこと要約

複数モーダル DNN で greedy 学習現象を識別し、モデルが単一モダリティに依存することを指摘、データ駆動型指標(条件付き学習速度)とモダリティ利用のバランスを取る訓練アルゴリズムを提案、3つのデータセットで一般化性能を改善。

ABSTRACT

We hypothesize that due to the greedy nature of learning in multi-modal deep neural networks, these models tend to rely on just one modality while under-fitting the other modalities. Such behavior is counter-intuitive and hurts the models' generalization, as we observe empirically. To estimate the model's dependence on each modality, we compute the gain on the accuracy when the model has access to it in addition to another modality. We refer to this gain as the conditional utilization rate. In the experiments, we consistently observe an imbalance in conditional utilization rates between modalities, across multiple tasks and architectures. Since conditional utilization rate cannot be computed efficiently during training, we introduce a proxy for it based on the pace at which the model learns from each modality, which we refer to as the conditional learning speed. We propose an algorithm to balance the conditional learning speeds between modalities during training and demonstrate that it indeed addresses the issue of greedy learning. The proposed algorithm improves the model's generalization on three datasets: Colored MNIST, ModelNet40, and NVIDIA Dynamic Hand Gesture.

研究の動機と目的

  • 複数モーダル DNN が一部のモダリティを過少活用する理由を動機づけ、診断する

提案手法

  • モダリティを追加した際の精度向上を用いてモダリティ依存を測る条件付き利用率を定義する
  • 利用率の訓練時代理指標として条件付き学習速度を提案する
  • モダリティ間の学習速度を均等化するリバランス手順を用いる Balanced Multi-modal Learning を導入する
  • 二分岐ネットワーク向けに多モーダル転送モジュール(MMTM)を用いた中間融合を実装する
  • Colored MNIST、ModelNet40、NVGesture に対して様々なベースラインおよび生データ/モダリティ構成で評価する

実験結果

リサーチクエスチョン

  • RQ1学習中に複数モーダル DNN は利用可能なモダリティに対して不均衡な依存を示すのか?
  • RQ2訓練時のバランシング戦略は貪欲さを軽減し、データセット間で一般化を向上させることができるか?
  • RQ3条件付き学習速度は条件付き利用率の信頼できる代理指標か?
  • RQ4より強い正則化はモダリティの貪欲さを高めるのか、そしてバランスはそれとどう相互作用するのか?
  • RQ5提案された Balanced Learning アルゴリズムは異なるモダリティやタスクでどの程度有効か?

主な発見

  • 従来の多モーダル訓練は、タスクとアーキテクチャをまたぐモダリティ利用に強い不均衡を生む。
  • 条件付き学習速度は条件付き利用率の不均衡を追跡し、代理指標として妥当性を裏付ける。
  • 提案されたアルゴリズムによる学習速度のバランスは、Colored MNIST、ModelNet40、NVGesture で一般化を改善する。
  • 強い正則化はパラメータのスパース性と利用の非対称性を高めることにより、貪欲さを増大させる。
  • ガイド付き(バランス型)手法とそのランダム Baseline は、評価データセット上で Vanilla 多モーダルモデルや RUBi などのベースラインよりテスト精度を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。