QUICK REVIEW

[論文レビュー] Learning from Teaching Regularization: Generalizable Correlations Should be Easy to Imitate

Can Jin, Tong Che|arXiv (Cornell University)|Feb 5, 2024

Mathematics Education and Programs被引用数 12

ひとこと要約

LoT は、学生が教師を模倣する学習ベースの正則化を導入します。教師は模倣を容易にするよう正則化され、CV、NLP、RL の一般化を向上させます。

ABSTRACT

Generalization remains a central challenge in machine learning. In this work, we propose Learning from Teaching (LoT), a novel regularization technique for deep neural networks to enhance generalization. Inspired by the human ability to capture concise and abstract patterns, we hypothesize that generalizable correlations are expected to be easier to imitate. LoT operationalizes this concept to improve the generalization of the main model with auxiliary student learners. The student learners are trained by the main model and, in turn, provide feedback to help the main model capture more generalizable and imitable correlations. Our experimental results across several domains, including Computer Vision, Natural Language Processing, and methodologies like Reinforcement Learning, demonstrate that the introduction of LoT brings significant benefits compared to training models on the original dataset. The results suggest the effectiveness and efficiency of LoT in identifying generalizable information at the right scales while discarding spurious data correlations, thus making LoT a valuable addition to current machine learning. Code is available at https://github.com/jincan333/LoT.

研究の動機と目的

一般化を、単純で一般化可能な相関を捉える能力として動機付けする。
一般化可能な相関を、教師-学生のフィードバックを介して模倣を容易にする LoT を提案する。
CV、NLP、RL のタスク全般で LoT を実証的に検証する。
標準的な訓練データのみの場合を超えた一般化の改善を LoT が示す。

提案手法

一般化可能な相関と偽の相関を定義し、一般化可能な相関は学習者により模倣されやすいと仮定する。
ラベル付きデータとラベルなしデータで、教師 T と 1人以上の学生 S を訓練し、μ（学生と教師の出力間の KL 距離を測定する教えやすさ指標）を用いる。
λi の重みと係数 α を用いて学生-教師の模倣フィードバックを集約する LoT 正則化項 R(θ) を最適化する。
タスク損失と LoT 正則化項を用いて教師を反復的に更新し、ラベルなしデータ上で教師を模倣するよう学生を更新する。
S と T の分布的類似性を定量化する μ 指標として KL 距離を用いる。
LoT を監督あり、教師なし、強化学習設定（PPO 例）に適用する。

Figure 1: Training and test KL-divergence losses of two student models in LoT on ResNet-20 and CIFAR100 with different teacher models. The sophisticated student achieves lower losses than the deceptive student given the same computation.

実験結果

リサーチクエスチョン

RQ1一般化可能な相関は、偽の相関よりも学生モデルに模倣されやすいのか。
RQ2教えやすさ正則化を伴う教師-学生ループは、主要モデルの一般化をドメイン横断で改善できるのか。
RQ3LoT は監督あり、監督なし、強化学習タスクで有効か。
RQ4教師と学生のアーキテクチャの違いは LoT の有効性にどう影響するか。
RQ5正則化強度 α と学生更新比率 N を変えるとどのような影響が現れるか。

主な発見

データセット	教師	学生	教師のみ	LoT
CIFAR100	ResNet-20	ResNet-20	67.23 ± 0.26	70.53 ± 0.26
CIFAR100	ResNet-20	ResNet-56	67.23 ± 0.26	70.72 ± 0.05
CIFAR100	ResNet-56	ResNet-20	73.30 ± 0.02	75.51 ± 0.06
CIFAR100	ResNet-56	ResNet-56	73.30 ± 0.02	75.38 ± 0.04
CIFAR10	ResNet-20	ResNet-20	92.10 ± 0.01	92.80 ± 0.05
CIFAR10	ResNet-20	ResNet-56	92.10 ± 0.01	92.85 ± 0.04
CIFAR10	ResNet-56	ResNet-20	93.37 ± 0.57	94.35 ± 0.05
CIFAR10	ResNet-56	ResNet-56	93.37 ± 0.57	94.28 ± 0.06

一般化可能な相関は偽の相関より模倣されやすく、洗練された教師を模倣する学生の KL 距離が速く低くなることにより示される。
LoT は Atari、言語モデリング、画像分類タスクで教師のみのベースラインより性能を向上させる。
言語モデリングでは、Transformer-XL を用いた PTB で LoT がパープレキシティを最大で 8.42 ポイント、WikiText-103 で 2.03 ポイント低減することを含め、LSTM でも改善を示す。
CIFAR100 および CIFAR10 で、教師-学生ペア間で一貫した精度向上を示し、アーキテクチャ間のクロスペアも含む。
LoT の利得は、非常に高い α や過度の学生更新で飽和する；中程度の α とバランスの取れた学生更新（N）が最良の結果を与える。

Figure 2: The episodic return of the teacher agent in LoT and the teacher-only on four Atari games (averaged over ten runs). LoT demonstrates return gains over teacher-only on all games.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。