QUICK REVIEW

[논문 리뷰] Learning from Teaching Regularization: Generalizable Correlations Should be Easy to Imitate

Can Jin, Tong Che|arXiv (Cornell University)|2024. 02. 05.

Mathematics Education and Programs인용 수 12

한 줄 요약

LoT는 학생이 교사를 모방하도록 하는 교육 기반 규제화를 도입합니다. 교사는 모방하기 쉽게 규제되어 일반화가 CV, NLP, RL 전반에서 향상됩니다.

ABSTRACT

Generalization remains a central challenge in machine learning. In this work, we propose Learning from Teaching (LoT), a novel regularization technique for deep neural networks to enhance generalization. Inspired by the human ability to capture concise and abstract patterns, we hypothesize that generalizable correlations are expected to be easier to imitate. LoT operationalizes this concept to improve the generalization of the main model with auxiliary student learners. The student learners are trained by the main model and, in turn, provide feedback to help the main model capture more generalizable and imitable correlations. Our experimental results across several domains, including Computer Vision, Natural Language Processing, and methodologies like Reinforcement Learning, demonstrate that the introduction of LoT brings significant benefits compared to training models on the original dataset. The results suggest the effectiveness and efficiency of LoT in identifying generalizable information at the right scales while discarding spurious data correlations, thus making LoT a valuable addition to current machine learning. Code is available at https://github.com/jincan333/LoT.

연구 동기 및 목표

일반화의 목표를 간단하고 일반화 가능한 상관관계를 포착하는 능력으로 제시합니다.
교사-학생 피드백을 통해 일반화 가능한 상관관계를 더 쉽게 모방하게 하는 LoT를 제안합니다.
CV, NLP, RL 과제 전반에서 LoT를 실험적으로 검증합니다.
일반화가 표준 학습 데이터만으로도 향상되는 것을 보여줍니다.

제안 방법

일반화 가능한 상관관계와 오판 가능 상관관계를 정의하고 일반화 가능한 상관관계가 학습자에 의해 더 쉽게 모방될 수 있다고 가정합니다.
라벨 자료와 비라벨 자료에서 하나의 교사 T와 하나 이상의 학생 S를 교육시키고, 학생과 교사 출력 사이의 KL 발산을 측정하는 teachability 지표 μ를 사용합니다.
λi 가중치와 계수 α로 구성된 LoT 규제자 R(θ)를 최적화하여 학생–교사 모방 피드백을 합산합니다.
작업 손실과 LoT 규제자를 포함한 손실로 교사를 반복적으로 업데이트하고, 비라벨 데이터에서 학생들이 교사를 모방하도록 업데이트합니다.
S와 T 간의 분포 유사성을 정량화하기 위해 μ 지표로 KL 발산을 사용합니다.
지시학습, 비지도 학습, 강화 학습 설정에서 LoT를 적용합니다(예: PPO 사례).

Figure 1: Training and test KL-divergence losses of two student models in LoT on ResNet-20 and CIFAR100 with different teacher models. The sophisticated student achieves lower losses than the deceptive student given the same computation.

실험 결과

연구 질문

RQ1일반화 가능한 상관관계가 스퓨리어스럽게 보이는 상관관계보다 학생 모델에 의해 더 쉽게 모방되는가?
RQ2교사–학생 루프에서 teachability 규제화가 주요 모델의 일반화를 도메인 전반에 걸쳐 개선하는가?
RQ3LoT가 지시학습, 비지도 학습, 강화 학습 과제에서 효과적인가?
RQ4교사와 학생 간의 구조적 차이가 LoT의 효과에 어떤 영향을 미치는가?
RQ5정규화 강도 α 와 학생의 업데이트 비율 N 을 다양화하면 어떤 효과가 있는가?

주요 결과

데이터셋	교사	학생	교사-전용	LoT
CIFAR100	ResNet-20	ResNet-20	67.23 ± 0.26	70.53 ± 0.26
CIFAR100	ResNet-20	ResNet-56	67.23 ± 0.26	70.72 ± 0.05
CIFAR100	ResNet-56	ResNet-20	73.30 ± 0.02	75.51 ± 0.06
CIFAR100	ResNet-56	ResNet-56	73.30 ± 0.02	75.38 ± 0.04
CIFAR10	ResNet-20	ResNet-20	92.10 ± 0.01	92.80 ± 0.05
CIFAR10	ResNet-20	ResNet-56	92.10 ± 0.01	92.85 ± 0.04
CIFAR10	ResNet-56	ResNet-20	93.37 ± 0.57	94.35 ± 0.05
CIFAR10	ResNet-56	ResNet-56	93.37 ± 0.57	94.28 ± 0.06

일반화 가능한 상관관계가 스퓨리어스한 상관관계보다 모방하기 쉽다. 이는 복잡한 교사를 모방하는 학생에서 KL 발산이 더 빠르고 낮은 것으로 확인되었습니다.
LoT는 Atari, 언어 모델링, 이미지 분류 과제에서 교사 전용 기준선보다 성능을 개선합니다.
언어 모델링에서 Transformer-XL을 사용한 PTB에서 LoT가 언어 모델의 당뇨도 perplexity를 8.42 포인트까지 낮추고 WikiText-103에서 2.03을 낮추며 LSTM에서도 개선을 보입니다.
CIFAR100 및 CIFAR10에서 LoT는 교사–학생 간의 쌍(교사/학생 간 또는 교차 아키텍처 간)에서 일관된 정확도 상승을 가져옵니다.
LoT의 이점은 매우 높은 α 또는 과도한 학생 업데이트에서 포화되며, 중간 수준의 α와 균형 잡힌 학생 업데이트(N)가 최상의 성과를 제공합니다.

Figure 2: The episodic return of the teacher agent in LoT and the teacher-only on four Atari games (averaged over ten runs). LoT demonstrates return gains over teacher-only on all games.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.