QUICK REVIEW

[논문 리뷰] Collaborative Learning for Deep Neural Networks

Guocong Song, Wei Koong Chai|arXiv (Cornell University)|2018. 05. 30.

Advanced Neural Network Applications참고 문헌 4인용 수 102

한 줄 요약

협력 학습은 같은 네트워크의 여러 분류기 헤드를 동일한 데이터에서 병렬로 학습시키며, 합의와 계층 간 표현 공유를 이용해 일반화와 라벨 노이즈에 대한 강건성을 향상시키되 추론 그래프를 변경하지 않는다.

ABSTRACT

We introduce collaborative learning in which multiple classifier heads of the same network are simultaneously trained on the same training data to improve generalization and robustness to label noise with no extra inference cost. It acquires the strengths from auxiliary training, multi-task learning and knowledge distillation. There are two important mechanisms involved in collaborative learning. First, the consensus of multiple views from different classifier heads on the same example provides supplementary information as well as regularization to each classifier, thereby improving generalization. Second, intermediate-level representation (ILR) sharing with backpropagation rescaling aggregates the gradient flows from all heads, which not only reduces training computational complexity, but also facilitates supervision to the shared layers. The empirical results on CIFAR and ImageNet datasets demonstrate that deep neural networks learned as a group in a collaborative way significantly reduce the generalization error and increase the robustness to label noise.

연구 동기 및 목표

일반화 및 강건성 향상을 추가 추론 비용 없이 모티브로 제시한다.
중간 표현을 공유하는 다중 헤드를 더한 학습 프레임워크를 제안한다.
동료 헤드의 소프트 합의 라벨(soft labels)과 역전파 재스케일링을 활용해 학습을 안정화한다.
CIFAR 및 ImageNet에서 정확도 향상과 라벨 노이즈에 대한 강건성을 입증한다.

제안 방법

공유 중간 표현을 갖는 학습 그래프에 다중 분류 헤드를 추가한다.
하드 그라운드 트루스 손실과 피어 헤드의 소프트 합의 손실을 결합한 공동 손실을 정의한다.
총 손실과 ILR 역전파 재스케일링으로 모든 헤드를 동시 SGD 최적화하여 각 헤드의 그래디언트를 안정화한다.
하드와 소프트 감독의 균형을 맞추기 위해 온도 스케일링된 소프트 라벨을 도입한다(β와 T 파라미터).
메모리 및 학습 시간을 줄이면서 정확도를 개선하기 위한 간단한 ILR 공유 패턴과 계층적 ILR 공유를 시연한다.
Baseline 및 지식 증류(distillation)와 비교하기 위해 CIFAR-10/ResNet-DenseNet 변형과 ImageNet의 ResNet-50로 평가한다.

실험 결과

연구 질문

RQ1협력 학습이 추론 비용을 증가시키지 않으면서 일반화를 향상시키는가?
RQ2ILR 공유 및 역전파 재스케일링이 학습 안정성과 그래디언트 흐름에 어떤 영향을 미치는가?
RQ3표준 훈련 및 지식 증류에 비해 라벨 노이즈에 얼마나 강한가?
RQ4헤드 수의 증가 및 다양한 ILR 공유 패턴이 성능에 어떤 영향을 주는가?
RQ5대규모 데이터셋에서 협력 학습은 지식 증류 및 라벨 스무딩과 어떻게 비교되는가?

주요 결과

	ResNet-32	ResNet-110	DenseNet-40-12
개별 학습 \| 단일 인스턴스	6.66 ± 0.21	5.56 ± 0.16	5.26 ± 0.08
레이블 스무딩 (0.05)	6.83 ± 0.14	5.66 ± 0.08	5.40 ± 0.04
협력 학습 \| 2 인스턴스	6.19 ± 0.17	5.21 ± 0.14	5.11 ± 0.15
협력 학습 \| 4 인스턴스	6.16 ± 0.17	5.16 ± 0.13	5.00 ± 0.05
2 헤드 w/ 간단한 ILR 공유	5.97 ± 0.07	5.15 ± 0.14	5.04 ± 0.10
4 헤드 w/ 계층적 ILR 공유	5.86 ± 0.13	4.98 ± 0.12	4.86 ± 0.12

협력 학습은 CIFAR-10에서 ResNet-32, ResNet-110, DenseNet-40-12를 대상으로 단일 인스턴스 기초 대비 일반화 오차를 일관되게 감소시켰다.
헤드 수를 늘리고 ILR 공유를 사용할수록(특히 계층적 ILR) CIFAR-10에서 추가적인 정확도 향상을 얻었다.
동시 최적화가 헤드별 최적화보다 정확도와 속도 면에서 우수했다.
역전파 재스케일링은 공유 레이어의 그래디언트 흐름을 안정화하고 정확도를 향상시켰으며 스케일링 없이 또는 손실 스케일링만 있을 때보다 우수했다.
ImageNet에서 2개 또는 4개의 헤드와 ILR 공유를 통한 협력 학습은 상위 1% 오류를 기초치 23.47%에서 22.70%(2 헤드 단순 ILR) 및 22.29%(4 헤드 계층적 ILR)로 감소시키고 학습 시간과 메모리의 trade-off도 우수했다.
협력 학습은 라벨 노이즈에 대한 강건성을 보여주며 노이즈 수준이 높을수록 더 큰 이득을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.