[논문 리뷰] Co-teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels
Co-teaching은 두 개의 신경망을 동시에 학습시키고 각 미니배치마다 작은 손실 샘플(잠재적으로 깔끔한 샘플)을 서로 교환해 서로를 가르치게 하며, 극도로 노이즈가 많은 레이블에서도 강건하게 학습하도록 한다.
Deep learning with noisy labels is practically challenging, as the capacity of deep models is so high that they can totally memorize these noisy labels sooner or later during training. Nonetheless, recent studies on the memorization effects of deep neural networks show that they would first memorize training data of clean labels and then those of noisy labels. Therefore in this paper, we propose a new deep learning paradigm called Co-teaching for combating with noisy labels. Namely, we train two deep neural networks simultaneously, and let them teach each other given every mini-batch: firstly, each network feeds forward all data and selects some data of possibly clean labels; secondly, two networks communicate with each other what data in this mini-batch should be used for training; finally, each network back propagates the data selected by its peer network and updates itself. Empirical results on noisy versions of MNIST, CIFAR-10 and CIFAR-100 demonstrate that Co-teaching is much superior to the state-of-the-art methods in the robustness of trained deep models.
연구 동기 및 목표
- 실제 데이터에서 학습 레이블이 심하게 손상될 때의 강건한 학습의 필요성을 제시한다.
- 노이즈가 있는 레이블의 기억화를 완화하는 간단한 이중 네트워크 학습 패러다임을 제안한다.
- 딥 네트워크의 기억화 역학을 활용하여 작은 손실 샘플링으로 깨끗한 샘플의 우선순위를 두는다.
- 표준 벤치마크에서 합성 노이즈 설정에 걸쳐 방법의 강건성을 입증한다.
제안 방법
- 매개변수 w_f와 w_g를 가지는 두 네트워크 f와 g를 유지하고 서로 교차 업데이트하는 미니배치 방식으로 학습한다.
- 각 미니배치에서 각 네트워크는 작은 손실 인스턴스의 부분집합(R(T)%의 배치)을 잠재적으로 깨끗한 것으로 선택한다.
- 각 네트워크는 상대 네트워크가 선택한 데이터로 매개변수를 업데이트한다( f는 g의 작은 손실 집합으로 업데이트되고; g는 f의 작은 손실 집합으로 업데이트된다 ).
- R(T)는 시간이 지남에 따라 더 노이즈가 많은 예시를 제거하기 위해 1에 가까이에서 시작해 감소하는 비증가적 일정이다.
- 직관은 기억화 역학에 의존한다: 심층 네트워크는 먼저 깨끗하고 쉬운 패턴을 학습하고 점차 노이즈를 기억하므로 초기에는 작은 손실 샘플이 더 깨끗할 가능성이 높다.
- 두 네트워크는 잠재적으로 노이즈가 있는 인스턴스에 대한 교차 필터링을 가능하게 하여 단일 네트워크 또는 의견 불일치만 활용하는 방법들에 비해 오류 전파를 줄인다.
실험 결과
연구 질문
- RQ1교차 업데이트된 작은 손실 샘플을 사용해 함께 학습하는 두 네트워크가 극도로 노이즈가 많은 레이블에서도 강건하게 학습할 수 있는가?
- RQ2깨끗한 데이터에서의 학습과 노이즈 기억화를 피하는 균형을 맞추기 위해 작은 손실 샘플 비율 R(T)을 어떻게 스케줄링해야 하는가?
- RQ3심하게 손상된 레이블 환경에서 이중 네트워크가 단일 네트워크나 다른 베이스라인에 비해 이점이 있는가?
주요 결과
- Co-teaching은 극단적인 노이즈 설정에서 noisy MNIST, CIFAR-10, CIFAR-100에 대해 최첨단 베이스라인보다 로버스트함을 현저히 향상시킨다.
- 45% 노이즈 레이블 이하에서 Co-teaching은 MNIST, CIFAR-10, CIFAR-100에서 MentorNet 및 다른 베이스라인보다 더 높은 테스트 정확도를 달성한다.
- 레이블 정밀도와 깨끗한 샘플을 분리하는 능력이 baselines에 비해 Co-teaching에서 향상되어, 깨끗한 샘플 식별이 더 잘 됨을 시사한다.
- Co-teaching의 효과는 서로 다른 노이즈 구조(예: 페어 플립, 대칭 플립)에서도 지속되며, 사전 학습 없이 처음부터 학습해도 여전히 강력하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.