QUICK REVIEW

[논문 리뷰] Not All Unlabeled Data are Equal: Learning to Weight Data in Semi-supervised Learning

Zhongzheng Ren, Raymond A. Yeh|arXiv (Cornell University)|2020. 07. 02.

Machine Learning and Data Classification인용 수 33

한 줄 요약

본 논문은 영향 함수(influence functions)를 이용해 SSL에서 비라벨 데이터의 각 샘플에 대한 가중치를 자동으로 조정하여 성능을 향상시키는 per-example 가중화를 제안한다.

ABSTRACT

Existing semi-supervised learning (SSL) algorithms use a single weight to balance the loss of labeled and unlabeled examples, i.e., all unlabeled examples are equally weighted. But not all unlabeled data are equal. In this paper we study how to use a different weight for every unlabeled example. Manual tuning of all those weights -- as done in prior work -- is no longer possible. Instead, we adjust those weights via an algorithm based on the influence function, a measure of a model's dependency on one training example. To make the approach efficient, we propose a fast and effective approximation of the influence function. We demonstrate that this technique outperforms state-of-the-art methods on semi-supervised image and language classification tasks.

연구 동기 및 목표

라벨이 없는 데이터가 SSL에서 동일하게 정보에 기여하지 않으며 하나의 전역 가중치가 최적이 아님을 제시한다.
라벨이 없는 데이터에 대한 샘플별 가중치를 도입하고 수동 그리드 검색 없이 자동으로 튜닝한다.
대규모 SSL 모델에 대해 샘플별 가중치를 계산하기 위한 효율적인 influence-function 기반 프레임워크를 개발한다.
이미지 및 텍스트 벤치마크에서 최신 SSL 방법들보다 성능이 향상됨을 입증한다.

제안 방법

검증 손실을 최소화하도록 라벨이 없는 데이터의 샘플별 가중치를 학습하는 이중 최적화(bi-level optimization)를 형식화한다.
학습 샘플의 가중치를 높이는 것이 검증 손실에 미치는 영향을 근사하기 위해 influence functions를 사용한다 (Eq. 6).
레이어 활성화와 병렬화를 활용하여 샘플별 기울기를 효율적으로 계산하고, 메모리와 계산량 감소를 위해 역 Hessian의 역행렬 근사를 마지막 층으로만 제한한다.
각 미니배치에서 샘플별 가중치의 일부 서브셋만 업데이트하도록 마스킹된 Adam(M(asked)-Adam) 최적화기를 사용한다.
샘플별 가중치를 기존 SSL 손실(예: pseudo-labeling, UDA, FixMatch)과 통합하고 모델 매개변수와 가중치를 교대 업데이트한다.
하이퍼파라미터에 대한 실용적인 가이드를 제공하고 어블레이션 연구와 실행 시간 분석을 통해 강인성을 검증한다.

실험 결과

연구 질문

RQ1라벨이 없는 데이터가 SSL에서 동일한 정보를 제공하지 않으며 하나의 전역 가중치가 최적이 아님을 확인할 수 있는가?
RQ2이 영향 함수가 효율적으로 근사되어 이러한 가중치를 대규모로 학습하도록 SSL에 통합될 수 있는가?
RQ3샘플별 가중치가 이미지 및 텍스트 SSL 벤치마크 전반에서 일관되게 성능을 개선하는가?
RQ4깊은 네트워크에서 샘플별 가중치를 사용할 때의 계산적 트레이드오프와 실용적 고려사항(예: 메모리, 하이퍼파라미터)은 무엇인가?

주요 결과

샘플별 라벨이 없는 데이터의 가중화가 CIFAR-10, SVHN, IMDb에서 UDA 및 FixMatch 같은 강력한 기준선보다 SSL 성능을 향상시킨다.
influence-function 기반 접근은 검증 성능에 기반해 라벨이 없는 샘플에 가중치를 효과적으로 할당하도록 안내한다.
샘플별 그래디언트의 효율적 계산과 마지막 층 Hessian 근사는 제한된 GPU 메모리로 현대의 SSL 설정으로의 확장을 가능하게 한다.
마스킹된 Adam(M(asked)-Adam)과 가중치 서브셋의 선택적 업데이트가 정확도와 효율성의 균형을 이룬다.
어블레이션 연구는 단일 전역 가중치를 사용하는 경우보다 이점이 있음을 보여주고, 선택한 influence-function 근사 및 최적화 방식의 중요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.