QUICK REVIEW

[논문 리뷰] Towards Robustness to Label Noise in Text Classification via Noise Modeling

Siddhant Garg, Goutham Ramakrishnan|arXiv (Cornell University)|2021. 01. 27.

Machine Learning and Data Classification참고 문헌 26인용 수 21

한 줄 요약

이 논문은 새로운 디노이징 손실을 사용하여 분류기와 보조 노이즈 모델을 함께 훈련시킴으로써 레이블 노이즈 하에서 텍스트 분류의 강건성을 향상시키기 위한 노이즈 모델링 방법을 제안한다. 이 방법은 초기 훈련 손실에 대한 베타 혼합 모델을 사용하여 청소된/노이즈가 있는 레이블 확률을 추정하고, 청소된 샘플을 우선시하는 가중 교차 엔트로피 손실을 적용하여 과적합을 크게 줄이고, 랜덤 및 입력 조건부 노이즈 설정 모두에서 정확도를 향상시킨다.

ABSTRACT

Large datasets in NLP suffer from noisy labels, due to erroneous automatic and human annotation procedures. We study the problem of text classification with label noise, and aim to capture this noise through an auxiliary noise model over the classifier. We first assign a probability score to each training sample of having a noisy label, through a beta mixture model fitted on the losses at an early epoch of training. Then, we use this score to selectively guide the learning of the noise model and classifier. Our empirical evaluation on two text classification tasks shows that our approach can improve over the baseline accuracy, and prevent over-fitting to the noise.

연구 동기 및 목표

대규모 NLP 데이터셋에서의 레이블 노이즈 문제를 다루어 모델의 일반화 능력을 떨어뜨리는 것을 방지하기 위해.
훈련 중에 청소된 레이블에 접근할 수 없더라도 노이즈가 있는 레이블을 식별하고 그 영향을 완화하는 방법을 개발하기 위해.
복잡한 입력 의존적 노이즈 패턴을 포착하는 보조 노이즈 모델과 함께 분류기를 공동으로 훈련시켜 모델의 강건성을 향상시키기 위해.
청소된 레이블 확률을 추정한 결과를 사용해 학습을 선택적으로 이끌어 노이즈 레이블에 대한 과적합을 줄이기 위해.

제안 방법

분류기의 초기 훈련 에포크에서의 훈련 손실에 대해 이원 베타 혼합 모델(BMM)을 적합하여 각 샘플이 청소된 레이블 또는 노이즈가 있는 레이블을 가질 확률을 추정한다.
노이즈 모델은 분류기 위에 있는 보조 네트워크로 훈련되며, 분류기의 전단계 레이어에서 추출한 컨텍스트 기반 임베딩을 입력으로 사용한다.
새로운 디노이징 손실은 두 가지 구성요소를 포함한다: (1) 노이즈 모델의 예측과 진짜 레이블 간의 교차 엔트로피, (2) 분류기의 예측과 진짜 레이블 간의 교차 엔트로피로, 청소된 레이블 확률에 의해 가중된다.
분류기는 청소된 레이블 확률이 높은 샘플을 우선시하여 청소된 데이터에 대한 일반화 능력을 향상시킨다.
노이즈 모델은 입력 특징과 원래 레이블에 모두 의존할 수 있는 레이블 노이즈 함수를 학습하여 복잡한 입력 조건부 노이즈를 모델링할 수 있다.
추론 시에는 오직 분류기만 사용되며, 노이즈 모델은 폐기된다.

실험 결과

연구 질문

RQ1초기 훈련 손실에 기반한 노이즈 모델이 텍스트 분류에서 청소된 샘플과 노이즈가 있는 샘플을 효과적으로 식별할 수 있는가?
RQ2디노이징 손실을 통해 분류기와 노이즈 모델을 공동으로 훈련시키면 랜덤 및 입력 조건부 레이블 노이즈에 대한 강건성이 향상되는가?
RQ3제안된 방법이 표준 훈련에 비해 노이즈 레이블에 대한 과적합을 줄일 수 있는가?
RQ4특히 입력 조건부 설정에서, 다양한 수준의 레이블 노이즈에 대해 이 방법은 어떻게 성능을 보이는가?

주요 결과

40%의 랜덤 노이즈가 있는 TREC 데이터셋에서 L_DN-H 버전은 79.0%의 테스트 정확도를 기록하여 베이스라인(76.0%)을 능가했으며, 과적합도 베이스라인(17.0%) 대비 크게 줄어들어 1.0%의 격차를 보였다.
50%의 랜덤 노이즈가 있는 AG-News에서 L_DN-S 버전은 75.6%의 정확도를 기록하여 베이스라인(71.8%)을 능가했으며, 최고 모델에서 마지막 모델로의 정확도 하락 폭을 15.8점에서 1.4점으로 줄였다.
TREC에서 입력 조건부 노이즈 설정에서, 이 방법은 베이스라인의 최고와 마지막 모델 간 정확도 격차를 30% 노이즈에서 24.8점에서 1.0점으로 줄여 강력한 과적합 억제 효과를 보였다.
AG-News에서 소스 토큰(AP, Reuters) 기반의 입력 조건부 노이즈 설정에서도 이 방법은 베이스라인과 유사한 성능(예: L_DN-H는 76.6% 대비 75.7%)을 유지했으며, 노이즈가 학습하기 어려운 경우에도 효과적임을 보였다.
이 방법은 훈련 에포크 전반에 걸쳐 안정성이 향상되었으며, 노이즈 수준이 증가하더라도 테스트 정확도가 안정적으로 유지되었고, 베이스라인은 빠르게 과적합되는 것과 대비되었다.
높은 노이즈 수준에서는 L_DN-H 버전이 L_DN-S보다 더 우수했고, 낮은 노이즈 수준에서는 L_DN-S가 더 효과적이었으며, 이는 상호 보완적인 강점을 지닌다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.