QUICK REVIEW

[論文レビュー] Towards Robustness to Label Noise in Text Classification via Noise Modeling

Siddhant Garg, Goutham Ramakrishnan|arXiv (Cornell University)|Jan 27, 2021

Machine Learning and Data Classification参考文献 26被引用数 21

ひとこと要約

本稿では、新たなノイズ除去損失を用いて分類器と補助的ノイズモデルを同時に学習することで、ラベルノイズ下でのテキスト分類のロバスト性を向上させるためのノイズモデリング手法を提案する。この手法は、初期学習段階の損失にベータ混合モデルを適用してクリーン/ノイズありラベルの確率を推定し、クリーンなサンプルを優先する重み付き交差エントロピー損失を適用することで、過学習を顕著に低減し、ランダムノイズおよび入力に依存するノイズ設定の両方で精度を向上させる。

ABSTRACT

Large datasets in NLP suffer from noisy labels, due to erroneous automatic and human annotation procedures. We study the problem of text classification with label noise, and aim to capture this noise through an auxiliary noise model over the classifier. We first assign a probability score to each training sample of having a noisy label, through a beta mixture model fitted on the losses at an early epoch of training. Then, we use this score to selectively guide the learning of the noise model and classifier. Our empirical evaluation on two text classification tasks shows that our approach can improve over the baseline accuracy, and prevent over-fitting to the noise.

研究の動機と目的

大規模なNLPデータセットにおけるラベルノイズの課題に対処し、モデルの一般化性能を損なう要因を軽減すること。
学習中にクリーンラベルへのアクセスを必要とせず、ノイズラベルを特定・緩和する手法を開発すること。
入力に依存する複雑なノイズパターンを捉えることができる補助的ノイズモデルと分類器を共同で学習させることで、モデルのロバスト性を向上させること。
推定されたクリーンラベル確率を用いて学習を効果的にガイドすることで、ノイズラベルへの過学習を低減すること。

提案手法

分類器の初期学習段階における訓練損失に、2成分のベータ混合モデル（BMM）をフィッティングし、各サンプルがクリーンラベルまたはノイズありラベルである確率を推定する。
ノイズモデルは、分類器の最終層の1つ前（ペンultimate層）からの文脈的埋め込みを入力として、分類器の上流に配置された補助ネットワークとして学習される。
新規のノイズ除去損失は2つの成分を組み合わせる：(1) ノイズモデルの予測と真のラベル間の交差エントロピー、(2) 分類器の予測と真のラベル間の交差エントロピーで、推定されたクリーンラベル確率で重み付けされる。
分類器はクリーンラベル確率が高いかつてのサンプルを優先して学習することで、クリーンデータに対する一般化性能が向上する。
ノイズモデルは、入力特徴および元のラベルに依存する可能性のあるラベルノイズ関数を予測するように学習され、複雑で入力に依存するノイズのモデリングが可能になる。
推論段階では、ノイズモデルは破棄され、分類子のみが使用される。

実験結果

リサーチクエスチョン

RQ1初期学習損失に基づいて学習されたノイズモデルは、テキスト分類においてクリーンサンプルとノイズありサンプルを効果的に同定できるか？
RQ2ノイズ除去損失を用いて分類器とノイズモデルを共同で学習させることで、ランダムノイズおよび入力に依存するノイズに対してロバスト性が向上するか？
RQ3標準的な訓練と比較して、本手法はノイズラベルへの過学習を低減できるか？
RQ4特に入力に依存する設定において、さまざまなレベルのラベルノイズ下で本手法はどのように性能を示すか？

主な発見

TRECデータセット（40％のランダムノイズ）において、L_DN-Hバージョンは79.0％のテスト精度を達成し、ベースライン（76.0％）を上回り、過学習のギャップもベースラインの17.0％から1.0％に顕著に低減された。
AG-News（50％のランダムノイズ）において、L_DN-Sバージョンは75.6％の精度を達成し、ベースライン（71.8％）を上回り、最良モデルから最後のモデルまでの精度低下が15.8ポイントから1.4ポイントにまで縮小された。
TRECにおける入力に依存するノイズ設定では、本手法により最良モデルと最後のモデルの精度ギャップが、ベースラインの24.8ポイントから30％ノイズ下で1.0ポイントにまで低減された。これは、過学習の顕著な緩和を示している。
AG-Newsにおける入力に依存するノイズ（ソーストークン：AP, Reuters）設定でも、本手法はベースラインと同等の性能（例：L_DN-Hでは76.6％ vs. 75.7％）を維持した。これは、ノイズが学習しにくい状況でも有効であることを示している。
本手法は訓練エポック全体を通じて安定性が向上し、ノイズレベルが上昇してもテスト精度が安定したまま維持された。これに対してベースラインは急速に過学習を示した。
高ノイズレベルではL_DN-HバージョンがL_DN-Sを上回ったが、低ノイズレベルではL_DN-Sがより効果的であった。これは、両手法が相補的な強みを有していることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。