QUICK REVIEW

[論文レビュー] Establishing Baselines for Text Classification in Low-Resource Languages

Jan Christian Blaise Cruz, Charibeth Cheng|arXiv (Cornell University)|May 5, 2020

Topic Modeling参考文献 19被引用数 32

ひとこと要約

本稿はフィリピノ語のテキスト分類ベンチマーク、事前学習済みのフィリピン語BERT/DistilBERTモデル、および低データ環境におけるモデルの頑健性を評価する劣化テストを公開します。

ABSTRACT

While transformer-based finetuning techniques have proven effective in tasks that involve low-resource, low-data environments, a lack of properly established baselines and benchmark datasets make it hard to compare different approaches that are aimed at tackling the low-resource setting. In this work, we provide three contributions. First, we introduce two previously unreleased datasets as benchmark datasets for text classification and low-resource multilabel text classification for the low-resource language Filipino. Second, we pretrain better BERT and DistilBERT models for use within the Filipino setting. Third, we introduce a simple degradation test that benchmarks a model's resistance to performance degradation as the number of training samples are reduced. We analyze our pretrained model's degradation speeds and look towards the use of this method for comparing models aimed at operating within the low-resource setting. We release all our models and datasets for the research community to use.

研究の動機と目的

フィリピノ語テキスト分類および低リソース多ラベル分類の標準ベンチマークデータセットを提供する。
入力長512でより強力なフィリピン語BERTモデルを事前訓練し、リソース制約のある環境向けにDistilBERTを公開する。
トレーニングデータを削減して低リソース条件を模擬する劣化テストを導入し、モデル性能を測定する。

提案手法

リンク・メンション・ハッシュタグのための標準化されたトークン化と特殊トークンを用いてツイートを前処理する。
WikiText-TL-39上で512の最大系列長と30k語彙を用い、WordPieceを用いてフィリピン語タガログBERTモデル（大文字小文字区別あり/なし、標準/全語 masking）を事前訓練する。
最良のBERT教師モデルから三エポックの蒸留で小さなDistilBERTモデルを蒸留する。
標準ハイパーパラメータと5分割クロスバリデーションで、二つのフィリピノデータセット（フィリピン語のヘイトスピーチ二値分類とデング熱の多ラベル分類）でBERTとDistilBERTをファインチューニングする。
評価はヘイトスピーチに対して正解率、デング熱にはハミングロスを用いる。

実験結果

リサーチクエスチョン

RQ1低リソースNLP手法の公正な比較を可能にするフィリピノ語テキスト分類ベンチマークを確立できるか。
RQ2事前学習済みのフィリピン語BERTおよびDistilBERTモデルは、フィリピノ語の二値ヘイトスピーチおよび多クラス/多ラベルタスクでどのように性能を示すか。
RQ3劣化テストで測定されるデータ不足に対するこれらモデルの耐性はどの程度か。
RQ4より大きな入力長と全語句マスキングはフィリピノ語NLPタスクの性能を改善するか。
RQ5モデル蒸留が低リソース環境での性能に与える影響はどうか。

主な発見

事前学習済みフィリピン語BERTモデル（512の最大系列）はヘイトスピーチおよびデング熱データセットで競争力のあるファインチューニング結果を達成する。
DistilBERTは、データが減少した条件下で、通常はより大きなBERTモデルよりも劣化が速い。
全語句マスキングモデルは、非全語句マスキングモデルより劣化がわずかに遅い。
劣化テストは、非常に少ないデータ（1kサンプル）で主に著しい性能低下を示し、5kサンプルでは小さな低下を示す。
蒸留により、低リソース環境でフルサイズBERTに比べて性能が控えめに低下した、使える小型モデルが得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。