QUICK REVIEW

[論文レビュー] DocBERT: BERT for Document Classification

Ashutosh Adhikari, Achyudh Ram|arXiv (Cornell University)|Apr 17, 2019

Text and Document Classification Technologies参考文献 23被引用数 215

ひとこと要約

ファインチューニングした BERT は four つの文書分類データセットで最先端の結果を達成します。蒸留された KD-LSTM reg は BERT base に ~30 倍少ないパラメータ数と ~40 倍高速な推論で追随できます。

ABSTRACT

We present, to our knowledge, the first application of BERT to document classification. A few characteristics of the task might lead one to think that BERT is not the most appropriate model: syntactic structures matter less for content categories, documents can often be longer than typical BERT input, and documents often have multiple labels. Nevertheless, we show that a straightforward classification model using BERT is able to achieve the state of the art across four popular datasets. To address the computational expense associated with BERT inference, we distill knowledge from BERT-large to small bidirectional LSTMs, reaching BERT-base parity on multiple datasets using 30x fewer parameters. The primary contribution of our paper is improved baselines that can provide the foundation for future work.

研究の動機と目的

ファインチューニングされた BERT が標準的な文書分類データセットで最先端の結果を達成することを示す。
BERT を長い多ラベル文書（1〜4 ラベル設定が一般的）に使用する実現可能性を調査する。
推論を高速化するために、知識蒸留により BERT の計算コストを小さなモデル（KD-LSTM reg）へ移す。

提案手法

文書分類のために BERT base および BERT large を、[CLS] トークン上の最終分類層を追加してファインチューニングする。
最適化にはクロスエントロピー（単一ラベル）またはバイナリクロスエントロピー（多ラベル）損失を用いる。
fine-tuned BERT large から、転移セット上の KL 散逸を用いて軽量の単層 BiLSTM（LSTM reg）へ知識蒸留を適用する。
分類損失と蒸留損失を加重和で組み合わせ、学生モデル（KD-LSTM reg）を訓練する。
転移セットを POS ガイド付き語換えとランダムマスキングで作成し、蒸留を改善する。
Reuters、AAPD、IMDB、Yelp 2014 を標準分割と報告されたベースラインで評価する。

実験結果

リサーチクエスチョン

RQ1ファインチューニングされた BERT は標準的な文書分類データセットで新たな最先端の結果を達成し得るか？
RQ2軽量 BiLSTM は知識蒸留を通じて BERT base の性能を近似できるか？
RQ3BERT と蒸留された学生モデルの精度対モデルサイズと推論時間のトレードオフはどうなるか？
RQ4異なるデータセット（単一ラベル対多ラベル）は、BERT のファインチューニングの学習ダイナミクスと性能にどう影響するか？

主な発見

モデル	Reuters 検証 F1	Reuters テスト F1	AAPD 検証 F1	AAPD テスト F1	IMDB 検証 F1	IMDB テスト F1	Yelp 検証精度	Yelp テスト精度
LSTM reg	89.1 ±0.8	87.0 ±0.5	73.1 ±0.4	70.5 ±0.5	53.4 ±0.2	52.8 ±0.3	69.0 ±0.1	68.7 ±0.1
BERT base	90.5	89.0	75.3	73.4	54.4	54.2	72.1	72.0
BERT large	92.3	90.7	76.6	75.2	56.0	55.6	72.6	72.5
KD-LSTM reg	91.0 ±0.2	88.9 ±0.2	75.4 ±0.2	72.9 ±0.3	54.5 ±0.1	53.7 ±0.3	69.7 ±0.1	69.4 ±0.1

BERT large は四つのデータセット全てで最先端の結果を達成する。
BERT base も強力な結果を達成し、BERT large に密接している。
KD-LSTM reg は Reuters、AAPD、IMDB において BERT base と同等の性能を達成し、推論速度は大幅に向上（≥40 倍の推論速度向上）。
KD-LSTM reg は約 1–3% の BERT base パラメータ数でありながら、データセット全体で競争力のある精度を維持する。
蒸留モデルの推論遅延は BERT base に比べて劇的に低減され（テスト機材で約 40 倍）、パフォーマンスを大幅に維持している。
蒸留モデルは、より単純なアーキテクチャがはるかに少ないパラメータで BERT の多くの性能を回復できることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。