[論文レビュー] A Comparison of LSTM and BERT for Small Corpus
この論文は、対話システムにおける意図分類の小規模データセットでLSTMとBERTを比較し、単純なLSTMがBERTを上回ることができ、トレーニングもより速いことを示している。
Recent advancements in the NLP field showed that transfer learning helps with achieving state-of-the-art results for new tasks by tuning pre-trained models instead of starting from scratch. Transformers have made a significant improvement in creating new state-of-the-art results for many NLP tasks including but not limited to text classification, text generation, and sequence labeling. Most of these success stories were based on large datasets. In this paper we focus on a real-life scenario that scientists in academia and industry face frequently: given a small dataset, can we use a large pre-trained model like BERT and get better results than simple models? To answer this question, we use a small dataset for intent classification collected for building chatbots and compare the performance of a simple bidirectional LSTM model with a pre-trained BERT model. Our experimental results show that bidirectional LSTM models can achieve significantly higher results than a BERT model for a small dataset and these simple models get trained in much less time than tuning the pre-trained counterparts. We conclude that the performance of a model is dependent on the task and the data, and therefore before making a model choice, these factors should be taken into consideration instead of directly choosing the most popular model.
研究の動機と目的
- 大規模な事前学習モデル(BERT)が、小さなデータセットで単純な LSTM を上回るかを評価する。
- データサイズの変化(25%–100%)に応じたモデル性能を評価する。
- 対話・意図分類タスクにおけるLSTMの最も簡潔で効果的なアーキテクチャを特定する。
提案手法
- 150の意図を含む小規模なチャットボットの意図分類データセットで、BERTとLSTMを訓練・比較する。
- データを25%〜100%のサブセットに分割して、小データ領域を模擬する。
- 学習率2e-5でBERTを微調整しファインチューニングする。LSTMはGlove埋め込みとAdam最適化子を用いて0.01の学習率でゼロから訓練する。
- 全体精度とin-scope精度を用いて評価し、全体精度を優先する。
- 50または100ニューロンの2層構成(1つの双方向層と1つの単方向層を含む)など、複数のLSTMアーキテクチャを試す。
実験結果
リサーチクエスチョン
- RQ1小規模コーパスでの意図分類において、事前学習済みのBERTモデルがLSTMを上回ることができるか?
- RQ2対話ドメインにおいて、データセットサイズ(25%から全データ)によってモデル性能はどのように変化するか?
- RQ3小さなデータセットで、単純なLSTMアーキテクチャがBERTを上回るのに十分か?
主な発見
- すべてのデータ分割において、最も単純なLSTMアーキテクチャ(1つの双方向層+1つの単方向層、各層50ニューロン)がBERTを上回った。
- テストセットでは、LSTMは70.08%の全体精度(69.65%のin-scope精度)を達成し、BERTは67.15%の精度を達成した。
- 統計検定の結果、LSTMとBERTの差は有意である(p < 0.008)。
- 小規模データでの精度差は大きく(25%データ時の相対差は16.21%)、データサイズが増えるにつれて縮小する(80%データ時は2.25%)。
- 最も単純なアーキテクチャのLSTMが検証セットでも最良を示し、最終的なテスト比較を導いた。
- BERTの性能優位性は、過剰適合の可能性により小規模データでは薄まる傾向にある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。