Skip to main content
QUICK REVIEW

[論文レビュー] Comparing BERT against traditional machine learning text classification

Santiago González-Carvajal, Eduardo C. Garrido‐Merchán|arXiv (Cornell University)|May 26, 2020
Topic Modeling参考文献 31被引用数 186
ひとこと要約

本論文は、4つの言語タスクを横断してBERTとTF-IDFベースの伝統的機械学習手法を経験的に比較し、BERTが一般により高い精度を達成し実装が容易であること、転移学習の利点を強調することを示している。

ABSTRACT

The BERT model has arisen as a popular state-of-the-art machine learning model in the recent years that is able to cope with multiple NLP tasks such as supervised text classification without human supervision. Its flexibility to cope with any type of corpus delivering great results has make this approach very popular not only in academia but also in the industry. Although, there are lots of different approaches that have been used throughout the years with success. In this work, we first present BERT and include a little review on classical NLP approaches. Then, we empirically test with a suite of experiments dealing different scenarios the behaviour of BERT against the traditional TF-IDF vocabulary fed to machine learning algorithms. Our purpose of this work is to add empirical evidence to support or refuse the use of BERT as a default on NLP tasks. Experiments show the superiority of BERT and its independence of features of the NLP problem such as the language of the text adding empirical evidence to use BERT as a default technique to be used in NLP problems.

研究の動機と目的

  • BERTがTF-IDFベースの伝統的NLPアプローチよりもテキスト分類で経験的利点を提供するかを評価する。
  • 複数の言語にわたりBERTの言語独立性を評価する。
  • 従来のパイプラインと比較して、BERTの実用性と実装の容易さを実証する。
  • 低リソースまたは多言語設定における転移学習の効果について洞察を提供する。

提案手法

  • ktrainを用いた事前学習済みのBERTモデルを、さまざまな伝統的ML分類器に入力したTF-IDF語彙と比較する。
  • 異なる言語と分類タスクを持つ4つのデータセットを使用する。
  • 基準競合として標準的なMLモデルとTF-IDFを用いる。
  • いくつかの実験でAutoMLツール(Predictor, H2OAutoML)を活用して優れた伝統的モデルを選択する。
  • 文脈のためにBERTのアーキテクチャと事前学習/微調整のワークフローを説明する。

実験結果

リサーチクエスチョン

  • RQ1複数の言語とドメインに跨って、BERTはTF-IDFベースの伝統的ML手法を上回るか?
  • RQ2言語とデータセットサイズの変動に対してBERTの性能は頑健か?
  • RQ3低リソースまたは多言語のテキスト分類タスクにおける転移学習が性能に与える影響はどの程度か?
  • RQ4BERTの実装の容易さと伝統的なNLPパイプラインの構築を比較したときの相対的な容易さは?

主な発見

  • IMDB感情分析では、BERTが0.9387の精度を達成し、Voting Classifier (0.9007) や Logistic Regression (0.8949) および Linear SVC (0.8989) などの他のベースラインを上回る。
  • RealOrNotのツイートでは、BERTは0.8361の精度(Kaggleスコア0.83640)を達成する一方、最良のH2OAutoMLモデルは0.7875の精度(Kaggle0.77607)である。
  • ポルトガル語ニュースでは、BERTは0.9093の精度(Kaggle 0.91196)を達成するのに対し、GradientBoostingClassifierは0.85047 Kaggleである。
  • 中国語のホテルレビューでは、BERTは0.9381の精度を達成する一方、Predictor (auto_ml) は0.7399を記録する;従来の最良モデルはGradientBoostingClassifierである。
  • 4つの実験を通じて、BERTは一般的に従来のTF-IDFベースのアプローチを上回り、BERTの実装はより容易であると報告されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。