Skip to main content
QUICK REVIEW

[論文レビュー] AlephBERT:A Hebrew Large Pre-Trained Language Model to Start-off your Hebrew NLP Application With

Amit Seker, Elron Bandel|arXiv (Cornell University)|Apr 8, 2021
Natural Language Processing Techniques参考文献 7被引用数 23
ひとこと要約

AlephBERT は、以前のヘブライ語モデルよりも大規模で多様なデータセットを用いてトレーニングされた、現代ヘブライ語向けの大規模な事前学習言語モデルであり、語彙素性分離、品詞タグ付け、固有表現認識、センチメント分析を含む主要な自然言語処理(NLP)タスクで最先端のパフォーマンスを達成している。mBERT やヘブライ語専用の HeBERT よりも優れていることから、語彙の拡大と広範な事前学習データの活用が、語彙素性が高くリソースが限られる言語にとって有効であることが示された。

ABSTRACT

Large Pre-trained Language Models (PLMs) have become ubiquitous in the development of language understanding technology and lie at the heart of many artificial intelligence advances. While advances reported for English using PLMs are unprecedented, reported advances using PLMs in Hebrew are few and far between. The problem is twofold. First, Hebrew resources available for training NLP models are not at the same order of magnitude as their English counterparts. Second, there are no accepted tasks and benchmarks to evaluate the progress of Hebrew PLMs on. In this work we aim to remedy both aspects. First, we present AlephBERT, a large pre-trained language model for Modern Hebrew, which is trained on larger vocabulary and a larger dataset than any Hebrew PLM before. Second, using AlephBERT we present new state-of-the-art results on multiple Hebrew tasks and benchmarks, including: Segmentation, Part-of-Speech Tagging, full Morphological Tagging, Named-Entity Recognition and Sentiment Analysis. We make our AlephBERT model publicly available, providing a single point of entry for the development of Hebrew NLP applications.

研究の動機と目的

  • 現代ヘブライ語(語彙素性が高くリソースが限られる言語)向けに大規模で高品質な事前学習言語モデルが不足しているという問題に対処すること。
  • ヘブライ語 NLP のためのオープンアクセスで標準化されたベンチマークとトレーニングデータの不足を克服すること。
  • 複数のヘブライ語 NLP タスクで最先端のパフォーマンスを実現する統一的かつ公開可能なベースラインモデルを確立すること。
  • 多様な既存のベンチマークと一貫した評価プロトコルを用いて、将来のヘブライ語 PLM のための標準化された評価フレームワークを提供すること。
  • 大規模な事前学習データと語彙サイズが、NER や語彙素性タグ付けのような下流タスクのパフォーマンスに顕著に与える影響を実証すること。

提案手法

  • OSCAR コーパス、Wikipedia、Twitter データの組み合わせを用いて、以前のモデルよりも顕著に大きなヘブライ語テキスト量を活用して、大規模な BERT ベースのモデル、AlephBERT をトレーニングすること。
  • ヘブライ語の語彙素性の複雑さをよりよく捉えるために、52,000 の語彙サイズを採用。これは HeBERT の 30,000 よりも大きく、mBERT の 120,000 に近いが、そのうちヘブライ語固有の語彙はたった 2,450 項目である。
  • 既存のベンチマークを用いて、語彙素性分離、品詞タグ付け、完全な語彙素性タグ付け、NER、センチメント分析を含む複数のヘブライ語 NLP タスクで AlephBERT を微調整すること。
  • SPMRL、ヘブライ語 UD、Ben Mordecai & Elhadad、Bareket & Tsarfaty、Facebook センチメント データセットを含む、複数のデータセットとアノテーション方式でパフォーマンスを評価すること。
  • 語彙素性分離と NER を同時に最適化するマルチタスク学習の設定を実装し、全体のパフォーマンスを向上させること。
  • Hugging Face を通じてモデルを公開するとともに、インタラクティブなデモを提供し、複数のモデル間でのマスキング言語モデル予測の定性的な比較を可能にすること。

実験結果

リサーチクエスチョン

  • RQ1語彙素性が高くリソースが限られる言語としてのヘブライ語において、より大規模な事前学習言語モデルが、複数の NLP タスクで最先端のパフォーマンスを達成できるか?
  • RQ2事前学習コーパスと語彙サイズの拡大が、語彙素性タグ付けや NER のような語彙素性が複雑なタスクのパフォーマンスに与える影響は何か?
  • RQ3モデルの深さ(層の数)と事前学習データ量が、現代ヘブライ語のような低リソース環境における下流タスクのパフォーマンスに与える影響はどの程度か?
  • RQ4統一的で公開可能なモデルが、将来のヘブライ語 NLP の研究とアプリケーション開発のための信頼できるベースラインとして機能できるか?
  • RQ5異なる入力表現戦略と語の分解手法が、ヘブライ語 PLM のパフォーマンスに与える影響は何か?

主な発見

  • AlephBERT-base は、語彙素性分離、品詞タグ付け、語彙素性タグ付け、NER、センチメント分析を含む、評価されたすべてのヘブライ語 NLP タスクで最先端の結果を達成した。
  • AlephBERT-base は、すべてのベンチマークで mBERT や HeBERT を上回った。特に NER のパフォーマンス向上が顕著で、意味的・語彙素性構造の捉えがより優れていることが示された。
  • モデルのパフォーマンスは語彙素性分離の品質と強く相関しており、より良い語彙素性分離が、より良い NER 結果をもたらすことがわかった。
  • HeBERT は AlephBERT-small よりも層数(12 層)が多いにもかかわらず、AlephBERT-small よりもパフォーマンスが優れていた。これは、十分な事前学習データがなければ、層の深さだけでは不十分であることを示唆している。
  • AlephBERT-base は、HeBERT よりも 10 倍以上大きなデータセットでトレーニングされており、類似したアーキテクチャでも優れたパフォーマンスを達成した。これは、データ規模の影響が顕著であることを示している。
  • 語彙素性分離と NER の共同マルチタスク学習設定が最も優れた結果をもたらし、AlephBERT-base はパイプライン(オラクルおよび予測分離)および MTL の両設定で最高スコアを記録した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。