Skip to main content
QUICK REVIEW

[論文レビュー] Improving Sequence Tagging for Vietnamese Text Using Transformer-based Neural Models

Viet Bui The, Oanh Tran Thi|arXiv (Cornell University)|Jun 29, 2020
Natural Language Processing Techniques参考文献 21被引用数 25
ひとこと要約

本稿では、ベトナム語の系列タギングのための注意メカニズムを備えたRNNで微調整された多言語BertおよびELECTRAベースのモデル、viBERTおよびvELECTRAを提案する。大規模なベトナム語コーパスを用いたより良い微調整と事前学習により、POSタギングでVLSP 2010で95.40%の正確度、VLSP 2013で96.77%、NERでVLSP 2016で94.07%のF1スコア、VLSP 2018で90.31%のF1スコアを達成し、最先端の結果を実現。コードとモデルはオープンソースで公開されている。

ABSTRACT

This paper describes our study on using mutilingual BERT embeddings and some new neural models for improving sequence tagging tasks for the Vietnamese language. We propose new model architectures and evaluate them extensively on two named entity recognition datasets of VLSP 2016 and VLSP 2018, and on two part-of-speech tagging datasets of VLSP 2010 and VLSP 2013. Our proposed models outperform existing methods and achieve new state-of-the-art results. In particular, we have pushed the accuracy of part-of-speech tagging to 95.40% on the VLSP 2010 corpus, to 96.77% on the VLSP 2013 corpus; and the F1 score of named entity recognition to 94.07% on the VLSP 2016 corpus, to 90.31% on the VLSP 2018 corpus. Our code and pre-trained models viBERT and vELECTRA are released as open source to facilitate adoption and further research.

研究の動機と目的

  • 多言語BertおよびELECTRAアーキテクチャを用いて、ベトナム語の系列タギング性能を向上させること。
  • 大規模な単語語彙コーパス上で、専用のベトナム語言語モデル(viBERTおよびvELECTRA)を開発および事前学習すること。
  • より良い系列モデリングを実現するために、線形層の代わりに注意メカニズムを備えたRNNを用いて微調整戦略を強化すること。
  • 標準的なベトナム語POSタギングおよびNERベンチマークデータセットで最先端の結果を達成すること。
  • 今後のベトナム語NLP研究を支援するために、オープンソースのコードおよび事前学習済みモデルを公開すること。

提案手法

  • 多言語BertおよびELECTRAアーキテクチャを用いて、10GBおよび60GBの圧縮解除済みのベトナム語テキストでviBERTおよびvELECTRAを事前学習する。
  • Bertスタイルの事前学習ではワード単位マスキングを、ELECTRAスタイルの事前学習では置換トークン検出を用いて表現学習を向上させる。
  • 系列タギングのための微調整において、単純な線形層の代わりに自己注意メカニズムを備えたbiLSTMまたはbiGRUを用いる。
  • 最大256トークンのシーケンス長まで対応する学習済み位置埋め込みを適用し、##サブワードユニットを用いたWordPieceトークン化を実施。
  • Adam最適化法を用い、β1 = 0.9、β2 = 0.999、ϵ = 1e−6、重み減衰を0.01に設定。
  • VLSP 2010および2013(POSタギング)およびVLSP 2016および2018(NER)データセットを、正確度およびF1スコアを用いて評価。

実験結果

リサーチクエスチョン

  • RQ1注意メカニズムを備えたRNNでBERTおよびELECTRAを微調整することで、ベトナム語の系列タギング性能が著しく向上するか?
  • RQ2多言語mBERTと比較して、大規模な単語語彙のベトナム語コーパスで事前学習することで、下流の系列タギングタスクにどのような影響を与えるか?
  • RQ3ELECTRAの置換トークン検出目的が、ベトナム語NLPタスクにおいてBERTのマスキング言語モデル目的を上回るか?
  • RQ4事前学習済みモデルと組み合わせた場合、系列タギングアーキテクチャ(例:biLSTM、biGRU、注意メカニズム)の違いがモデル性能に与える影響は何か?
  • RQ5提案されたモデルは、標準的なベトナム語ベンチマークデータセット(POSタギングおよびNER)で最先端の結果を達成できるか?

主な発見

  • 提案されたvELECTRAモデルは、VLSP 2010のPOSタギングデータセットで95.40%の正確度を達成し、前回の最先端結果を2ポイント以上上回った。
  • VLSP 2013のPOSタギングデータセットでは、96.77%の正確度を達成し、新たな最先端結果を樹立した。
  • VLSP 2016のNERデータセットでは、最高性能を示したモデルが94.07%のF1スコアを達成し、従来手法を著しく上回った。
  • VLSP 2018のNERデータセットでは、90.31%のF1スコアを達成し、mBERTおよびviBERTと比較して3%の改善を達成した。
  • VLSP 2018のNERデータセットでは、注意メカニズムを備えたbiGRUアーキテクチャが最良の性能を示したが、VLSP 2016では注意メカニズムを備えたbiLSTMが最良であった。
  • デコード時間は実用的であり、vELECTRAが最も高速なモデルであった。FPT.AIでは現在、3000万人以上のユーザーを対象に本システムが本番環境で運用されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。