QUICK REVIEW

[論文レビュー] Toward Fast and Accurate Neural Chinese Word Segmentation with Multi-Criteria Learning

Wěipéng Huáng, Xingyi Cheng|arXiv (Cornell University)|Mar 11, 2019

Natural Language Processing Techniques参考文献 36被引用数 34

ひとこと要約

ドメイン特有および共有プロジェクションを備えたBERTベースの多基準中国語単語分割モデルを提案し、蒸留、量子化、コンパイラ最適化を追加して、10データセット全体でSOTA成果と高速デコードを実現します。

ABSTRACT

The ambiguous annotation criteria lead to divergence of Chinese Word Segmentation (CWS) datasets in various granularities. Multi-criteria Chinese word segmentation aims to capture various annotation criteria among datasets and leverage their common underlying knowledge. In this paper, we propose a domain adaptive segmenter to exploit diverse criteria of various datasets. Our model is based on Bidirectional Encoder Representations from Transformers (BERT), which is responsible for introducing open-domain knowledge. Private and shared projection layers are proposed to capture domain-specific knowledge and common knowledge, respectively. We also optimize computational efficiency via distillation, quantization, and compiler optimization. Experiments show that our segmenter outperforms the previous state of the art (SOTA) models on 10 CWS datasets with superior efficiency.

研究の動機と目的

複数のCWSデータセットにわたる多様な分割基準をとらえ、それらの共有知識を活用する。
CWSのためにBERTを通じてオープンドメイン知識を統合する。
投影層を介してドメイン特有の知識と共有知識を区別し、多基準学習を改善する。
蒸留、量子化、コンパイラ最適化によって推論を加速する。

提案手法

入力中国語文字の特徴抽出器としてBERTを用いる。
CRFの前にドメインプロジェクション層を追加してデータセット固有の基準をモデル化し、共通知識のための共有プロジェクション層を追加する。
ドメイン固有表現と共有表現を結合し、一階CRFに入力してタグ推定(B/M/E/S)を行う。
すべてのデータセットに対して結合目的関数で訓練し、多基準学習を可能にする。
12層のteacher BERTから小型のstudent Transformer（3層または6層）へ知識蒸留を適用し、分割と蒸留損失を組み合わせた損失で訓練する。
選択されたコンポーネントでFP16量子化を適用して速度を向上させ、XLAコンパイラ最適化を用いて演算を融合し実行を速める。

実験結果

リサーチクエスチョン

RQ1異なる注釈粒度を持つ異種データセットに対して、ドメイン特異と共有プロジェクションを用いた多基準学習はCWSを改善できるか？
RQ2従来のニューラルモデルと比較して、BERTをバックボーンとして活用することはCWSに顕著な利得をもたらすか？
RQ3蒸留、量子化、コンパイラ最適化は実際に精度とデコード速度にどの程度影響するか？
RQ4この設定で精度と効率の良好なトレードオフを得る最適なトランスフォーマ層数は何か？

主な発見

提案モデルは10のCWSデータセットで従来のSOTAを上回る。
ドメインプロジェクション層を備えた多基準学習は、単一基準訓練に比べ一貫してF1を向上させる（平均 +2.3% F1、+9.4% OOV recall）。
3層のstudent Transformerを使用（12層のteacherからの蒸留あり）で、精度と速度のバランスが良好になる（12層teacherからの平均低下は小さい）。
量子化（FP16）とコンパイラ最適化（XLA）は精度低下がごくわずかでデコード速度をさらに向上させ、SOTA性能を維持する。
多基準学習を採用するとデータセット全体でOOV recallが大幅に改善される（いくつかのデータセットでは約9-10ポイントの改善例）。
視覚化分析は、BERTの中間層が最もCWS関連情報を提供し、構文知識に関する言語学的知見と一致することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。