Skip to main content
QUICK REVIEW

[論文レビュー] Glyce: Glyph-vectors for Chinese Character Representations

Yuxian Meng, Wei Wu|arXiv (Cornell University)|Jan 29, 2019
Natural Language Processing Techniques参考文献 70被引用数 147
ひとこと要約

Glyceは歴史的な中国文字の書体と特殊な Tianzige-CNN を用いて字形ベースの文字表現を導入し、補助の画像分類目的と任意の BERT との統合を組み合わせることで、複数の中国語NLPタスクで最先端の結果を達成する。

ABSTRACT

It is intuitive that NLP tasks for logographic languages like Chinese should benefit from the use of the glyph information in those languages. However, due to the lack of rich pictographic evidence in glyphs and the weak generalization ability of standard computer vision models on character data, an effective way to utilize the glyph information remains to be found. In this paper, we address this gap by presenting Glyce, the glyph-vectors for Chinese character representations. We make three major innovations: (1) We use historical Chinese scripts (e.g., bronzeware script, seal script, traditional Chinese, etc) to enrich the pictographic evidence in characters; (2) We design CNN structures (called tianzege-CNN) tailored to Chinese character image processing; and (3) We use image-classification as an auxiliary task in a multi-task learning setup to increase the model's ability to generalize. We show that glyph-based models are able to consistently outperform word/char ID-based models in a wide range of Chinese NLP tasks. We are able to set new state-of-the-art results for a variety of Chinese NLP tasks, including tagging (NER, CWS, POS), sentence pair classification, single sentence classification tasks, dependency parsing, and semantic role labeling. For example, the proposed model achieves an F1 score of 80.6 on the OntoNotes dataset of NER, +1.5 over BERT; it achieves an almost perfect accuracy of 99.8\% on the Fudan corpus for text classification. Code found at https://github.com/ShannonAI/glyce.

研究の動機と目的

  • logographic Chinese NLPタスクのための象形的、字形ベースの情報の利用を動機づける。
  • Glyceを提案する:多 Script の歴史的画像から派生した字形埋め込み。
  • Tianzige-CNN(田字格)を用いて小さな文字画像と複数のスクリプトに適合したCNNアーキテクチャを開発する。
  • マルチタスク設定における補助的な画像分類目的によって一般化を強化する。
  • BERTとの潜在的な統合によって、タグ付け、分類、パーシング、SRLタスクにおいて最先端の性能を示す。

提案手法

  • 中国の文字を画像として表現し、Tianzige-CNN(田字格)を用いて字形埋め込みを抽出する。小さな文字画像と過剰適合を抑えるためのグループ畳み込みを取り入れる。
  • 銀幕を豊かにするために、歴史的書体(青銅器、印章、隷書、楷書、草書など)と複数の書体スタイルのアンサンブルを使用して字形信号を強化する。
  • 文字IDを予測する画像分類の補助目的を適用し、トレーニングを通じて減衰する重みで一般化を改善する。
  • 任意に Glyce-BERT パイプラインを作成し、字形出力をBERT表現と融合させ、トランスフォーマー層で処理することでBERTとの統合を実現する。
  • 下流タスク(シーケンスラベリング、単/文ペア分類、パーシング、SRL)に対して、連結した字形とBERT埋め込みに対してタスク固有の出力層(多くはトランスフォーマー)を用いる。
  • diverseな中国語NLPタスクで評価し、非-BERTベースライン、BERT、他の最先端モデルと比較する。

実験結果

リサーチクエスチョン

  • RQ1歴史的な中国文字の書体から派生した字形ベースの表現は、従来の文字/語埋め込みと比較して下流のNLPタスクの性能を向上させるか。
  • RQ2小さな文字画像の字形情報をより良く捉える専門的な Tianzige-CNN アーキテクチャは標準CNNより優れているか。
  • RQ3画像分類目的を伴うマルチタスク学習は字形埋め込みの一般化を改善するか。
  • RQ4glyce-BERTの統合はタグ付け、分類、パーシング、SRLタスクで最先端の結果をもたらすか。
  • RQ5glyce表現を使用する際のトレーニング戦略とCNNアーキテクチャは性能にどのような影響を与えるか。

主な発見

  • Glyce+BERTは複数のデータセットとタスクで最先端の結果を達成し、しばしばBERT単独を上回る(例:Table 2のNER OntoNotes F1が81.63対79.16)。
  • GlyceベースのモデルはCWS、POS、NERデータセットで強力な結果を達成し、Glyce+BERTが試験された構成の中で一般に最高の性能を提供。
  • 文ペア分類では、Glyce+BERTがBQ、LCQMC、XNLI、NLPCC-DBQAのベンチマークで新しいSOTAを達成(Table 5)。
  • 単一文分類では、Glyce+BERTが傅大陸のコーパスでほぼ完璧に近い精度を達成(99.8%)し、ChnSentiCorp、傅大陸コーパス、iFengでLSTM/Glyceベースラインを上回る(Table 6)。
  • 依存構文解析では、Glyce-wordが前世代のSOTAモデルより約0.8–0.9ポイントのUAS/LASを改善(Table 7)。
  • SRLでは、k-order pruningバックボーンを用いたGlyceが現行SOTAを+0.8 F1で上回る(83.7 F1、Table 7)。
  • アブレーション研究は以下を示す:(i)BERT-glyce-joint戦略が他の戦略を上回る;(ii)トランスフォーマーベースのタスク固有出力がBiLSTM/CNN/BiMPMより優れる;(iii)画像分類の補助目的は性能を約+0.8程度加える;(iv)Tianzige-CNN構造は素のCNNより顕著な+1.0 F1のブーストを提供(Tables 8–11)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。