QUICK REVIEW

[論文レビュー] Unsupervised Domain Adaptation of Contextualized Embeddings: A Case Study in Early Modern English.

Xiaochuang Han, Jacob Eisenstein|arXiv (Cornell University)|Apr 4, 2019

Topic Modeling被引用数 15

ひとこと要約

この論文では、自己注意型文脈埋め込み（例：BERT）を、低リソースでドメインが異なるテキスト（特にルネサンス英語およびTwitter）に適応させるためのドメイン適応的微調整を提案する。具体的には、マスクされた言語モデル化を用いて、ターゲットドメインのラベルなしテキストで事前学習を継続することで、文脈に依存する埋め込みを適応させる。この手法は、特に未知語彙語の処理において顕著な性能向上を示し、ターゲットドメインにラベル付きデータが不要である点を除き、標準的なBERTベースラインを上回る。

ABSTRACT

Contextualized word embeddings such as ELMo and BERT provide a foundation for strong performance across a wide range of natural language processing tasks by pretraining on large corpora of unlabeled text. However, the applicability of this approach is unknown when the target domain varies substantially from the pretraining corpus. We are specifically interested in the scenario in which labeled data is available in only a canonical source domain such as newstext, and the target domain is distinct from both the labeled and pretraining texts. To address this scenario, we propose domain-adaptive fine-tuning, in which the contextualized embeddings are adapted by masked language modeling on text from the target domain. We test this approach on sequence labeling in two challenging domains: Early Modern English and Twitter. Both domains differ substantially from existing pretraining corpora, and domain-adaptive fine-tuning yields substantial improvements over strong BERT baselines, with particularly impressive results on out-of-vocabulary words. We conclude that domain-adaptive fine-tuning offers a simple and effective approach for the unsupervised adaptation of sequence labeling to difficult new domains.

研究の動機と目的

標準的な事前学習コーパスとは大きく異なるドメインに、事前学習済みの文脈的埋め込みを適用する課題に対処すること。
ニューステキストのようなソースドメインでのみラベル付きデータが利用可能であり、ターゲットドメインが明確に異なりかつリソースが限られている状況における無教師ドメイン適応を検討すること。
ルネサンス英語やTwitterなど、標準的なBERTモデルがドメインシフトのため性能を発揮できない困難なドメインにおける序列分類の性能を向上させること。
ターゲットドメインのラベルなしテキストに対してドメイン適応的微調整を適用することで、ターゲットドメインのラベル付きデータが不要な状況でも、文脈的埋め込みを効果的に適応できるかどうかを評価すること。

提案手法

BERT風の文脈的埋め込みを、マスクされた言語モデル化を用いてターゲットドメインのラベルなしテキストでさらに事前学習することで、ドメイン適応的微調整を提案する。
BERTと同一のアーキテクチャを採用するが、ルネサンス英語の手書き文書やTwitter投稿など、ドメイン固有のテキストで継続的な事前学習を実施する。
大規模なラベルなしターゲットドメインコーパスを用いて、モデルをトレーニングし、ドメイン固有の言語的パターンに文脈的表現を適応させる。
ラベル付きターゲットデータでの微調整なしに、名前付きエンティティ抽出や品詞タグ付けなどの序列分類タスクに適応済み埋め込みを適用する。
初期のBERT事前学習にのみソースドメインのラベル付きデータを使用し、ターゲットドメインにラベル付きデータを一切使用しない状況で、下流の序列分類タスクの性能を評価する。
ドメイン適応的微調整の影響を明確にするために、標準的なBERTベースラインとドメイン適応モデルを比較する。

実験結果

リサーチクエスチョン

RQ1ドメイン適応的微調整は、ルネサンス英語やTwitterのような低リソースドメインにおける序列分類性能を向上させることができるか？
RQ2ターゲットドメインのテキストに対してマスクされた言語モデル化を用いた文脈的埋め込みの無教師適応は、標準的なBERT微調整よりも優れた一般化性能をもたらすか？
RQ3ドメイン適応的微調整は、困難なドメインにおける未知語彙語の性能にどのように影響を与えるか？
RQ4事前学習ドメインとターゲットドメインとの間のドメインシフトが、標準的なBERTモデルの性能をどの程度制限するか？
RQ5ターゲットドメインにラベル付きデータが一切ない状況でも、ドメイン適応的微調整は有効であるか？

主な発見

ドメイン適応的微調整は、ルネサンス英語およびTwitterの両ドメインにおいて、強力なBERTベースラインを顕著に上回る性能向上を達成する。
未知語彙語の処理において特に顕著な向上が見られ、珍しいまたは未学習の形態への一般化能力が向上していることが示唆される。
両ドメインにわたり一貫した性能向上が得られており、多様な言語的シフトに対しても本手法の頑健性が確認される。
ターゲットドメインのラベル付きデータが一切不要である点を除き、この向上を達成しており、低リソース環境に適している。
ターゲットドメインのテキストに対してマスクされた言語モデル化を用いて文脈的埋め込みを適応させる手法は、無教師ドメイン適応において効果的でシンプルな戦略であると確認された。
本研究は、ターゲットドメインにラベル付きデータが利用できない状況において、ドメイン適応的微調整が監視付き微調整の代替として実用的かつ効果的であることを確立した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。