Skip to main content
QUICK REVIEW

[論文レビュー] Bootstrapping a Tagged Corpus through Combination of Existing Heterogeneous Taggers

Jakub Zavrel, Walter Daelemans|ArXiv.org|Jul 13, 2000
Natural Language Processing Techniques参考文献 11被引用数 24
ひとこと要約

本稿では、新しいコーパスに対して最小限の手動アノテーションデータで高精度な品詞タギングをブートストラップするため、異種のタギングツールと語彙的リソースを統合するスタッキングベースの手法、combi-bootstrapを提案する。多様なタギングツール(例:wotan、CELEX)の出力を2段目のメモリベースの学習者に特徴量として用いることで、最良の単一タギングツールに比べて最大44.7%の誤差削減を達成し、同じ小規模なアノテート済みサンプルで学習した個々のタギングツールやアンサンブルタギングツールを著しく上回る性能を発揮する。

ABSTRACT

This paper describes a new method, Combi-bootstrap, to exploit existing taggers and lexical resources for the annotation of corpora with new tagsets. Combi-bootstrap uses existing resources as features for a second level machine learning module, that is trained to make the mapping to the new tagset on a very small sample of annotated corpus material. Experiments show that Combi-bootstrap: i) can integrate a wide variety of existing resources, and ii) achieves much higher accuracy (up to 44.7 % error reduction) than both the best single tagger and an ensemble tagger constructed out of the same small training sample.

研究の動機と目的

  • 新しいコーパスの語彙的・構文的アノテーションのブートストラップ問題に取り組むこと。
  • タグセット間のマッピングに高コストな言語学的知識工学への依存を低減すること。
  • わずかな手動アノテート済みデータと多様な既存リソースを用いて、迅速に高精度なタギングツールを開発できることを可能にすること。
  • 異種のタギングツールと語彙的特徴量を統合することで、新しいタグセットにおいて単一またはアンサンブルタギングツールを上回る性能が得られるかどうかを検討すること。
  • 多様な低レベル表現(例:語形、タグ出力)を統合する際、スタッキングの有効性を評価すること。

提案手法

  • 本手法は、スタッキングアンサンブル学習アプローチを用い、複数の異種タギングツール(TNT、MAX、RUL、MBT)と語彙的特徴量(CELEX、Word)の出力を、2段目の分類器の入力特徴量として統合する。
  • 2段目の学習者は、IB1(TiMBLに実装された)メモリベースの学習アルゴリズムを用い、訓練データセット内で最も近い近傍のラベルに基づいて各語を分類する。
  • 2段目の学習者の訓練データは、9分割交差検証による各コンポーネントタギングツールの出力と、小規模なCGNコーパスサンプル(5k–20kトークン)からの手動アノテート済みゴールドスタンダードタグから構成される。
  • 特徴量入力には、各コンポーネントタギングツールの予測タグ、語形、CELEXによる曖昧な語彙的カテゴリが含まれる。
  • システムは新しいコーパスの小規模なサンプル(5k–20kトークン)で学習され、保留されたデータでテストされ、正確性と誤差削減を測定する。
  • 特徴量重み付けに顕著な改善が得られなかったため、このデータサイズではk=1の重みなし重複が十分であると考えられる。

実験結果

リサーチクエスチョン

  • RQ1スタッキングを用いて異種タギングツールと語彙的リソースを統合することで、最小限のアノテート済みデータで新しいコーパスにおけるタギング精度を著しく向上できるか?
  • RQ2wotan-1、wotan-2、wotan-liteなどの多様なタグセットとCELEXなどの語彙的特徴量を統合することで、単一タギングツールや単純アンサンブルよりも優れた性能が得られるか?
  • RQ3未知語に対して誤差削減がどの程度達成されるか、およびこれにより語彙的カバレッジに関する何を示唆するか?
  • RQ4性能向上の主な要因は誤差補正か、未知語の予測精度向上か?
  • RQ5この手法は、大規模な訓練データが不足する自然言語処理タスク(例:語義の意味づけの分類、構文解析)にも一般化可能か?

主な発見

  • すべての情報源(CGN、wotan、CELEX、Word)を統合した最良のcombi-bootstrapシステムは、20kトークンのテストセットで93.49%の正確性を達成し、最良の単一CGNタギングツールに比べて44.7%の誤差削減を実現した。
  • 未知語に対しては、5kトークンの時点で誤差削減が50.9%に達し、語彙的カバレッジの著しい向上を示した。
  • CELEXとWordは個別に弱い予測因子であったが、最終的な正確性に正の寄与を示し、特に未知語に対して顕著であった。
  • 同じ小規模なサンプルで学習した最良の単一タギングツールおよび同じコンポーネントタギングツールのアンサンブルを上回ったことから、従来のアンサンブル手法に比べてスタッキングの優位性が示された。
  • すべての情報源を統合した場合に最良の結果が得られ、より多様な特徴量がより良い性能をもたらすことを示したが、特徴量重み付けには顕著な向上が得られなかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。