QUICK REVIEW

[論文レビュー] Noun Phrase Recognition by System Combination

Erik F. Tjong Kim Sang|arXiv (Cornell University)|May 10, 2000

Natural Language Processing Techniques参考文献 13被引用数 55

ひとこと要約

本稿では、複数のデータ表現（例：IOBタギングや括弧構造）を用いて1つのメモリベース分類器（ib1-ig）を学習し、多数決投票によって結果を統合する、名詞句認識のためのシステム結合手法を提案する。この手法は、標準的なベース名詞句および任意の名詞句認識データセットで最先端の性能を達成し、最良の個別分類器よりも最大19%の誤差低減を実現し、ベースNPsではF1スコア92.8%、任意NPsでは83.0%に達する。

ABSTRACT

The performance of machine learning algorithms can be improved by combining the output of different systems. In this paper we apply this idea to the recognition of noun phrases.We generate different classifiers by using different representations of the data. By combining the results with voting techniques described in (Van Halteren et.al. 1998) we manage to improve the best reported performances on standard data sets for base noun phrases and arbitrary noun phrases.

研究の動機と目的

異なるデータ表現で学習された複数の分類器を統合することで、名詞句認識の性能が向上するかを調査すること。
特に多数決投票を含むシステム結合技術が、ベース名詞句および任意の名詞句認識の性能向上に寄与するかを評価すること。
多様なデータ表現を用いたメモリベース学習が、ベンチマークデータセットにおいて単一表現モデルを上回る性能を発揮するかを検証すること。
調整データを必要としない投票戦略の有効性を評価し、トレーニングデータを完全に活用できるようにすること。
バギングや遺伝的スタイルのデータ拡張などの代替結合手法が、さらに性能向上をもたらすかを検討すること。

提案手法

IOB1, IOB2, IOE1, IOE2タギング方式および括弧ベース（O+C）表現といった複数のデータ表現を用いて、1つのメモリベース分類器（ib1-ig）を学習する。
ib1-igアルゴリズムを適用し、トレーニングデータ内の最近傍の類似度に基づいて、特徴距離の重みを考慮して新しいインスタンスを分類する。
5つの異なる分類器（1つの表現ごとに1つ）の出力を多数決投票することで、最終的な名詞句予測を生成する。
ib1-igのigtree意思決定木バージョンを組み合わせ実験に用い、学習アルゴリズムごとの性能を比較する。
ベースNPおよび任意NPタスクの両方において、トレーニングにPenn Treebank WSJのセクション15–18、テストにセクション20を使用する。
Ramshaw & Marcus (1995) および CoNLL-99 の標準ベンチマークデータセットを用いて、F1スコア（β=1）を最適化し、精度と再現率の指標に基づいて評価する。

実験結果

リサーチクエスチョン

RQ1異なるデータ表現で学習された分類器を統合することで、最良の個別分類器を上回る名詞句認識の性能が達成可能か？
RQ2調整データを必要としない多数決投票が、名詞句チャンクングにおけるシステム結合のための堅牢で効果的な手法であるか？
RQ3IOBと括弧構造の異なるデータ表現は、分類器の性能や統合効果においてどのように比較されるか？
RQ4名詞句認識の文脈において、部分品詞タギングの事例と同様に、システム結合技術が誤り率を顕著に低減できるか？
RQ5バギングや遺伝的スタイルのデータ生成といった代替的結合戦略は、表現ベースの結合よりも効果的か？

主な発見

Ramshaw & MarcusのベースNPsデータセットにおいて、5つの異なるデータ表現に対する多数決投票により、最良個別分類器のF1スコア92.0%を上回る91.86%のF1スコアを達成した。
システム結合手法により、ベース名詞句認識タスクでF1スコア92.8%という新たな最先端水準を達成し、XTAG1998が報告した92.4%を上回った。
任意名詞句認識においては、CoNLL-99データセットでF1スコア83.0%を達成し、統合なしの前回の結果82.98%を上回った。
多数決投票による分類器の統合により、最良のコンponent分類器の誤り率が最大19%まで低減され、部分品詞タギングの研究結果と一貫した。
O+C括弧表現に最短フレーズ選択を組み合わせた手法が、IOBスタイルのタギング方式を上回り、Muñozら（1999）の先行研究を裏付けた。
ib1-igを用いた場合、バギングや遺伝的スタイルのデータ拡張といった代替的結合戦略は、最良個別分類器の性能を上回る効果を示さなかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。