QUICK REVIEW

[論文レビュー] Marmara Turkish Coreference Corpus and Coreference Resolution Baseline

Peter Schüller, Kübra Cıngıllı|arXiv (Cornell University)|Jun 6, 2017

Natural Language Processing Techniques被引用数 5

ひとこと要約

本稿では、10人以上の独立したアノテーターによる文書ごとのアノテーションを複数回実施した2段階のアノテーションプロセスを経て作成された、トルコ語における最初の大規模で手作業でアノテートされた共参照コーパス「Marmara Turkish Coreference Corpus」を紹介する。このアノテーション密度のおかげで、完全に自動化された妥当性決定が可能である。また、トルコ語の mention 検出および共参照解決のためのベースラインシステムを提示し、交差検証法（leave-one-out）を用いた評価で F1 スコア 68.7% を達成した。これはトルコ語 NLP 研究の基盤となるリソースである。

ABSTRACT

We describe the Marmara Turkish Coreference Corpus, which is an annotation of the whole METU-Sabanci Turkish Treebank with mentions and coreference chains. Collecting eight or more independent annotations for each document allowed for fully automatic adjudication. We provide a baseline system for Turkish mention detection and coreference resolution and evaluate it on the corpus.

研究の動機と目的

トルコ語という屈曲語の特徴を考慮し、その分類に欠けたアノテーションリソースを埋めるために、最初の大規模で公開可能な共参照コーパスの作成。
文書ごとに複数の独立したアノテーションを収集することで、高いアノテーター間一致度を達成する強固なアノテーションプロトコルの開発。
高いアノテーション密度を活かして、投票に基づく手法により完全に自動化された妥当性決定を可能にする。
コーパス形式と互換性を持つ mention 検出および共参照解決のためのベースラインシステムの提供。
公開リポジトリを通じてコーパス、ツール、ベースラインシステムを公開し、トルコ語 NLP 領域における今後の研究を支援する。

提案手法

2段階のアノテーションプロセスを実施：第1段階では mention と共参照チェーンの作成を実施したが、一致度が低く、第2段階では共参照チェーンのみをアノテートした。
文書1件あたり10件以上の独立したアノテーションを収集し、複数のアノテーションに基づく投票方式を用いた自動妥当性決定を可能にした。
ドキュメント、文、トークン、mention、共参照チェーンを表現できる XML 形式のコーパスフォーマットを設計し、METU-Sabanci Turkish Treebank とのアラインメントを維持した。
ルールベースと教師あり学習を組み合わせた手法を用いて、mention 検出および共参照解決のためのベースラインシステムを開発し、コーパス上で学習および評価した。
ベースラインシステムの性能を全コーパス上で評価するために、leave-one-out 交差検証戦略を実装した。
既存の NLP ツールキットとの広範な互換性を実現するため、XML コーパスを CoNLL 形式に変換するためのツールを提供した。

実験結果

リサーチクエスチョン

RQ1その語彙的複雑さと格助詞の欠如により、トルコ語の共参照アノテーションを信頼性高く生成するにはどうすればよいか？
RQ2十分なアノテーション密度が確保された場合、自動妥当性決定は人間の合意に代わって共参照コーパス作成に利用可能か？
RQ3標準的な評価プロトコルを用いた場合、新しく作成された Marmara Turkish Coreference Corpus でベースラインシステムが達成できる性能はどの程度か？
RQ4OntoNotes や ACE といった既存の多言語共参照コーパスと比較して、Marmara Turkish Coreference Corpus の構造的特徴とアノテーション品質はどのように異なるか？
RQ5屈曲語としてのトルコ語における共参照解決の主な課題は何か。また、インドラ＝ヨーロッパ語と比べてどのような点で異なるか？

主な発見

Marmara Turkish Coreference Corpus には1,000件以上のドキュメントにわたり10万件を超える mention が含まれており、文書1件あたり10件以上の独立したアノテーションが存在し、完全に自動化された妥当性決定が可能である。
複数のアノテーションに基づく投票機構を用いた自動妥当性決定ツールは、人為的妥当性決定よりも著しく高い一貫性を達成した。
ベースラインシステムは、leave-one-out 交差検証を用いて F1 スコア 68.7% を達成し、今後の手法の強力なベンチマークを確立した。
XML 形式で公開されたコーパスに加え、CoNLL 形式への変換ツールも提供され、既存の NLP パイプラインへの統合が可能である。
本研究では、スケーラブルな複数アノテーターのワークフローを用いることで、語彙的に豊富で屈曲語としての特徴を有するトルコ語に対しても、高品質な共参照アノテーションが可能であることが示された。
結果から、空の代名詞、曖昧な語尾接尾語、性別マーカーの欠如といった要因により、トルコ語の共参照解決は依然として困難であることが明らかになった。これにより、専用のモデル開発の必要性が強調された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。