[論文レビュー] Mining Naturally-occurring Corrections and Paraphrases from Wikipedia's Revision History
WiCoPaCo は Wikipedia の改訂履歴から局所的に編集された書換の大規模コーパスで、綴り訂正とパラフレーズ生成の研究・応用を可能にします。豊富なメタデータを含む文脈内修正ペアを提供し、フランス語に焦点を当てたデータセットから始まります。
Naturally-occurring instances of linguistic phenomena are important both for training and for evaluating automatic processes on text. When available in large quantities, they also prove interesting material for linguistic studies. In this article, we present a new resource built from Wikipedia's revision history, called WiCoPaCo (Wikipedia Correction and Paraphrase Corpus), which contains numerous editings by human contributors, including various corrections and rewritings. We discuss the main motivations for building such a resource, describe how it was built and present initial applications on French.
研究の動機と目的
- NLP アプリケーションのために、Wikipedia の改訂から局所的に発生する大規模な書換資源を作成する。
- 綴り訂正、パラフレーズ生成、および関連タスクの研究と評価を可能にする。
- 監視学習と評価を支援するメタデータと文脈を提供する。
- データの有用性を示すためにフランス語での初期利用を実証する。
提案手法
- 最長共通部分列を用いて連続する Wikipedia バージョン間の差分を計算することで局所的な修正を抽出する。
- 書換 span を最大7語に制限し、テキストを正規化する(デ・ウィキ化、トークン化)。
- 意味を変える編集や句読点のみの編集を除外する手作業のフィルタリング規則を適用し、段落全体の文脈を記録する。
- 文脈、元のスパンと修正済みスパン、ユーザー情報を含む Wikipedia 識別子を格納する;ボット編集は除外する。
- 注釈と再利用のための一意の修正識別子を含む XML を出力する。
- フランス語データを用いた綴り訂正とパラフレーズ生成の分析による応用を示す。
実験結果
リサーチクエスチョン
- RQ1Wikipedia の改訂履歴は NLP タスクに適した大規模で自然発生的な書換を生み出せるか?
- RQ2コーパス内で支配的な局所的書換(綴り訂正、パラフレーズなど)は何で、それらはどのように特徴づけられるか?
- RQ3実際には、綴り訂正とパラフレーズ生成の資源として WiCoPaCo はどれほど有効か?
- RQ4他言語・他のウィキでも方法論を再現して多言語資源を構築できるか?
主な発見
| 非語エラー: 提案数 | 非語エラー: 訂正 | 実語エラー: 提案数 | 実語エラー: 訂正 | |
|---|---|---|---|---|
| hunspell | 4.5 | 95.0% | 8.6 | 65.1% |
| リスト | 1.3 | 58.7% | 8.3 | 75.7% |
| パターン | 1.7 | 48.7% | 2.3 | 53.2% |
| 組み合わせ | 4.7 | 96.8% | 14.9 | 92.6% |
- WiCoPaCo は文脈内の 408,816 件の修正を含む。
- この資源は綴り訂正、パラフレーズ、意味の変化を含む多様な書換タイプをサポートする。
- フランス語について、本コーパスは綴りエラー分析および形態-統語的書換パターンの研究を可能にする。
- 候補生成ソースの組み合わせは、綴り訂正候補のカバレッジを大幅に向上させる(hunspell、頻繁な編集パターン、およびコーパス由来の編集)。
- 綴り訂正実験では、非語エラーと実語エラーはそれぞれ 72,493 件と 74,100 件抽出された。
- 綴り訂正候補の評価では、方法を組み合わせた場合が最も網羅率が高く、非語エラーで 96.8%、実語エラーで 92.6% に達した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。