[論文レビュー] Automated Postediting of Documents
本稿では、オンラインテキストから抽出された20万件以上のルールを用いて学習した、ポータブルでルールベースの自動後処理モジュールを提示する。このモジュールは、英語の名詞句における定冠の選択を自動化するもので、頻出語頭名詞を特徴ベースで学習した決定木を用いる。テストの77%のインスタンスに対して81%の正確性を達成し、人的な性能に近い結果を示しており、機械翻訳システム間で再利用可能な、分離可能な後処理モジュールの実現可能性を示している。
Large amounts of low- to medium-quality English texts are now being produced by machine translation (MT) systems, optical character readers (OCR), and non-native speakers of English. Most of this text must be postedited by hand before it sees the light of day. Improving text quality is tedious work, but its automation has not received much research attention. Anyone who has postedited a technical report or thesis written by a non-native speaker of English knows the potential of an automated postediting system. For the case of MT-generated text, we argue for the construction of postediting modules that are portable across MT systems, as an alternative to hardcoding improvements inside any one system. As an example, we have built a complete self-contained postediting module for the task of article selection (a, an, the) for English noun phrases. This is a notoriously difficult problem for Japanese-English MT. Our system contains over 200,000 rules derived automatically from online text resources. We report on learning algorithms, accuracy, and comparisons with human performance.
研究の動機と目的
- 機械翻訳、OCR、非ネイティブスピーカーによる低~中程度の品質の英語テキストを改善するため、分離可能で再利用可能な後処理モジュールを開発すること。
- 日本語-英語機械翻訳において特に困難な、英語名詞句における定冠選択という、長年の課題に取り組むこと。人的な後処理は時間と手間がかかり、誤りが生じやすい。
- 特定の機械翻訳システムの内部アーキテクチャに依存せず、独立して動作するシステムを構築することで、移植性と広範な再利用性を実現すること。
- 大規模なテキストコーパスからの自動ルール学習により、人的な性能に近い正確性を達成すること。
- 統計的学習を用いた言語的特徴の分析によって、複雑な文法的タスクに対しても、高精度で汎用的な後処理モジュールを構築できるかを実証すること。
提案手法
- 本システムは、Quinlan (1986) が提唱した決定木学習法を用い、品詞、語頭名詞の頻度、周辺語などの言語的特徴の相互作用をモデル化する。
- 特徴には語頭名詞、その文法的カテゴリ、名詞句の直前・直後の2語が含まれ、各特徴が定冠予測に投票する。
- 情報量の増加を基準に分割を行う。エントロピーに基づく分割法を用い、各ノードで最適な特徴選択のため、H(p) = -p log p - (1-p) log(1-p) を最小化する。
- 計算負荷を管理するため、4件未満の学習インスタンスを持つ特徴は破棄され、各ノードにおけるp('the'の確率)には閉形式近似が用いられる。
- 学習データは頻出語頭名詞(例:'president')で分割され、上位1,600語の語頭名詞ごとに別個の決定木が構築される。この1,600語はテストインスタンスの77%をカバーする。
- 低頻度語頭名詞(テストインスタンスの23%)については、デフォルトで'the'を予測する。このサブセットで66%の正確性を達成した。
実験結果
リサーチクエスチョン
- RQ1特定の機械翻訳システムの内部表現に依存せず、複数のMTシステムで再利用可能な、分離可能でポータブルな後処理モジュールを構築できるか?
- RQ2大規模なテキストコーパスからの自動学習によって、英語名詞句における定冠選択で人的な後処理者と同等の正確性に到達できるか、その程度は?
- RQ3学習データ量や語頭名詞の頻度に応じて性能はどのように変化するか?また、低頻度名詞は共通の特徴を用いて効果的にグループ化できるか?
- RQ4決定木モデルは、品詞や文脈などの複数の言語的特徴を効果的に統合し、曖昧な定冠使用を解消できるか?
主な発見
- 学習データの90%で学習した場合、語頭が'president'で終わる名詞句では90%のテストセット正確性を達成し、171ノードの決定木を構築した。
- 上位1,600語の頻出語頭名詞(テストインスタンスの77%をカバー)に対して、81%の正確性を達成。人的な性能に近い。
- 残りの23%のインスタンス(低頻度語頭名詞)に対しては、デフォルトで'the'を予測した結果、66%の正確性を達成。全体の正確性は78%。
- 学習曲線から、より多くの学習データを用いるほど性能が向上し、'stock'で終わる名詞句では94%、'year'で終わる名詞句では90%の正確性に到達した。
- 希少特徴の剪定とp値の閉形式近似の手法により、40万件以上の例と3万件以上の特徴を含むデータセットでも、効率的な学習が可能になった。
- 結果から、自動ルール学習を用いた高精度で汎用的な後処理モジュールが構築可能であることが示され、個々のMTシステムに改良をハードコードする代替手段としてスケーラブルであることが明らかになった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。