Skip to main content
QUICK REVIEW

[論文レビュー] Determination of referential property and number of nouns in Japanese sentences for machine translation into English

Masaki Murata, Makoto Nagao|ArXiv.org|May 19, 1994
Natural Language Processing Techniques被引用数 35
ひとこと要約

本稿では、日本語の名詞の参照的性質(一般的、定 冠 詞性、不定冠 詞性)および数(単数、複数、不可算)を正確な英語機械翻訳のために推定するため、表層的言語的手がかりを用いたルールベースのエキスパートシステムを提案する。依存構造および指示代名詞、数詞、助詞といった文脈的マーカーを用いてヒューリスティックなルールを適用することで、訓練データでは参照的性質の検出に85.5%、数の決定に89.0%の精度を達成し、外部テストテキストではそれぞれ68.9%および85.6%の精度を示した。これは、日本語から英語への翻訳における冠詞および複数形の曖昧性を解消するための表層的ヒューリスティクスの有効性を示している。

ABSTRACT

When translating Japanese nouns into English, we face the problem of articles and numbers which the Japanese language does not have, but which are necessary for the English composition. To solve this difficult problem we classified the referential property and the number of nouns into three types respectively. This paper shows that the referential property and the number of nouns in a sentence can be estimated fairly reliably by the words in the sentence. Many rules for the estimation were written in forms similar to rewriting rules in expert systems. We obtained the correct recognition scores of 85.5\% and 89.0\% in the estimation of the referential property and the number respectively for the sentences which were used for the construction of our rules. We tested these rules for some other texts, and obtained the scores of 68.9\% and 85.6\% respectively.

研究の動機と目的

  • 日本語の名詞を英語に翻訳する際、固有の冠詞や複数形のマークがないという課題に対処すること。
  • 表層的言語的手がかりを用いて、名詞の参照的性質(一般的、定冠的、不定冠的)および数(単数、複数、不可算)を推定すること。
  • 日本語文における名詞解釈のエキスパート判断を模倣するヒューリスティックなルールシステムを構築すること。
  • 一般化および耐障害性を評価するため、訓練データおよび独立したテストテキストの両方でシステムの性能を評価すること。

提案手法

  • 本システムは、指示代名詞(KONO, ANO, SONO)、トピックマーク(WA)、文構造などの文脈的マーカーに基づいて、名詞句を3つの参照的タイプ(一般的、定冠的、不定冠的)に分類する。
  • 数の決定に関しては、数詞(例:1 → 単数、≥2 → 複数)、助詞(WA, GA, MO, O)、およびSUKIやTANOSHIMUのような動詞が一般名詞と共に用いられた場合に複数を示す可能性があることに基づいてルールを適用する。
  • ヒューリスティックなルールは、エキスパートシステムのルールに類似した形式で記述される:(条件) ⇒ { category(優先度, スコア) }、ここで優先度とスコアは信頼度を反映する。
  • 依存構造を用いて文法的関係を分析し、参照的および数的特徴に影響を与える修飾語や述語を特定する。
  • デフォルト値(例:手がかりが存在しない場合は単数)が割り当てられ、ルールは衝突を解消するために段階的に適用される。
  • システムは文法教科書の例題で学習させ、一般の民話や随筆とその英訳が整備されたテキストでテストすることで、一般化性能を評価した。

実験結果

リサーチクエスチョン

  • RQ1深層的意味解析を一切行わず、表層的言語的特徴のみを用いて、日本語の名詞の参照的性質を信頼性を持って推定できるか?
  • RQ2助詞、指示代名詞、数詞、述語に基づくヒューリスティックなルールが、日本語の名詞の数(単数/複数/不可算)を翻訳においてどの程度正確に予測できるか?
  • RQ3これらの表層的ルールは、訓練データを超えて未知のテキストに一般化してどの程度有効か?
  • RQ4参照的および数的特徴の予測において、訓練データとドメイン外のテストデータとの間で性能の差はどの程度か?

主な発見

  • 訓練データでは、参照的性質の推定に85.5%の正答率を達成し、制御された例題において優れた性能を示した。
  • 数の決定に関しては、訓練データセットで89.0%の精度に達し、単数・複数・不可算形の検出において高い信頼性を示した。
  • 外部テストテキストでは、参照的性質の正答率が68.9%に低下し、数の検出では85.6%の精度を示した。これは、未知の資料においても性能は低下するが、依然として意味のある水準を維持していることを示している。
  • 性能の低下は、ルールが抽象的または複雑なテキスト(哲学的・政治的議論など)ではやや効果が薄いことを示唆している。
  • 結果から、指示代名詞、数詞、助詞、動詞の補語といった表層的手がかりが、日本語から英語への翻訳における冠詞および複数形の決定に強力で信頼できる指標を提供できることが明らかになった。
  • 本研究は、文法的および会話的手がかりに基づくヒューリスティックなルールシステムが、完全な文間的または深層的意味解析を必要とせずに、翻訳品質を著しく向上させられると結論づけた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。