Skip to main content
QUICK REVIEW

[論文レビュー] Building a Large-Scale Knowledge Base for Machine Translation

Kevin Knight, Steve K. Luk|ArXiv.org|Jul 29, 1994
Natural Language Processing Techniques参考文献 13被引用数 185
ひとこと要約

本稿では、知識ベース機械翻訳(KBMT)用に約70,000の概念を有する大規模かつ多言語の知識ベース(オントロジー)を構築するための準自動的手法を提示する。WordNet、LDOCE、PENMAN Upper Model、ONTOS、およびスペイン語-英語二か国語辞書といった多様なリソースを、自動マッピングおよび意味の解消アルゴリズムを用いて統合することで、手動作業を著しく削減した、統合的かつ多言語対応の意味的フレームワークを構築した。

ABSTRACT

Knowledge-based machine translation (KBMT) systems have achieved excellent results in constrained domains, but have not yet scaled up to newspaper text. The reason is that knowledge resources (lexicons, grammar rules, world models) must be painstakingly handcrafted from scratch. One of the hypotheses being tested in the PANGLOSS machine translation project is whether or not these resources can be semi-automatically acquired on a very large scale. This paper focuses on the construction of a large ontology (or knowledge base, or world model) for supporting KBMT. It contains representations for some 70,000 commonly encountered objects, processes, qualities, and relations. The ontology was constructed by merging various online dictionaries, semantic networks, and bilingual resources, through semi-automatic methods. Some of these methods (e.g., conceptual matching of semantic taxonomies) are broadly applicable to problems of importing/exporting knowledge from one KB to another. Other methods (e.g., bilingual matching) allow a knowledge engineer to build up an index to a KB in a second language, such as Spanish or Japanese.

研究の動機と目的

  • 知識ベース機械翻訳(KBMT)を制限されたドメインを超えて新聞レベルのテキストにまでスケールアップさせるために、大規模かつ再利用可能な知識ベースを構築すること。
  • KBMTにおける主なボトル neck である、語彙、文法規則、世界モデルの手作業作成を軽減するため、既存リソースから知識を準自動的に取得する仕組みを提供すること。
  • 多言語翻訳システムにおける意味的解析および表層生成を両立できる多言語オントロジーを開発すること。
  • 二か国語辞書と意味的リソースを活用することで、スペイン語の概念から英語の概念へのクロスリンガルマッピングを可能にすること。
  • 高信頼度の自動マッピングを優先表示する検証インターフェースを用いることで、知識ベース構築における人的作業を削減すること

提案手法

  • PENMAN Upper Model、ONTOS、Longman’s Dictionary of Contemporary English(LDOCE)、WordNet、HarperCollinsのスペイン語-英語二か国語辞書の5つの異種言語リソースを統合した。
  • 定義マッチングアルゴリズムを用い、LDOCEの語の意味を制御語彙の定義と照合することで、オントロジー概念にマッピングした。
  • 二か国語マッチングアルゴリズムを適用し、二か国語辞書に含まれる意味の区分、同義語、分野コードを活用してスペイン語語彙を英語オントロジー概念にマッピングした。
  • WordNetのシンセットと階層的構造を活用し、分類体系における共通の先祖を特定することで意味の解消を実施した。
  • 共通の親ノードに到達するまでのWordNetリンク数に基づく信頼度ペナルティを導入し、低信頼度のマッピングを低減した。
  • リソースの重複を活用して、Collins二か国語辞書の分野コードとLDOCEの意味コードの対応表を自動生成し、意味の解消を向上させた。

実験結果

リサーチクエスチョン

  • RQ1既存の言語リソースを活用して、手作業によるキュレーションに依存しない大規模な知識ベースを準自動的に構築できるか?
  • RQ2翻訳が曖昧な二か国語辞書エントリを統一オントロジーにマッピングする際、意味の解消をどのように改善できるか?
  • RQ3二か国語辞書と単語辞書の分野コードをどれほど正確に一致させることで、クロスリンガル概念マッピングの質を向上できるか?
  • RQ4WordNet や LDOCE といった複数の意味的リソースを統合することで、元データの誤りを露呈する不整合が明らかになるか、あるいはより優れた分類統合が可能になるか?

主な発見

  • 著者らは、一般的な英語語の意味と概念を表す中間領域に約50,000ノードを有する多言語オントロジーを成功裏に構築した。
  • 二か国語マッチングアルゴリズムにより、スペイン語語彙からオントロジー概念への約50,000件の提案マッピングが生成され、人為的検証の優先順位が付けられた。
  • 二か国語辞書の分野コードとLDOCEの意味コードの対応表をリソースの重複から自動生成したことで、誤ったマッピングがフィルタリングされ、6回未満の出現頻度のマッピングは除外された。
  • 統合後の検証で、WordNetとLDOCEの分類体系間に数打の不整合が判明し、種の意味の識別ミスや組織的構造の相違が示された。
  • 準自動統合プロセスにより、重複または補完的リソースにおける誤りの検出や欠落の特定が可能となり、全体的な知識ベースの品質が向上した。
  • 高信頼度のマッピングを最初に提示する検証ワークフローは、スペルチェックインターフェースを模倣しており、人為的検証が著しく高速化された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。