Skip to main content
QUICK REVIEW

[논문 리뷰] Building a Large-Scale Knowledge Base for Machine Translation

Kevin Knight, Steve K. Luk|ArXiv.org|1994. 07. 29.
Natural Language Processing Techniques참고 문헌 13인용 수 185
한 줄 요약

이 논문은 지식 기반 기계 번역(KBMT)을 위한 약 70,000개의 개념을 가진 대규모 다국어 지식 기반(온톨로지)을 구축하기 위한 반자동적 방법론을 제시한다. WordNet, LDOCE, PENMAN Upper Model, ONTOS, 그리고 스페인어-영어 이중어사전과 같은 다양한 자원을 자동 매칭 및 의미 해소 알고리즘을 사용해 융합함으로써, 의미 분석 및 생성을 지원하는 통합된 다국어 의미 프레임워크를 구축하였다. 이는 지식 기반 구축 과정에서 수동 작업을 크게 줄였다.

ABSTRACT

Knowledge-based machine translation (KBMT) systems have achieved excellent results in constrained domains, but have not yet scaled up to newspaper text. The reason is that knowledge resources (lexicons, grammar rules, world models) must be painstakingly handcrafted from scratch. One of the hypotheses being tested in the PANGLOSS machine translation project is whether or not these resources can be semi-automatically acquired on a very large scale. This paper focuses on the construction of a large ontology (or knowledge base, or world model) for supporting KBMT. It contains representations for some 70,000 commonly encountered objects, processes, qualities, and relations. The ontology was constructed by merging various online dictionaries, semantic networks, and bilingual resources, through semi-automatic methods. Some of these methods (e.g., conceptual matching of semantic taxonomies) are broadly applicable to problems of importing/exporting knowledge from one KB to another. Other methods (e.g., bilingual matching) allow a knowledge engineer to build up an index to a KB in a second language, such as Spanish or Japanese.

연구 동기 및 목표

  • 지식 기반 기계 번역(KBMT)을 제한된 도메인을 초월해 신문 수준의 텍스트로 확장하기 위해 대규모로 재사용 가능한 지식 기반을 구축하기 위해.
  • KBMT의 주요 장애 요인인 수동적인 어휘사전, 문법 규칙, 세계 모델 작성 문제를 해결하기 위해 기존 자원에서 반자동으로 지식을 확보하는 방법을 제공하기 위해.
  • 다국어 번역 시스템에서 의미 분석과 표면 생성을 모두 지원하는 다국어 온톨로지를 개발하기 위해.
  • 이중어사전과 의미 자원을 활용하여 스페인어 개념에서 영어 개념으로의 교차 언어 매핑을 가능하게 하기 위해.
  • 높은 신뢰도의 자동 매핑을 우선순위로 제시하는 검증 인터페이스를 사용하여 지식 기반 구축 과정에서의 인간 작업을 줄이기 위해.

제안 방법

  • 다양한 특성을 가진 다섯 가지 언어 자원을 융합: PENMAN Upper Model, ONTOS, Longman’s Dictionary of Contemporary English(LDOCE), WordNet, 그리고 HarperCollins 스페인어-영어 이중어사전.
  • 정의 매칭 알고리즘을 사용하여 LDOCE 어휘의 의미를 제어어휘 정의와 비교함으로써 온톨로지 개념에 매핑하였다.
  • 이중어사전의 의미 분류, 동의어, 주제 분야 코드를 활용하여 스페인어 어휘를 영어 온톨로지 개념에 매핑하는 이중어 매칭 알고리즘을 적용하였다.
  • WordNet의 싱셋과 계층적 구조를 활용하여 분류 체계에서 공통 조상 노드를 찾는 방식으로 의미 해소를 수행하였다.
  • 공통 조상 노드에 도달하기 위해 거쳐야 하는 WordNet 링크 수에 기반한 신뢰도 페널티를 도입하여 저신뢰도 매핑을 감소시켰다.
  • 자원 겹침을 기반으로 자동으로 생성된 Collins 이중어사전 주제 분야 코드와 LDOCE 의미 코드 간의 대응표를 활용하여 의미 해소를 향상시키고 희귀 매핑을 걸러내었다.

실험 결과

연구 질문

  • RQ1기존 언어 자원을 활용하여 기계 번역을 위한 대규모 지식 기반을 반자동으로 구축할 수 있는가? 이는 수동 코딩에 대한 의존도를 줄일 수 있는가?
  • RQ2이중어사전 항목을 통합 온톨로지에 매핑할 때 의미 해소를 어떻게 향상시킬 수 있는가? 특히 번역이 모호한 경우에 대해 어떻게 대처할 수 있는가?
  • RQ3이중어사전과 단일어사전의 주제 분야 코드를 얼마나 잘 정렬할 수 있는가? 이는 교차 언어 개념 매핑을 향상시키는 데 기여하는가?
  • RQ4WordNet과 LDOCE와 같은 여러 의미 자원을 융합함으로써 원본 데이터의 오류를 드러내거나 더 나은 분류 체계 통합을 가능하게 하는 일관성 문제를 어떻게 폭 드러낼 수 있는가?

주요 결과

  • 저자들은 영어 어휘의 일반적인 의미와 개념을 대표하는 약 50,000개의 노드를 가진 다국어 온톨로지를 성공적으로 구축하였다.
  • 이중어 매칭 알고리즘이 스페인어 어휘에서 온톨로지 개념으로 약 50,000개의 제안 매핑을 생성하였으며, 이는 인간 검증을 우선시하기 위해 정렬되었다.
  • 자원 겹침에서 자동으로 생성된 주제 분야 코드 대응표를 활용함으로써 잘못된 매핑을 걸러내는 데 기여하였으며, 6회 미만으로 발생한 매핑은 제거되었다.
  • 융합 후 검증 과정에서 WordNet과 LDOCE 분류 체계 간 수백 가지의 일관성 없는 점이 드러났으며, 이는 종속 의미 식별 오류 또는 조직 구조의 차이를 시사하였다.
  • 반자동 융합 과정을 통해 중복되거나 상호 보완적인 자원에서 오류 탐지 및 누락 항목 식별이 가능해져 전체 지식 기반의 품질이 향상되었다.
  • 높은 신뢰도 매핑을 먼저 제시하는 방식으로 인간 검증 과정이 크게 가속화되었으며, 이는 스펠 체크 인터페이스를 모방한 것으로, 검증 워크플로우의 실용성을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.