Skip to main content
QUICK REVIEW

[논문 리뷰] Automatic Transferring between Ancient Chinese and Contemporary Chinese.

Zhiyuan Zhang, Wei Li|arXiv (Cornell University)|2018. 03. 05.
Natural Language Processing Techniques인용 수 5
한 줄 요약

이 논문은 고대어 및 현대어 중국어 문장 간 자동으로 일치시키고, 두 언어 형태 간 문장 수준 번역을 위한 시퀀스-투-시퀀스 모델을 훈련하기 위한 비지도 학습 방법을 제안한다. 이 방법은 단말어 문장집합에서 대규모 평행 어휘집을 구축하며, 전문 역사 지식이 필요한 경우를 제외하고 인간 번역과 비교할 만한 우수한 성능을 달성한다.

ABSTRACT

During the long time of development, Chinese language has evolved a great deal. Native speakers now have difficulty in reading sentences written in ancient Chinese. In this paper, we propose an unsupervised algorithm that constructs sentence-aligned ancient-contemporary pairs out of the abundant passage-aligned corpus. With this method, we build a large parallel corpus. We propose to apply the sequence to sequence model to automatically transfer between ancient and contemporary Chinese sentences. Experiments show that both our alignment and transfer method can produce very good result except for some circumstances that even human translators can make mistakes without background knowledge.

연구 동기 및 목표

  • 현대인들이 고대어 중국어 문체의 독해도가 낮아지는 문제를 해결하기 위해.
  • 수동적 주석 없이 문장 수준로 일치된 단말어 어휘집에서 대규모 문장 수준 일치 평행 어휘집을 자동으로 구축하기 위해.
  • 고대어 및 현대어 중국어 간 정확한 종단간 번역이 가능한 시퀀스-투-시퀀스 모델을 개발하기 위해.
  • 특히 전문 지식이 요구되는 맥락에서 인간 번역 품질과 비교하여 제안된 방법의 성능을 평가하기 위해.

제안 방법

  • 대규모 단말어 어휘집 내 고대어 및 현대어 중국어 문장 간 문장 수준의 대응 관계를 식별하기 위해 비지도 일치 알고리즘을 사용한다.
  • 일치된 문장 쌍을 활용하여 시퀀스-투-시퀀스 모델 훈련을 위한 대규모 평행 어휘집을 구성한다.
  • 구축된 평행 어휘집을 기반으로 시퀀스-투-시퀀스 신경망 모델을 훈련시켜 고대어 및 현대어 중국어 간 자동 번역을 수행한다.
  • 모델은 두 언어 형태 간 구조적 및 어휘적 차이를 처리하기 위해 어텐션 메커니즘을 활용한다.
  • 모델은 단지 단말어 데이터와 비지도 일치에 의존하는 제로샷 조건에서 평가된다.

실험 결과

연구 질문

  • RQ1고대어 및 현대어 중국어 문장 간 비지도 일치가 고품질의 문장 수준 평행 데이터를 생성할 수 있는가?
  • RQ2자동으로 구축된 평행 어휘집을 기반으로 훈련된 시퀀스-투-시퀀스 모델은 고대어 및 현대어 중국어 간 번역에 얼마나 효과적인가?
  • RQ3인간 번역가조차 어려움을 겪는 맥락에서는 모델의 성능이 어떻게 떨어지는가?
  • RQ4배경 지식은 모델 및 인간 출력의 번역 품질에 어느 정도 영향을 미치는가?

주요 결과

  • 비지도 일치 방법은 문장 수준로 일치된 어휘집에서 고품질의 문장 수준 일치 쌍을 성공적으로 생성한다.
  • 시퀀스-투-시퀀스 모델은 대부분의 경우 인간 번역과 비교할 만한 우수한 번역 성능을 달성한다.
  • 모델의 성능은 도메인 특화된 역사 지식이 필요한 맥락에서 떨어지며, 이는 인간 번역가조차 실수를 범할 수 있는 경우이다.
  • 이 방법은 수동 주석 없이 대규모 저비용 평행 어휘집을 구축할 수 있게 하여 데이터 준비 비용을 크게 감소시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.