QUICK REVIEW

[논문 리뷰] Lost in Translation: Loss and Decay of Linguistic Richness in Machine Translation

Eva Vanmassenhove, Dimitar Shterionov|arXiv (Cornell University)|2019. 06. 28.

Natural Language Processing Techniques참고 문헌 25인용 수 48

한 줄 요약

이 논문은 EN–FR 및 EN–ES에서 MT와 HT의 어휘 다양성 손실을 경험적으로 정량화하여, MT가 자주 사용되는 단어를 선호하고 다양성을 축소하며 알고리즘 편향 가능성을 보임을 보여준다.

ABSTRACT

This work presents an empirical approach to quantifying the loss of lexical richness in Machine Translation (MT) systems compared to Human Translation (HT). Our experiments show how current MT systems indeed fail to render the lexical diversity of human generated or translated text. The inability of MT systems to generate diverse outputs and its tendency to exacerbate already frequent patterns while ignoring less frequent ones, might be the underlying cause for, among others, the currently heavily debated issues related to gender biased output. Can we indeed, aside from biased data, talk about an algorithm that exacerbates seen biases?

연구 동기 및 목표

신경망 MT와 통계 MT 시스템이 인간 번역에 비해 어휘 풍부함을 보존하는지 평가한다.
MT 아키텍처(RNN, Transformer, SMT)가 단어 빈도와 다양성에 어떤 영향을 미치는지 정량화한다.
훈련 데이터 편향, 역번역(back-translation), 그리고 출력 다양성 간의 관계를 조사한다.
어휘 손실로 인한 성별 편향 및 형태소 풍부한 언어에 대한 시사점을 탐구한다.

제안 방법

Europarl 데이터를 사용하여 EN–FR 및 EN–ES에서 세 가지 MT 아키텍처(RNN, Transformer, SMT)를 학습하고 평가한다.
원본 데이터와 역번역(back-translated) 데이터를 사용하여 교차 분석을 위한 FF, BACK, REV 시스템을 만든다.
네 가지 지표(TTR, Yule’s I, MTLD, 그리고 파생된 1000x 규모의 형식)를 사용하여 어휘 다양성을 측정한다.
HT를 기준으로 단어를 여섯 가지 빈도 변화 범주로 분류하여 단어 빈도 편향을 분석한다.
seen(훈련 데이터) 대 unseen 데이터 비교를 통해 알고리즘적 효과와 데이터 효과를 구분한다.

실험 결과

연구 질문

RQ1신경망 MT(NMT)와 SMT가 인간 번역에 비해 어휘 다양성을 보존하는 데 차이가 있는가?
RQ2MT 시스템이 더 자주 등장하는 단어로 출력을 편향시키고 희귀한 단어를 희생시키는가?
RQ3역번역(back-translation)/backing 데이터가 어휘 다양성과 편향 전파에 어떤 영향을 미치는가?
RQ4관측된 효과가 언어 쌍 EN–FR 및 EN–ES 전반과 seen vs unseen 데이터 전반에서 일관되는가?

주요 결과

MT 시스템은 두 언어 쌍 모두에서 HT에 비해 어휘 다양성을 일반적으로 과소 표현한다.
SMT는 일부 지표(TTR, Yule’s I)에서 신경 방법보다 더 많은 어휘 풍부함을 유지하는 경향이 있고, Transformer는 MTLD에서 더 높은 풍부성을 보인다.
모든 MT 변형은 자주 등장하는 HT 단어를 편향시키고 덜 자주 등장하는 단어를 불균형하게 제거하며 때로는 완전히 없애기도 한다.
역번역은 어휘 크기를 감소시키고 편향을 증폭시키거나 학습된 단어 연관성을 바꿀 수 있다.
Seen vs unseen 데이터에서 어휘 다양성 손실의 유사한 경향이 나타나며 unseen 데이터에서 약간 더 강한 효과가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.