[논문 리뷰] Multilingual Extractive Reading Comprehension by Runtime Machine Translation
본 논문은 RC 학습 데이터가 없는 언어에 대해 목표 언어에서 RC 데이터가 있는 피벗 언어로의 런타임 MT와 피벗 언어에서의 RC 데이터를 활용한 회복(alignment-based recovery)을 결합하여 원어로의 정답을 정렬하는 추출적 독해 시스템을 구축한다; 일본어와 프랑스어 SQuAD에서 백트랜스레이션 기준선보다 우수하다.
Despite recent work in Reading Comprehension (RC), progress has been mostly limited to English due to the lack of large-scale datasets in other languages. In this work, we introduce the first RC system for languages without RC training data. Given a target language without RC training data and a pivot language with RC training data (e.g. English), our method leverages existing RC resources in the pivot language by combining a competitive RC model in the pivot language with an attentive Neural Machine Translation (NMT) model. We first translate the data from the target to the pivot language, and then obtain an answer using the RC model in the pivot language. Finally, we recover the corresponding answer in the original language using soft-alignment attention scores from the NMT model. We create evaluation sets of RC data in two non-English languages, namely Japanese and French, to evaluate our method. Experimental results on these datasets show that our method significantly outperforms a back-translation baseline of a state-of-the-art product-level machine translation system.
연구 동기 및 목표
- RC 학습 데이터가 부족한 언어에서도 영어 RC 자원을 활용하여 추출적 RC를 가능하게 한다.
- 번역하고 답하고 타깃 언어로 다시 정렬하는 화이트박스 NMT plus RC 파이프라인을 제안한다.
- 일본어와 프랑스어 SQuAD 평가를 통해 효과를 입증한다.
- 번역 품질, 문제(question) 번역의 중요성, 정렬 기반의 정답 회복을 분석한다.
제안 방법
- 쌍선형 주의를 사용하여 대상 언어 L에서 피벗 언어 P로를 번역하는 주의집중 NMT 모델을 학습한다.
- P에서의 RC 모델을 번역된 맥락과 질문에 적용하여 P에서의 정답 지배 구간을 얻는다.
- NMT 주의력 가중치를 이용해 P의 정답 지배 구간을 L로 정렬하여 시작/종점 위치를 매핑해 L에서의 정답을 회복한다.
- Self-Attention 및 English의 ELMo 등과 같은 개선이 적용된 BiDAF 기반의 RC 모델을 P에서 사용한다.
- L–P 병렬 위키피디아 코퍼스를 생성하고 수동으로 번역된 질문을 오버샘플링하여 질문 번역을 개선한다.
- 맥락과 타깃 언어의 grounding을 보존하기 위해 P에서의 번역을 사용한 context/question 및 정답에 대해 P-to-L 번역을 사용하는 백-트랜스레이션 기준선과 비교한다.
실험 결과
연구 질문
- RQ1RC 학습 데이터가 없는 언어를 위해 영어 RC 모델과 화이트박스 NMT 번역기를 활용하여 RC 시스템을 구축할 수 있는가?
- RQ2제안된 런타임 MT 접근이 비영어 RC 작업에서 백-트랜스레이션 기준선과 비교하여 어떤 차이를 보이는가?
- RQ3다국어 설정에서 질문 번역과 정렬 기반 회복이 RC 정확도에 어떤 역할을 하는가?
- RQ4다음으로 RC 성능에 가장 큰 영향을 미치는 번역 품질 요소는 무엇인가?
주요 결과
| 방법 | 일본어 F1 | 일본어 EM | 프랑스어 F1 | 프랑스어 EM |
|---|---|---|---|---|
| Our method | 52.19 | 37.00 | 61.88 | 40.67 |
| Back-translation by Google Translate | 42.60 | 24.77 | 44.02 | 23.54 |
- 우리 방법은 일본어 SQuAD에서 F1: 52.19 및 EM: 37.00, 프랑스어 SQuAD에서 F1: 61.88 및 EM: 40.67을 달성한다.
- 백-트랜스레이션 기준선은 점수가 더 낮다: Ja F1 42.60 / Fr 44.02 및 Ja EM 24.77 / Fr 23.54.
- 질문 번역 품질과 수동으로 번역된 질문의 오버샘플링은 RC 성능을 크게 개선한다.
- self-attention/ELMo 제거나 질문 번역 생략은 RC 지표를 현저히 감소시키는 일련의 제거 분석을 보여준다.
- 번역 품질과 정렬 기반 회복은 타깃 언어의 맥락과 grounding을 보존하는 데 결정적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.