QUICK REVIEW

[논문 리뷰] Pseudolikelihood Reranking with Masked Language Models.

Julián Salazar, Davis Liang|arXiv (Cornell University)|2019. 10. 31.

Topic Modeling참고 문헌 13인용 수 7

한 줄 요약

이 논문은 BERT 및 RoBERTa와 같은 사전 훈련된 마스킹 언어 모델을 사용하여 로그-가짜우도(LPL) 재정렬을 도입하여 자동 음성 인식(ASR) 및 신경 기계 번역(NMT) 성능을 향상시킵니다. LPL 점수는 GPT-2와 같은 순차적 생성 모델을 능가하며, LibriSpeech에서 WER를 최대 30% 감소시키고, 저자원 NMT 작업에서는 BLEU 점수를 최대 1.7점 향상시킵니다. 도메인 적응과 단일 다국어 XLM을 활용한 다국어 재정렬을 통해 성능 향상이 이루어집니다.

ABSTRACT

We rerank with scores from pretrained masked language models like BERT to improve ASR and NMT performance. These log-pseudolikelihood scores (LPLs) can outperform large, autoregressive language models (GPT-2) in out-of-the-box scoring. RoBERTa reduces WER by up to 30% relative on an end-to-end LibriSpeech system and adds up to +1.7 BLEU on state-of-the-art baselines for TED Talks low-resource pairs, with further gains from domain adaptation. In the multilingual setting, a single XLM can be used to rerank translation outputs in multiple languages. The numerical and qualitative properties of LPL scores suggest that LPLs capture sentence fluency better than autoregressive scores. Finally, we finetune BERT to estimate sentence LPLs without masking, enabling scoring in a single, non-recurrent inference pass.

연구 동기 및 목표

ASR 및 NMT 성능 향상을 위해 사전 훈련된 마스킹 언어 모델을 사용한 재정렬을 위한 목표.
GPT-2와 같은 순차적 생성 언어 모델의 유창성 점수 평가 한계를 보완하기 위해 비순차적 대안을 도입하는 목표.
미세조정된 BERT를 통해 비반복적이고 단일 패assing 추론을 가능하게 하여 문장 수준의 유창성 점수 평가의 효율성을 높이는 목표.
단일 XLM 모델이 여러 언어 간 재정렬에 적용 가능한 다국어 적용성을 탐색하는 목표.
LPL 점수가 순차적 점수보다 문장의 유창성을 더 잘 포착하는지 조사하는 목표.

제안 방법

마스킹된 토큰을 사용하여 마스킹 언어 모델(예: BERT, RoBERTa)을 통해 원래 시퀀스의 가능도를 평가함으로써 로그-가짜우도(LPL) 점수를 계산합니다.
순차적 생성 없이 ASR 및 NMT 디코딩 파이프라인의 가설을 재정렬하기 위해 LPL 점수를 사용합니다.
비반복적이고 단일 패assing 추론을 가능하게 하기 위해 문장 수준의 LPL 추정에 BERT를 미세조정합니다.
저자원 NMT 작업에서의 LPL 성능 향상을 위해 도메인 적응을 적용합니다.
다국어 XLM을 활용하여 단일 모델로 여러 언어 간 번역 출력을 재정렬합니다.
유창성 모델링 및 성능 측면에서 LPL 점수를 순차적 로그가능도 점수와 비교합니다.

실험 결과

연구 질문

RQ1마스킹 언어 모델에서 유도된 LPL 점수가 GPT-2와 같은 순차적 언어 모델을 능가할 수 있는가?
RQ2LPL 점수는 종단 간 ASR에서 WER를 얼마나 감소시키고, 저자원 NMT에서 BLEU 점수를 얼마나 향상시키는가?
RQ3도메인 적응은 저자원 번역 작업에서 LPL 기반 재정렬의 성능 향상에 얼마나 효과적인가?
RQ4단일 다국어 XLM 모델이 여러 언어 간 출력을 효과적으로 재정렬할 수 있는가?
RQ5LPL 점수가 순차적 점수보다 문장의 유창성을 더 잘 포착하는가?

주요 결과

RoBERTa에서 유도된 LPL 점수는 종단 간 LibriSpeech ASR 시스템에서 단어 오류율(WER)을 최대 30% 상대적으로 감소시킵니다.
LPL 재정렬은 저자원 TED Talks 번역 쌍에 대해 최신 NMT 시스템에서 BLEU 점수를 최대 1.7점 향상시킵니다.
도메인 적응은 저자원 NMT 작업에서 LPL 성능을 크게 향상시킵니다.
단일 다국어 XLM 모델은 여러 언어 간 번역 출력을 효과적으로 재정렬할 수 있습니다.
LPL 점수는 순차적 점수보다 수치적 및 정성적 성질에서 문장의 유창성을 더 잘 포착하는 것으로 나타났습니다.
미세조정된 BERT는 LPL 추정을 위한 단일 패assing 비반복 추론을 가능하게 하여 효율성을 향상시킵니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.