QUICK REVIEW

[논문 리뷰] Prompting Large Language Model for Machine Translation: A Case Study

Biao Zhang, Barry Haddow|arXiv (Cornell University)|2023. 01. 17.

Natural Language Processing Techniques인용 수 68

한 줄 요약

GLM-130B를 사용한 기계 번역의 프롬프트 전략에 대한 체계적 연구로, 프롬프트 템플릿, 시연 예시, 단일언어 데이터 사용, 그리고 교차 설정 전이 학습을 검토한다.

ABSTRACT

Research on prompting has shown excellent performance with little or even no supervised training across many tasks. However, prompting for machine translation is still under-explored in the literature. We fill this gap by offering a systematic study on prompting strategies for translation, examining various factors for prompt template and demonstration example selection. We further explore the use of monolingual data and the feasibility of cross-lingual, cross-domain, and sentence-to-document transfer learning in prompting. Extensive experiments with GLM-130B (Zeng et al., 2022) as the testbed show that 1) the number and the quality of prompt examples matter, where using suboptimal examples degenerates translation; 2) several features of prompt examples, such as semantic similarity, show significant Spearman correlation with their prompting performance; yet, none of the correlations are strong enough; 3) using pseudo parallel prompt examples constructed from monolingual data via zero-shot prompting could improve translation; and 4) improved performance is achievable by transferring knowledge from prompt examples selected in other settings. We finally provide an analysis on the model outputs and discuss several problems that prompting still suffers from.

연구 동기 및 목표

프롬프트 템플릿이 언어 쌍 전반에 걸쳐 MT 품질에 어떤 영향을 미치는지 평가한다.
시연 예시가 프롬프트 성능에 미치는 영향과 효과적으로 선택하는 방법을 조사한다.
프롬핑에 단일언어 데이터를 활용하는 방법과 의사 병렬 프롬프트 예시의 가능성을 탐구한다.
전이 학습을 검토한다: 교차언어, 교차도메인, 및 문장-문서 프롬프트 효과.

제안 방법

번역 프롬핑을 위해 GLM-130B (INT4-quantized)를 고정 LLM으로 사용한다.
여러 템플릿과 시연 전략으로 제로샷 및 파샷 프롬핑을 평가한다.
시연 특성과 프롱핑 성능 간의 상관관계를 연구하기 위해 Ablation 세트를 구성하고 분석한다.
단일언어 데이터와 역번역/역방향 번역(back-/forward-translation)을 사용해 의사 병렬 프롬프트 예시를 생성하고 실험한다.
프롬핑을 위한 교차설정 전이: 교차언어, 교차도메인, 문서 수준 전이를 연구한다.
프롬핑과 관련된 일반적인 이슈와 잠재적 완화 방법을 분석한다.

실험 결과

연구 질문

RQ1어떤 MT 프롬핑 템플릿이 최상의 성능을 낳으며 템플릿 언어가 결과에 어떤 영향을 미치는가?
RQ2시연 예시가 프롬프트 성능에 어떤 영향을 미치며 시연의 어떤 특징이 더 나은 MT 프롬프트와 상관관계가 있는가?
RQ3프롬핑에 단일언어 데이터를 효과적으로 사용할 수 있는가, 그리고 의사 병렬 프롬프트 예시와의 차이는 무엇인가?
RQ4프롬프트 시연은 언어 간, 도메인 간, 출력 수준(문장 대 문서)에서 어느 정도까지 전이되는가?
RQ5MT 프롬핑에서 발생하는 실용적 이슈(예: 복사, 엔티티 오번역, 환각, 프롬프트 트랩)와 이를 완화하는 방법은 무엇인가?

주요 결과

템플릿 선택은 제로샷 MT에 상당한 영향을 미친다; 영어의 간단한 템플릿이 GLM-130B로 En/De/Zh로 번역할 때 일반적으로 가장 높은 성능을 보인다.
여러 시연 특성(길이, LM 점수, 의미적 유사도)이 프롬핑 성능과 상관관계를 보이지만, 상관관계는 약하고 일관되게 예측되지는 않는다.
프롬프트의 단일언어 데이터는 일반적으로 MT 성능에 악영향을 준다; 역번역/순방향 번역을 통한 의사 병렬 프롬프트가 프롬핑을 개선하며, 역번역이 더 강건하다.
프롬핑은 일부 전이 가능성을 보이지만 교차설정 간 이익은 미미하고, 한 설정의 시연이 다른 설정에서 항상 제로샷을 능가하진 않는다.
프롬핑은 여전히 복사, 엔티티 오번역, 환각, 프롬프트 트랩 등의 문제를 겪으며, 영어를 거치는 방향으로의 전환이 비영어 방향에 일부 이점을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.