[논문 리뷰] Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine
본 논문은 기계 번역에 대해 ChatGPT를 예비적으로 평가하여, GPT-4가 성능을 상업 시스템에 필적하도록 현저히 향상시키고, 피벗 프롬핑이 먼 언어에 도움이 된다는 것을 보여준다.
This report provides a preliminary evaluation of ChatGPT for machine translation, including translation prompt, multilingual translation, and translation robustness. We adopt the prompts advised by ChatGPT to trigger its translation ability and find that the candidate prompts generally work well with minor performance differences. By evaluating on a number of benchmark test sets, we find that ChatGPT performs competitively with commercial translation products (e.g., Google Translate) on high-resource European languages but lags behind significantly on low-resource or distant languages. As for the translation robustness, ChatGPT does not perform as well as the commercial systems on biomedical abstracts or Reddit comments but exhibits good results on spoken language. Further, we explore an interesting strategy named $\mathbf{pivot~prompting}$ for distant languages, which asks ChatGPT to translate the source sentence into a high-resource pivot language before into the target language, improving the translation performance noticeably. With the launch of the GPT-4 engine, the translation performance of ChatGPT is significantly boosted, becoming comparable to commercial translation products, even for distant languages. Human analysis on Google Translate and ChatGPT suggests that ChatGPT with GPT-3.5 tends to generate more hallucinations and mis-translation errors while that with GPT-4 makes the least errors. In other words, ChatGPT has already become a good translator. Please refer to our Github project for more details: https://github.com/wxjiao/Is-ChatGPT-A-Good-Translator
연구 동기 및 목표
- 번역 프롬프트가 ChatGPT 출력에 어떤 영향을 미치는지 평가한다.
- 자원이 풍부한 언어와 먼 언어 전반에 걸친 다국어 번역 성능을 평가한다.
- 도메인 특정 및 노이즈 데이터에서의 번역 강건성을 조사한다.
- 먼 언어 간 번역 품질 향상을 위한 피벗 프롬핑(pivot prompting)을 탐구한다.
- 번역 엔진으로서 GPT-4의 영향이 ChatGPT의 성능에 미치는 영향을 평가한다.
제안 방법
- 세 가지 후보 프롬프트(Tp1, Tp2, Tp3)를 사용해 번역을 촉발하고 Google 번역, DeepL, Tencent TranSmart와 비교한다.
- Flores-101에서 101개 언어에 걸친 다국어 번역을 평가한다.
- WMT19 Bio 및 WMT20 Rob2/Rob3 강건성 세트를 대상으로 강건성을 테스트한다.
- 직접 번역과 피벗 프롬핑 접근법(소스 → 피벗 → 타깃)을 비교한다.
- 엔진 영향력을 측정하기 위해 GPT-4를 사용해 번역을 재평가한다.
실험 결과
연구 질문
- RQ1번역 프롬프트가 언어 쌍에 걸친 ChatGPT의 번역 품질에 어떤 영향을 미치는가?
- RQ2고자원 언어와 먼 언어에서 상업 시스템과 비교하여 ChatGPT의 성능은 어떠한가?
- RQ3피벗 프롬핑 전략이 먼 언어 간 번역 품질을 향상시키는가?
- RQ4엔진으로서 GPT-4가 ChatGPT의 번역 성능에 미치는 영향은 무엇인가?
- RQ5도메인 특정 또는 노이즈 텍스트에 대한 ChatGPT 번역의 강건성은 어느 정도인가?
주요 결과
- Tp3를 사용한 ChatGPT는 일반적으로 비교적 잘 번역하지만 중국어→영어에서 상업적 기준에 뒤처진다; Tp3가 후보 프롬프트 중 최상이다.
- 독일어↔영어에서 Google 번역 및 DeepL과 경쟁적이지만 루마니아어↔영어에서는 훨씬 약하여 자원 및 언어 계통의 영향이 두드러진다.
- 피벗 프롬핑은 먼 언어(예: De/Zh, Ro/Zh)에서 보고된 사례들에 대해 최대 약 6.6 BLEU 포인트까지 번역을 크게 향상시킨다.
- GPT-4가 ChatGPT 번역 성능을 대폭 향상시켜, 여러 방향에서 제로샷 설정으로 상위 상업 시스템과 유사한 수준에 도달한다.
- 인간 분석에 따르면 비교 대상 시스템 중 GPT-4가 가장 적은 번역 오류를 보이나 일부 경우 GPT-4의 BLEU는 여전히 Google Translate보다 낮다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.