[論文レビュー] Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine
本論文は機械翻訳としてのChatGPTを予備的に評価し、GPT-4が性能を顕著に向上させ、商用システムに匹敵する水準にまで高めることを示し、ピボットプロンプティングが遠隔言語の性能改善に寄与する。
This report provides a preliminary evaluation of ChatGPT for machine translation, including translation prompt, multilingual translation, and translation robustness. We adopt the prompts advised by ChatGPT to trigger its translation ability and find that the candidate prompts generally work well with minor performance differences. By evaluating on a number of benchmark test sets, we find that ChatGPT performs competitively with commercial translation products (e.g., Google Translate) on high-resource European languages but lags behind significantly on low-resource or distant languages. As for the translation robustness, ChatGPT does not perform as well as the commercial systems on biomedical abstracts or Reddit comments but exhibits good results on spoken language. Further, we explore an interesting strategy named $\mathbf{pivot~prompting}$ for distant languages, which asks ChatGPT to translate the source sentence into a high-resource pivot language before into the target language, improving the translation performance noticeably. With the launch of the GPT-4 engine, the translation performance of ChatGPT is significantly boosted, becoming comparable to commercial translation products, even for distant languages. Human analysis on Google Translate and ChatGPT suggests that ChatGPT with GPT-3.5 tends to generate more hallucinations and mis-translation errors while that with GPT-4 makes the least errors. In other words, ChatGPT has already become a good translator. Please refer to our Github project for more details: https://github.com/wxjiao/Is-ChatGPT-A-Good-Translator
研究の動機と目的
- 翻訳プロンプトがChatGPTの出力にどのように影響するかを評価する。
- 高資源言語と遠隔言語を横断する多言語翻訳性能を評価する。
- ドメイン特化データおよびノイズの多いデータでの翻訳の頑健性を調査する。
- 遠隔言語ペアの翻訳品質を改善するためのピボットプロンプティングを検討する。
- 翻訳エンジンとしてGPT-4を用いた場合のChatGPTの性能への影響を評価する。
提案手法
- 3つの候補プロンプト(Tp1, Tp2, Tp3)を用いて翻訳をトリガーし、Google Translate、DeepL、Tencent TranSmartと比較する。
- Flores-101を用いて101言語の多言語翻訳を評価する。
- WMT19 BioおよびWMT20 Rob2/Rob3の頑健性セットで頑健性をテストする。
- 直接翻訳とピボットプロンプティング(ソース→ピボット→ターゲット)アプローチによる翻訳を比較する。
- エンジンの影響を測定するためにGPT-4を用いて翻訳を再評価する。
実験結果
リサーチクエスチョン
- RQ1翻訳プロンプトは言語ペア間でChatGPTの翻訳品質にどのような影響を与えるか?
- RQ2高資源言語と遠隔言語で、ChatGPTは商用システムと比較してどのように性能を示すか?
- RQ3ピボットプロンプティング戦略は遠隔言語ペアの翻訳品質を改善するか?
- RQ4GPT-4をエンジンとして用いることがChatGPTの翻訳性能に与える影響は何か?
- RQ5ドメイン特化文やノイズの多いテキストに対してChatGPTの翻訳はどれくらい頑健か?
主な発見
- Tp3を用いたChatGPTは概ね適切に翻訳するが、Chinese→Englishでは商用ベースラインに及ばず;Tp3が候補プロンプトの中で最も良い。
- ドイツ語↔英語ではGoogle TranslateとDeepLに対して競争力があるが、 Romanian↔Englishでははるかに劣り、資源と言語ファミリの影響を強調している。
- ピボットプロンプティングは遠隔言語(例:De/Zh、Ro/Zh)の翻訳を大幅に改善し、報告されたケースでBLEUポイントを最大約6.6点改善する。
- GPT-4はChatGPTの翻訳性能を劇的に向上させ、複数の方向でゼロショット設定においてトップクラスの商用システムに近い水準を達成する。
- 人間による分析ではGPT-4が比較対象の中で最も翻訳エラーが少ないが、ケースによってはGPT-4のBLEUがGoogle Translateを下回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。