QUICK REVIEW

[論文レビュー] How to Design Translation Prompts for ChatGPT: An Empirical Study

Yuan Gao, Ruili Wang|arXiv (Cornell University)|Apr 5, 2023

Topic Modeling被引用数 30

ひとこと要約

この論文は、翻訳タスク、ドメインコンテキスト、POSタグを含む ChatGPT の翻訳プロンプトを設計・評価し、複数言語・複数参照・複数ドメイン設定において翻訳品質の向上を示し、few-shot プロンプトが追加の効果を提供することを示しています。

ABSTRACT

The recently released ChatGPT has demonstrated surprising abilities in natural language understanding and natural language generation. Machine translation relies heavily on the abilities of language understanding and generation. Thus, in this paper, we explore how to assist machine translation with ChatGPT. We adopt several translation prompts on a wide range of translations. Our experimental results show that ChatGPT with designed translation prompts can achieve comparable or better performance over commercial translation systems for high-resource language translations. We further evaluate the translation quality using multiple references, and ChatGPT achieves superior performance compared to commercial systems. We also conduct experiments on domain-specific translations, the final results show that ChatGPT is able to comprehend the provided domain keyword and adjust accordingly to output proper translations. At last, we perform few-shot prompts that show consistent improvement across different base prompts. Our work provides empirical evidence that ChatGPT still has great potential in translations.

研究の動機と目的

ChatGPT を機械翻訳に利用する動機づけを行うために、その強力な言語能力を活用する。
プロンプト内のタスクとドメイン情報が翻訳品質を向上させるかを調査する。
プロンプト内に POS タグを付加情報として含める影響を評価する。
マルチ言語・マルチリファレンス・マルチドメインのデータセットを用いてプロンプトを評価する。
few-shot prompting を翻訳性能の追加ブーストとして探索する。

提案手法

翻訳タスク、ドメインコンテキスト、POS タグを埋め込んだ翻訳プロンプトのセットを定義する。
ChatGPT をブラックボックス翻訳機として用い、TP3 ベースラインとプロンプトを比較する。
BLEU、ChrF++、TER を用いて Flores-101 の多言語ディレクションおよび WMT のマルチリファレンスデータセットで翻訳を評価する。
自動タグ付け（Stanza）を介して POS タグを組み込み、方向性への影響を評価する。
複数のドメインにまたがる TT、CD、w-CD のドメイン特化プロンプトを試す。
高品質な翻訳ペアをインコンテキストの例として選択し、0-shot・1-shot・5-shot の設定を比較することにより few-shot prompting を試す。

実験結果

リサーチクエスチョン

RQ1プロンプトに翻訳タスク情報（例：English-to-German）を追加することで、ChatGPT の翻訳品質はベースラインより向上するか。
RQ2プロンプトに文脈/ドメイン情報を含めることで、言語方向とドメインを超えて翻訳品質は向上するか。
RQ3POS タグを補助情報として用いると、方向性ごとに安定的に翻訳を改善するのか、それとも不安定を引き起こすのか。
RQ4マルチリファレンスとマルチドメインの評価設定は、ChatGPT の翻訳品質の測定結果にどのように影響するか。
RQ5few-shot prompting は、設計されたプロンプトを超えて ChatGPT の翻訳をさらに改善できるか。

主な発見

翻訳タスク情報とドメイン情報を含むプロンプトは、いくつかの英語寄りの方向で ChatGPT の翻訳 BLEU スコアを著しく改善できる。
POS タグプロンプトは一部の方向で改善をもたらすが、他の方向では低下を引き起こし、方向性によって安定性に欠けることを示す。
提案されたプロンプトを用いた ChatGPT は、一部の方向で商用システムを上回ることがあり、特に英語中心の翻訳で顕著な利得が見られる。
マルチリファレンス評価は、複数の参照翻訳で評価すると ChatGPT の翻訳品質が大幅に高くなる可能性があることを示す。
ドメイン情報は一般にマルチドメイン試験で性能を向上させるが、誤ったドメインプロンプトは著しい低下を引き起こす。
Few-shot prompts は大きな利得をもたらすが、特に TP3 プロンプトを基準とした追加効果は prompt の種類によって異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。