[論文レビュー] Fine-tuning Large Language Models for Domain-specific Machine Translation
本論文は、一般用途LLM(Llama2-7B)をドメイン固有の機械翻訳に適応させるための LoRA を用いたプロンプト指向のファインチューニング手法である LlamaIT を提案し、ドメイン語彙プロンプトと混在ドメインデータを組み合わせてゼロショット翻訳能力を維持する。
Large language models (LLMs) have shown great potential in domain-specific machine translation (MT). However, one major issue is that LLMs pre-trained on general domain corpus might not generalize well to specific domains due to the lack of domain-specific knowledge. To address this issue, this paper focuses on enhancing the domain-specific MT capability of LLMs, by providing high-quality training datasets and proposing a novel fine-tuning framework denoted by DragFT. DragFT augments LLMs via three techniques: (i) Dictionary-enhanced prompting integrates dictionary information into prompts to improve the translation of domain-specific terminology.; (ii) RAG-based few-shot example selection provides high-quality examples that simulate both the domain and style characteristics; (iii) Fine-tuning with few-shot examples further enhances performance when using in-domain examples. We deploy DragFT on three well-known LLM backbones with 13B training parameters to validate its effectiveness. The results on three domain-specific datasets show that DragFT achieves a significant performance boost and shows superior performance compared to advanced models such as GPT-3.5 and GPT-4o. The drastic performance improvement of DragFT over existing LLMs can be attributed to incorporating relevant knowledge while mitigating noise.
研究の動機と目的
- インコンテキスト学習の非効率性とファインチューニングによる過度の特化を解決することで、ドメイン固有翻訳の改善を促す。
- 自然言語の翻訳指示に導かれた軽量なファインチューニング手法(LoRA)を提案する。
- 自作のITドメインデータセットとドメイン語彙を活用して希少語の翻訳を強化する。
- 混合ドメイン学習がゼロショット翻訳能力を保持しつつ、ドメイン特化翻訳を強化することを実証する。
- 辞書ベースのプロンプティングが、ドメイン用語の連鎖辞書プロンプティングより優れていることを示す。
提案手法
- 中国語-英語IT文書を整合させてITドメインの対訳データセットを作成し、ゼロショット翻訳者で検証する。
- 翻訳タスクの指示説明を英語で生成し、このデータセット上でLoRAを用いてファインチューニングして推論時にゼロショット翻訳を可能にする。
- 辞書ベースのプロンプティング(Dictionary-RephrasingおよびChain-of-Dictionaryバリアント)を介して、ドメイン語彙(大規模IT対訳辞書)を用いて学習を補強する。
- ドメイン固有データと一般ドメインデータを組み合わせた最終的な混合ドメインデータセットを構築し、ゼロショットMT能力を回復させつつ過度な特化を防ぐ。
- MTプロンプトの最も効果的な英語指示スタイルを特定するためにプロンプトテンプレートを評価する。
- トレーニング効率を評価するために、パラメータ効率の高いファインチューニング(LoRA)と全結合のファインチューニングを比較する。
実験結果
リサーチクエスチョン
- RQ1LoRAを用いたプロンプト指向のファインチューニングは、後処理やイン-context例への依存を回避しつつ、ドメイン固有翻訳を改善できるか。
- RQ2辞書ベースのプロンプティングを通じてドメイン固有語彙を取り入れると、希少なドメイン語の翻訳が改善されるか。
- RQ3ドメイン特化データと一般データの混合で、ゼロショット翻訳能力を保持しつつドメイン翻訳を強化できるか。
- RQ4翻訳指示テンプレートが翻訳性能に与える影響は何か。
主な発見
| モデル | Flores-101 BLEU | Flores-101 COMET | OPUS-100 BLEU | OPUS-100 COMET | IT BLEU | IT COMET | XFIT24 BLEU | XFIT24 COMET |
|---|---|---|---|---|---|---|---|---|
| Llama2-7B † | 25.38 | 49.90 | 24.99 | -28.93 | 22.72 | 32.79 | - | - |
| LlamaIT † | 22.04 (↓3.34) | 45.49 (↓4.41) | 35.91 (↑10.92) | 61.97 (↑90.90) | 55.16 (↑32.44) | 89.24 (↑56.45) | - | - |
| Llama2-7B ‡ | 33.49 | 55.18 | 27.54 | 5.36 | 33.26 | 64.67 | - | - |
| LlamaIT ‡ | 32.60 (↓0.89) | 53.98 (↓1.2) | 37.79 (↑10.25) | 72.98 (↑67.62) | 63.76 (↑30.50) | 101.71 (↑37.04) | - | - |
- プロンプト指向のファインチューニング(LlamaIT)は、ITドメイン翻訳タスクで基礎となるLLMsよりドメイン特化翻訳を大幅に改善する。
- 辞書ベースのプロンプティング(Dictionary-Rephrasing)は、ドメイン語の用語処理において辞書連鎖プロンプティングより優れている。
- LoRAでのファインチューニングは、全ファインチューニングと comparing 時より訓練可能パラメータがはるかに少なく、訓練時間を短縮しつつドメイン翻訳で大きな利益をもたらす。
- 混合ドメイン学習は一般分野のゼロショット翻訳能力を回復させつつ、強力なドメイン翻訳性能を維持する。
- 英語指示テンプレートを用いたゼロショットプロンプティングが、テストされたテンプレートの中で平均翻訳性能が最も良い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。