[논문 리뷰] Fine-tuning Large Language Models for Domain-specific Machine Translation
논문은 LoRA를 이용한 프롬프트 지향 미세조정 방법으로 일반 목적 LLM(Llama2-7B)을 도메인 특화 기계 번역에 적합하게 조정하고, 도메인 어휘 프롬프트와 혼합 도메인 데이터를 활용해 제로샷 MT 능력을 유지합니다.
Large language models (LLMs) have shown great potential in domain-specific machine translation (MT). However, one major issue is that LLMs pre-trained on general domain corpus might not generalize well to specific domains due to the lack of domain-specific knowledge. To address this issue, this paper focuses on enhancing the domain-specific MT capability of LLMs, by providing high-quality training datasets and proposing a novel fine-tuning framework denoted by DragFT. DragFT augments LLMs via three techniques: (i) Dictionary-enhanced prompting integrates dictionary information into prompts to improve the translation of domain-specific terminology.; (ii) RAG-based few-shot example selection provides high-quality examples that simulate both the domain and style characteristics; (iii) Fine-tuning with few-shot examples further enhances performance when using in-domain examples. We deploy DragFT on three well-known LLM backbones with 13B training parameters to validate its effectiveness. The results on three domain-specific datasets show that DragFT achieves a significant performance boost and shows superior performance compared to advanced models such as GPT-3.5 and GPT-4o. The drastic performance improvement of DragFT over existing LLMs can be attributed to incorporating relevant knowledge while mitigating noise.
연구 동기 및 목표
- 맥락 기반 학습의 비효율성과 미세조정으로 인한 과도한 특화 문제를 해결함으로써 도메인 특화 MT의 개선을 목표로 한다.
- 자연어 번역 지시를 활용한 경량의 미세조정 접근법(LoRA)을 제시한다.
- 드문 단어 번역 강화를 위해 자체 구성 IT 도메인 데이터셋과 도메인 어휘를 활용한다.
- 혼합 도메인 학습이 제로샷 MT 능력을 보존하면서 도메인 특화 MT를 향상시키는지 입증한다.
- 도메인 용어에 대한 사전 기반 프롬프트가 도메인 용어 처리에서 체인-사전 프롬프트보다 우수하다는 것을 보인다.
제안 방법
- 중국어-영어 IT 문서를 정렬하여 IT 도메인의 이중언어 데이터셋을 생성하고 제로샷 번역기와의 검증을 통해 데이터의 품질을 확보한다.
- 영어로 된 번역 작업 지시 및 설명을 생성하고 이 데이터셋에서 LoRA로 미세조정하여 추론 시 제로샷 번역이 가능하도록 한다.
- 사전 기반 프롬프트(Dictionary-Rephrasing 및 Chain-of-Dictionary 변형)를 통해 대형 IT 이중언어 사전을 활용하여 도메인 어휘를 보강한다.
- 도메인 특화 데이터와 일반 도메인 데이터를 결합한 최종 혼합 도메인 데이터셋을 구성하여 제로샷 MT 능력을 회복하고 과도한 특화를 방지한다.
- MT 프롬프트의 가장 효과적인 영어 지시 스타일을 식별하기 위해 프롬 prompting 템플릿을 평가한다.
- LoRA와 같은 매개변수 효율적 미세조정과 전체 미세조정을 비교하여 학습 효율성을 평가한다.
실험 결과
연구 질문
- RQ1프롬프트 지향 미세조정이 제로샷 예시나 맥락 예시 의존 없이도 도메인 특화 MT를 개선할 수 있는가?
- RQ2도메인 특화 어휘를 사전 기반 프롬 prompting으로 도입하면 희귀 도메인 용어 번역이 향상되는가?
- RQ3도메인 특화 데이터와 일반 도메인 데이터를 혼합해 학습하면 제로샷 MT 능력이 보전되면서 도메인 MT가 향상되는가?
- RQ4번역 지시 템플릿이 MT 성능에 미치는 영향은 무엇인가?
주요 결과
| 모델 | Flores-101 BLEU | Flores-101 COMET | OPUS-100 BLEU | OPUS-100 COMET | IT BLEU | IT COMET | XFIT24 BLEU | XFIT24 COMET |
|---|---|---|---|---|---|---|---|---|
| Llama2-7B † | 25.38 | 49.90 | 24.99 | -28.93 | 22.72 | 32.79 | - | - |
| LlamaIT † | 22.04 (↓3.34) | 45.49 (↓4.41) | 35.91 (↑10.92) | 61.97 (↑90.90) | 55.16 (↑32.44) | 89.24 (↑56.45) | - | - |
| Llama2-7B ‡ | 33.49 | 55.18 | 27.54 | 5.36 | 33.26 | 64.67 | - | - |
| LlamaIT ‡ | 32.60 (↓0.89) | 53.98 (↓1.2) | 37.79 (↑10.25) | 72.98 (↑67.62) | 63.76 (↑30.50) | 101.71 (↑37.04) | - | - |
- 프롬프트 지향 미세조정(LlamaIT)은 IT 도메인 번역 작업에서 기본 LLM 대비 도메인 특화 MT를 상당히 향상시킨다.
- 사전 기반 프롬 prompting(Dictionary-Rephrasing)은 도메인 용어 처리에서 체인-오브-디시셔너리 프롬 prompting보다 우수하다.
- LoRA를 이용한 미세조정은 전체 미세조정에 비해 훨씬 적은 매개변수로 도메인 MT에서 큰 향상을 달성하고 학습 시간도 감소한다.
- 혼합 도메인 학습은 일반 도메인에서의 제로샷 MT 능력을 회복하는 한편 도메인 MT 성능을 유지한다.
- 영어 지시 템플릿을 사용한 제로샷 프롬 prompting이 평가된 템플릿 중에서 평균 MT 성능이 가장 좋다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.