[論文レビュー] BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models
BayLing はインタラクティブ翻訳フレームワークを用いて 英語の指示追従能力を非英語言語へ転送し、13Bパラメータで GPT-3.5-turbo–level の性能を達成し、翻訳と一般タスク能力が高い。
Large language models (LLMs) have demonstrated remarkable prowess in language understanding and generation. Advancing from foundation LLMs to instructionfollowing LLMs, instruction tuning plays a vital role in aligning LLMs to human preferences. However, the existing LLMs are usually focused on English, leading to inferior performance in non-English languages. In order to improve the performance for non-English languages, it is necessary to collect language-specific training data for foundation LLMs and construct language-specific instructions for instruction tuning, both of which are heavy loads. To minimize human workload, we propose to transfer the capabilities of language generation and instruction following from English to other languages through an interactive translation task. We have developed BayLing, an instruction-following LLM by utilizing LLaMA as the foundation LLM and automatically constructing interactive translation instructions for instructing tuning. Extensive assessments demonstrate that BayLing achieves comparable performance to GPT-3.5-turbo, despite utilizing a considerably smaller parameter size of only 13 billion. Experimental results on translation tasks show that BayLing achieves 95% of single-turn translation capability compared to GPT-4 with automatic evaluation and 96% of interactive translation capability compared to GPT-3.5-turbo with human evaluation. To estimate the performance on general tasks, we created a multi-turn instruction test set called BayLing-80. The experimental results on BayLing-80 indicate that BayLing achieves 89% of performance compared to GPT-3.5-turbo. BayLing also demonstrates outstanding performance on knowledge assessment of Chinese GaoKao and English SAT, second only to GPT-3.5-turbo among a multitude of instruction-following LLMs. Demo, homepage, code and models of BayLing are available.
研究の動機と目的
- クロスリンガルなインタラクティブ翻訳を活用して、非英語の指示チュuning の人手を削減することを動機づける。
- BayLing を提案し、英語の生成能力と指示追従能力を、非英語の大規模な事前学習データを用いずに他言語へ転送する。
- インタラクティブ翻訳が複数の言語に跨る言語整合性、指示追従、および多ターン対話を強化できることを示す。
- インタラクティブ翻訳が中国語と英語のタスクを横断する知識タスクおよび一般タスクの性能を改善することを示す。
提案手法
- インタラクティブ翻訳と一般タスクを中心に構築された指示データセットを用いて LLaMA-7B および LLaMA-13B をファインチューニングして BayLing-7B と BayLing-13B を作成する。
- トレーニングを多様化するため、160K のインタラクティブ翻訳インスタンスと補助的な英語中心データセット(Alpaca、ShareGPT)を含む指示データセットを構築する。
- 学習率 2e-5、ウェイトデケイ 0.0、3 エポック、バッチサイズ 32、最大長 1024、メモリ効率化手法(DeepSpeed、Gradient Checkpointing)を用いてトレーニングする。
- 16G メモリの GPU で BayLing-13B 推論に対する8ビット量子化を有効にする。
- 英語–非英語ペア間の翻訳と、翻訳内に英語を含む多ターン指示の学習を通じて、多言語能力を整合させるためにインタラクティブ翻訳を活用する。
- 翻訳、一般タスク、および標準化されたテストを評価して、多言語の整合、指示追従、および多ターン対話を評価する。
実験結果
リサーチクエスチョン
- RQ1大規模な非英語事前学習データを用いずに、インタラクティブ翻訳ベースの指示調整が英語の指示追従能力を非英語へ転送できるか?
- RQ2インタラクティブ翻訳は中国語と英語および追加言語間のクロスリンガル整合性、指示追従、および多ターン対話を改善するか?
- RQ3翻訳特化モデルおよび一般的な指示追従モデルと比較して、BayLing は多言語翻訳ベンチマークおよびゼロショット言語方向でどのように性能を示すか?
- RQ4インタラクティブ翻訳で整合させたときの BayLing の一般タスクおよび標準化知識テストの性能はどうか?
主な発見
- BayLing-13B は中国語↔英語翻訳(COMET スコア)で GPT-4 の水準の 94-97%、ドイツ語↔英語翻訳で 97% の翻訳能力を達成。
- BayLing-13B は人間評価で GPT-3.5-turbo の 96% のインタラクティブ翻訳能力を達成。
- BayLing-80 の一般タスク評価は、GPT-4 による比較評価で GPT-3.5-turbo の性能の 89% に到達。
- BayLing は中国の高考と英語の SAT で高い性能を示し、複数の指示追従型 LLM の中で GPT-3.5-turbo に次ぐ第2位にランク付けされる。
- インタラクティブ翻訳指示は非英語の生成能力を向上させ、英語能力を害することはなく、言語を跨ぐ人間の指示追従と多ターンの一貫性を高める。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。