QUICK REVIEW

[論文レビュー] (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts

Minghao Wu, Xu, Jiahao|arXiv (Cornell University)|May 20, 2024

Translation Studies and Practices被引用数 5

ひとこと要約

本論文は TransAgents という超長い文学テキストを翻訳する多エージェント LLM ベースのシステムを紹介し、Monolingual Human Preference (MHP) および Bilingual LLM Preference (BLP) 評価手法を提案する。TransAgents は d-BLEU スコアが低いにもかかわらず、読者の嗜好において人間の参照より優れており、費用の大幅な節約を実現できることを示す。

ABSTRACT

Literary translation remains one of the most challenging frontiers in machine translation due to the complexity of capturing figurative language, cultural nuances, and unique stylistic elements. In this work, we introduce TransAgents, a novel multi-agent framework that simulates the roles and collaborative practices of a human translation company, including a CEO, Senior Editor, Junior Editor, Translator, Localization Specialist, and Proofreader. The translation process is divided into two stages: a preparation stage where the team is assembled and comprehensive translation guidelines are drafted, and an execution stage that involves sequential translation, localization, proofreading, and a final quality check. Furthermore, we propose two innovative evaluation strategies: Monolingual Human Preference (MHP), which evaluates translations based solely on target language quality and cultural appropriateness, and Bilingual LLM Preference (BLP), which leverages large language models like GPT-4} for direct text comparison. Although TransAgents achieves lower d-BLEU scores, due to the limited diversity of references, its translations are significantly better than those of other baselines and are preferred by both human evaluators and LLMs over traditional human references and GPT-4} translations. Our findings highlight the potential of multi-agent collaboration in enhancing translation quality, particularly for longer texts.

研究の動機と目的

MT と LLM による文学翻訳の課題に対する動機づけと解決
従来の出版作業フローを模倣する多エージェント・フレームワークの提示
文学に特化した新しい評価戦略の導入（MHP と BLP）
コストの利点を示し、ジャンルを横断した強みと限界を分析

提案手法

TransAgents を仮想翻訳会社として提案。役割には CEO、Senior/Junior Editors、Translator、Localization Specialist、Proofreader などが含まれる。
二つの協働戦略を実装：Addition-by-Subtraction (Algorithm 1) と Trilateral Collaboration (Algorithm 2)。
二段階の翻訳ワークフローを使用：準備（役割割り当て、ガイドライン）と実行（翻訳、ローカリゼーション、校正、最終レビュー）。
多様なエージェントをシミュレートするために gpt-4-turbo を用いて 30 のエージェントプロファイルを生成し、役割割り当てのためのゴースト/自己反省メカニズムを採用。
標準的な d-BLEU（ドキュメントレベル）と、好みベースの評価指標（MHP と BLP）で翻訳を評価。
Llama-MT、GPT-4 系列、Google Translate、DUT、HW-TSC などのベースラインと比較。

実験結果

リサーチクエスチョン

RQ1超長い文学テキストを翻訳する際、マルチエージェント・LLM ベースのプロセスは伝統的な MT や人間の参照とどう比較されるか？
RQ2 novel evaluation strategies (MHP and BLP) は従来の指標より文学翻訳の質をより正しく捉えられるか？
RQ3 BLEU ベースの品質と読者/LLM の嗜好とのトレードオフは文学翻訳でどうなるか？
RQ4 文学のための多エージェント翻訳システムを展開する際の費用影響と限界は？

主な発見

モデル	d-BLEU
Llama-MT (Du et al., 2023b)	43.1
gpt-4-0613 (OpenAI, 2023)	43.7
gpt-4-1106-preview (OpenAI, 2023)	47.8
Google	47.3
DUT (Zhao et al., 2023)	50.2
HW-TSC (Xie et al., 2023)	52.2
TransAgents (Ours)	25.0

TransAgents はベースラインの中で最も低い d-BLEU を達成するものの、読者評価者と LLM 評価者の双方から人間が書いた参照や GPT-4 の翻訳よりも一定のジャンルで一貫して好まれる。
本システムは特定の知識領域（歴史的・文化的ニュアンスが必要な分野）で優れ、参照よりもより多様で生き生きとした描写を生み出す。
大幅なコスト優位性があり、TransAgents は専門の人間翻訳に対して最大で 80x のコスト削減を提供。
LLM ベースの翻訳システムは長い反復過程での内容の省略や品質変動といった課題に依然直面している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。