[論文レビュー] A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism
本論文は、ウェブ上のコンテンツがしばらくは多言語へ機械翻訳され、MT生成コンテンツが低リソース言語で支配的であり、翻訳の品質低下と相関していることを示している。
We show that content on the web is often translated into many languages, and the low quality of these multi-way translations indicates they were likely created using Machine Translation (MT). Multi-way parallel, machine generated content not only dominates the translations in lower resource languages; it also constitutes a large fraction of the total web content in those languages. We also find evidence of a selection bias in the type of content which is translated into many languages, consistent with low quality English content being translated en masse into many lower resource languages, via MT. Our work raises serious concerns about training models such as multilingual large language models on both monolingual and bilingual data scraped from the web.
研究の動機と目的
- ウェブ上のコンテンツが頻繁にMTを用いて多くの言語へ翻訳されていることを示す。
- 特に低リソース言語での多方向 paralleL translations の普及度と品質を定量化する。
- 多言語へ翻訳されるコンテンツにおける選択バイアスを特定し、多言語ML訓練への影響を議論する。
提案手法
- MWccMatrixを構築する。ccMatrix/Common Crawl 由来の90言語で6.4Bの一意文からなる多方向並列コーパス。
- 除去とプリューニングを行い、2.2Bのタプルと7.9Bの一意文に削減。近似重複を除去。
- CometQEを用いて、マルチウェイ並列性レベル全体で翻訳品質を評価し、MTと人間翻訳の品質を比較。
- 多方向並列データの特徴を理解するため、話題分布と長さ/困惑度のパターンを分析。
- LASERマージンスコアを比較し、多方向並列コンテンツのMTバイアスを評価。
- 透明性のため、再現可能なコードとコーパス作成の詳細を提供。
実験結果
リサーチクエスチョン
- RQ1単言語のウェブデータのうち、少なくとも別の言語へ翻訳がある割合はどの程度で、リソース水準によってどのように変化するか?
- RQ2多方向並列性(2-way、3-4、5-7、8+言語)によって翻訳品質はどのように変化するか?
- RQ3多言語へ翻訳されるコンテンツの話題と構造的特徴は何か?
- RQ4ウェブ収集MTデータが多言語モデル訓練とデータフィルタリングの決定にどの程度影響するか?
- RQ5多方向並列性は、ウェブ上の低品質MTや機械生成コンテンツの検出器として使えるか?
主な発見
- 3.63B of 6.38B sentences (57.1%) are in multi-way parallel translation tuples.
- Lower-resource languages exhibit higher average parallelism (8.6) than high-resource languages (4.0).
- Multi-way parallel translations score significantly lower in quality (about 6.2 CometQE points worse) than 2-way translations across eight language pairs.
- Multi-way parallel data tends to be shorter, more predictable, and skewed toward the Conversation/Opinion topic.
- A substantial portion of total web content in lower-resource languages may be MT-generated due to this selection bias.
- LASER-based analysis indicates MT bias increases with multi-way parallelism, supporting the MT origin of the data.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。