Skip to main content
QUICK REVIEW

[論文レビュー] Cross Language Text Classification via Subspace Co-Regularized Multi-View Learning

Yuhong Guo, Min Xiao|arXiv (Cornell University)|Jun 27, 2012
Text and Document Classification Technologies参考文献 20被引用数 39
ひとこと要約

本稿では、機械翻訳によって生成された並列コーパスを用いた言語間テキスト分類のための部分空間共正則化マルチビュー学習手法を提案する。並列文書の部分空間表現同士の整合性を強制し、分類誤差を同時に最小化することで、多様な多言語テキスト分類タスクにおいて、誘導的学習、ドメイン適応、マルチビュー学習手法を上回る優れた性能を達成する。

ABSTRACT

In many multilingual text classification problems, the documents in different languages often share the same set of categories. To reduce the labeling cost of training a classification model for each individual language, it is important to transfer the label knowledge gained from one language to another language by conducting cross language classification. In this paper we develop a novel subspace co-regularized multi-view learning method for cross language text classification. This method is built on parallel corpora produced by machine translation. It jointly minimizes the training error of each classifier in each language while penalizing the distance between the subspace representations of parallel documents. Our empirical study on a large set of cross language text classification tasks shows the proposed method consistently outperforms a number of inductive methods, domain adaptation methods, and multi-view learning methods.

研究の動機と目的

  • 複数言語間での知識移譲により、多言語テキスト分類のラベル付けコストを低減すること。
  • 機械翻訳による並列コーパスを活用することで、リソースが乏しい言語におけるラベル付きデータの制限を克服すること。
  • 共有部分空間表現を用いた複数言語ビュー間での連携学習により、分類性能を向上させること。
  • 分類誤差を最小化するとともに、言語間で文書表現を整列させる共正則化フレームワークを構築すること。

提案手法

  • 本手法は、機械翻訳によって生成された並列コーパスを用い、同じコンテンツを異なる言語で複数のビューとして構築する。
  • 各言語が別個のビューを形成し、それぞれに独自の分類器を適用するマルチビュー学習フレームワークを採用する。
  • 共正則化項として、並列文書間の部分空間表現の距離をペナルティとして課す。
  • 最適化は、各言語ごとの訓練誤差と、共有部分空間内での言語間表現差違を同時に最小化する。
  • 部分空間表現は次元削減により学習され、異なる言語からの対応する文書が共有空間内で近接するように保証される。
  • 分類損失と共正則化ペナルティを組み合わせた共同目的関数を用いて、エンドツーエンドで学習を行う。

実験結果

リサーチクエスチョン

  • RQ1部分空間共正則化により、並列文書の表現を異なる言語間で整列させることで、言語間テキスト分類の性能向上が図れるか?
  • RQ2誘導的移転、ドメイン適応、標準的マルチビュー学習と比較して、本手法は多言語環境下でどのように性能を発揮するか?
  • RQ3ラベル付きデータがターゲット言語で乏しい状況下で、共有部分空間表現による共正則化が一般化性能をどの程度向上させるか?
  • RQ4分類誤差と表現整列の共同最適化は、多様な言語ペアにおいて一貫した性能向上をもたらすか?

主な発見

  • 提案手法は、広範な言語間テキスト分類タスクにおいて、ベースラインの誘導的移転手法を一貫して上回る性能を達成する。
  • 特にリソースが乏しい言語の状況下で、ドメイン適応および標準的マルチビュー学習手法と比較して顕著な向上を示す。
  • 共正則化部は、並列文書の部分空間表現を整列させることで、言語間のドメインシフトを効果的に低減する。
  • 実験結果から、分類と表現整列の共同最適化が、言語ペアに跨るより強固で一般化可能なモデルをもたらすことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。