QUICK REVIEW

[論文レビュー] An alternative text representation to TF-IDF and Bag-of-Words

Zhixiang Xu, Xu|arXiv (Cornell University)|Jan 28, 2013

Topic Modeling参考文献 25被引用数 23

ひとこと要約

本稿では、ランダムな語の削除と閉形式の周辺化を用いて、頻度の低い語から頻度の高い語を再構築するように学習することで、スパースな Bag-of-Words (sBoW) 表現を密度の高いベクトルに変換する非教師あり手法である Dense Cohort of Terms (dCoT) を提案する。dCoT は、特に低データ環境において文書分類の精度を顕著に向上させ、LDA や LSI よりも最大 1,000 倍高速であり、Reuters および Dmoz データセットで最先端の性能を達成する。

ABSTRACT

In text mining, information retrieval, and machine learning, text documents are commonly represented through variants of sparse Bag of Words (sBoW) vectors (e.g. TF-IDF). Although simple and intuitive, sBoW style representations suffer from their inherent over-sparsity and fail to capture word-level synonymy and polysemy. Especially when labeled data is limited (e.g. in document classification), or the text documents are short (e.g. emails or abstracts), many features are rarely observed within the training corpus. This leads to overfitting and reduced generalization accuracy. In this paper we propose Dense Cohort of Terms (dCoT), an unsupervised algorithm to learn improved sBoW document features. dCoT explicitly models absent words by removing and reconstructing random sub-sets of words in the unlabeled corpus. With this approach, dCoT learns to reconstruct frequent words from co-occurring infrequent words and maps the high dimensional sparse sBoW vectors into a low-dimensional dense representation. We show that the feature removal can be marginalized out and that the reconstruction can be solved for in closed-form. We demonstrate empirically, on several benchmark datasets, that dCoT features significantly improve the classification accuracy across several document classification tasks.

研究の動機と目的

従来の sBoW や TF-IDF 表現の過剰にスパースな性質が、低データ量または短いテキストの状況での一般化を妨えるのを是正すること。
希少語と頻度の高い語の共起関係をモデル化することで、語レベルの類義語関係や多義語現象を捉えること。
ラベル付きデータを必要とせず、下流の分類タスクを向上させる効率的な非教師あり特徴学習手法を開発すること。
トピックのような高次元の意味的構造を発見するために、変換を再帰的に適用可能にする仕組みを提供すること。
LDA や LSI などの既存手法と比較して、著しく短い訓練時間で最先端の性能を達成すること。

提案手法

dCoT は、ドキュメントから語のサブセット（確率 p で）をランダムに削除することでノイズを模擬し、ラベルなしテキスト上で訓練を行う。
すべての可能な削除パターンについて周辺化を適用することで導出された閉形式解を用いて、残存する希少語から元の頻度の高い語を再構築するようにモデルを学習する。
複数のレイヤーにわたって変換を再帰的に適用することで、語とトピック間の高次相関を捉える。
結果として得られる特徴マッピングは、反復的最適化を必要とせず、閉形式で効率的に計算できる元の sBoW ベクトルの線形変換である。
モデルが共起する希少語から欠落した頻度の高い語を推論するように強制することで、意味的関係が暗黙的に学習される。
最終的な表現は、SVM などの分類器に使用可能な低次元の密度の高いベクトルである。

実験結果

リサーチクエスチョン

RQ1頻度の低い語から頻度の高い語を再構築することによって、非教師あり手法が sBoW 表現を改善できるか？
RQ2再構築プロセスを再帰的に適用することで、意味的表現が向上し、高次元のトピックが捉えられるか？
RQ3特にラベル付きデータが少ない状況下で、dCoT は TF-IDF や LSI、LDA と比較して分類精度で優れるか？
RQ4LDA や LSI などの既存手法と比較して、著しく高速である一方で最先端の性能を達成できるか？
RQ5実際の応用において、最適なノイズレベルとレイヤー数は何か？

主な発見

dCoT は、Reuters および Dmoz ベンチマークデータセットにおいて、TF-IDF や LSI、LDA を上回り、特にラベル付きデータが少ない状況で顕著な優位性を示す。
Reuters データセットでは、dCoT が全テスト設定で最高の分類精度を達成し、LDA の 3 時間と比較して 3 分の訓練時間で実現した。
LDA や LSI よりも最大 1,000 倍の高速化を達成し、特徴学習時間を数時間から数分に短縮した。
dCoT の再帰的適用（l > 1 レイヤー）により性能が向上し、より深い表現が高次元の意味的相関を捉えられることを確認した。
驚くべきことに、高いノイズレベル（1 - p）が最良の結果をもたらし、過酷なノイズが微妙な意味的関係の学習を促進することが示唆された。
dCoT の閉形式解により、インフェレンス（数ミリ秒）と訓練（数秒）が極めて高速となり、実世界の応用に実用的であることがわかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。