Skip to main content
QUICK REVIEW

[論文レビュー] Hierarchical Optimal Transport for Document Representation

Mikhail Yurochkin, Sebastian Claici|arXiv (Cornell University)|Jun 26, 2019
Music and Audio Processing参考文献 31被引用数 35
ひとこと要約

階層型最適輸送(HOTT)を導入し、トピックの分布として文書をモデリング(それらは語の分布)し、トピック空間上の Wasserstein 距離を基盤距離として WMD を使用して計算することにより文書類似性を測定します。WMD と比較して解釈性とスケーラビリティが向上し、k-NN 分類における精度は同等程度です。

ABSTRACT

The ability to measure similarity between documents enables intelligent summarization and analysis of large corpora. Past distances between documents suffer from either an inability to incorporate semantic similarities between words or from scalability issues. As an alternative, we introduce hierarchical optimal transport as a meta-distance between documents, where documents are modeled as distributions over topics, which themselves are modeled as distributions over words. We then solve an optimal transport problem on the smaller topic space to compute a similarity score. We give conditions on the topics under which this construction defines a distance, and we relate it to the word mover's distance. We evaluate our technique for k-NN classification and show better interpretability and scalability with comparable performance to current methods at a fraction of the cost.

研究の動機と目的

  • 意味情報を活用したコーパス特有のトピックと語の意味情報を活用した、効率的で解釈可能な文書類似性を動機づける。
  • 語ではなくトピック間で輸送することにより計算量を削減する階層的輸送距離を提案する。
  • HOTT を既存の指標(特に WMD)と関連づけ、HOTT がメトリックとなる条件を分析する。
  • k-NN分類と可視化タスクにおける HOTT の性能とスケーラビリティを実証する。
  • トピック数、埋め込みの品質、切り捨て戦略に対する頑健性を検討する。

提案手法

  • 各文書を LDA から得られるトピックの分布として表現する。
  • トピックを語の分布として表現し、語の埋め込みを用いて語の分布上の WMD によってトピック間の ground metric を定義する。
  • HOTT を、文書のトピックの割合で重み付けされたトピックレベルの Dirac 質量を用いた、2つの文書のトピック混合分布間の 1-Wasserstein 距離として定義する。
  • トピック間距離のペアワイズ(トピック間の WMD)を事前計算し、解釈性を高め、分散を減らすためにトピックを少数の語へ切り詰める。
  • WMD への理論的関連性と界を示し、トピック数が語彙サイズに等しい場合に HOTT が WMD に縮退することを含む。
  • k-NN分類、可視化(t-SNE)および引用ネットワークでのリンク予測を評価し、RWMD、WMD、およびベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1階層型最適輸送は文書類似性のためのメトリックベースでスケーラブルな代替案として WMD に提供できるか?
  • RQ2コーパス特有のトピックと語埋め込みに基づくトピック距離を取り入れることが、解釈性と性能にどう影響するか?
  • RQ3トピック数とトピックの切り捨てが精度と速度に及ぼす影響はどの程度か?
  • RQ4さまざまなデータセットで埋め込みの品質と文書長に対して HOTT は頑健か?
  • RQ5HOTT は可視化やリンク予測のような下流タスクに効果的に利用できるか?

主な発見

  • HOTT はトピックレベルでの輸送問題が小さいため WMD/RWMD よりも高速で、いくつかのデータセットで k-NN の精度は同等またはより良い。
  • 意味論的に意味のあるトピック間の輸送を検査できるため、トピックレベルの解釈性が向上する(例: 著者の最も重いトピック間の輸送)。
  • HOTT はトピック数と語埋め込みの品質に頑健であり、上位語へのトピックの切り捨ては速度を犠牲にすることなく性能を維持する。
  • Gutenberg などの長文で、スループットと距離ベースの分類で競合より優れる。短い文書では RWMD/WMD に近い性能。
  • HOTT は輸送問題が小さいトピック空間で解かれるため、大規模コーパスにもスケールしやすい。事前計算されたトピック距離を持つ。
  • HOTT 距離を用いた可視化(t-SNE)は RWMD と比べてラベルの分離が明確である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。