Skip to main content
QUICK REVIEW

[論文レビュー] Mining Associated Text and Images with Dual-Wing Harmoniums

Eric P. Xing, Rong Yan|arXiv (Cornell University)|Jul 4, 2012
Image Retrieval and Classification Techniques参考文献 4被引用数 32
ひとこと要約

本稿では、多変数正規分布をトピック表現に用い、語数と色ヒストグラムにそれぞれポアソン分布と正規分布を組み合わせることで、効率的な推論とマルチメディアデータにおける頑健なトピック混合を実現する二羽の翼を持つハーモニウムモデルを提案する。このモデルは、TRECVID 2003ニュース動画データにおいて、分類、検索、画像アノテーションの各タスクでLDAおよびGM-LDAを上回る性能を示し、特に語数が少ない状況下でも優れた性能を発揮する。

ABSTRACT

We propose a multi-wing harmonium model for mining multimedia data that extends and improves on earlier models based on two-layer random fields, which capture bidirectional dependencies between hidden topic aspects and observed inputs. This model can be viewed as an undirected counterpart of the two-layer directed models such as LDA for similar tasks, but bears significant difference in inference/learning cost tradeoffs, latent topic representations, and topic mixing mechanisms. In particular, our model facilitates efficient inference and robust topic mixing, and potentially provides high flexibilities in modeling the latent topic spaces. A contrastive divergence and a variational algorithm are derived for learning. We specialized our model to a dual-wing harmonium for captioned images, incorporating a multivariate Poisson for word-counts and a multivariate Gaussian for color histogram. We present empirical results on the applications of this model to classfication, retrieval and image annotation on news video collections, and we report an extensive comparison with various extant models.

研究の動機と目的

  • マルチメディアデータにおけるLDAのような有向モデルのトピック混合および推論効率の制限を解消すること。
  • LDAの代替として、テキストと画像の統合的分析に適した無向グラフィカルモデルを検討すること。
  • 語数が少ない状況下での頑健性を向上させるために、ポアソンベースの語数モデルを導入すること。
  • 単形体に基づくディリクレ事前分布ではなく、多変数正規分布を用いることで、柔軟で連続的なトピック表現を可能にすること。
  • TRECVID 2003データを用いた分類、検索、画像アノテーションという実世界のタスクにおける性能評価を行うこと。

提案手法

  • 隠れユニットと入力ユニットが双方向構造で接続された無向グラフィカルモデルとして、多翼ハーモニウム(MWH)を提案する。
  • トピックを多変数正規分布の確率変数としてモデル化することで、連続的かつ制約のないトピック表現を可能にする。
  • 語数には多変数ポアソン分布を用い、レートはトピックの側面の線形結合によって決定する。
  • 画像の色ヒストグラムには多変数正規分布を用い、平均は同じトピックの側面によって影響を受ける。
  • 推論の効率性と正確性のバランスを図るために、コントラスト的勾配降下法と変分推論を併用してモデル学習を実施する。
  • キャプション付き画像を想定し、テキストと画像特徴のそれぞれに別々の入力翼を持つ二翼ハーモニウム(DWH)にMWHを特殊化する。

実験結果

リサーチクエスチョン

  • RQ1ハーモニウムのような無向モデルが、LDAのような有向モデルを上回る性能を示せるか?
  • RQ2多変数正規分布でトピックをモデル化することで、語数が少ない状況下でもトピック混合の頑健性が向上するか?
  • RQ3多項分布モデルと比較して、ポアソンベースの語数モデルは、誤った語数に敏感になるのを軽減できるか?
  • RQ4DWHモデルは、ニュース動画コレクションにおける画像アノテーションや検索といった実世界のタスクでどの程度の性能を示すか?
  • RQ5DWHの優れた性能は、モデル構造の効果によるものか、それとも学習アルゴリズム(例:コントラスト的勾配降下法)の効果によるものか?

主な発見

  • DWHモデルは、特に潜在次元数を増やすと、GM-MixおよびGM-LDAを上回る高い平均正例率を達成した。
  • コントラスト的勾配降下法による学習は、1000回を超えて安定した性能を示し、過学習への感受性が低く、モデルの優位性が学習アルゴリズムではなくアーキテクチャに起因していることを示唆している。
  • 変分推論の結果、DWHは特に画像アノテーションタスクにおいて他のモデルを上回ることが確認された。
  • ポアソンベースの語数モデルにより、単一語の出現時でも安定したトピック混合が可能であり、多項分布モデルではこのような語が単一のトピックに割り当てられるのとは対照的である。
  • 多変数正規分布によるトピック表現により、柔軟で連続的なトピックモデリングが可能となり、トピック間でスケーリングを共有することで、誤った語数への感受性が低減される可能性がある。
  • 語数が少ない状況下でも、モデルの性能は安定しており、テキスト特徴のデータスパarsityに対して耐性があることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。