QUICK REVIEW

[論文レビュー] Cross-Domain Object Matching with Model Selection

Makoto Yamada, Masashi Sugiyama|arXiv (Cornell University)|Dec 7, 2010

Advanced Image and Video Retrieval Techniques参考文献 22被引用数 31

ひとこと要約

本稿では、カーネルに基づく依存度測定におけるモデル選択問題に対処するため、2つの新しいクロスドメインオブジェクトマッピング（CDOM）手法——KS-NOCCO および最小二乗オブジェクトマッピング（LSOM）——を提案する。LSOMは、交差検証を用いた最小二乗相互情報量を用いており、画像マッチング、音声変換、フォトアルバム要約の分野で、カーネルパラメータのデータ駆動型チューニングを可能にすることで、既存手法を上回る性能を発揮する。

ABSTRACT

The goal of cross-domain object matching (CDOM) is to find correspondence between two sets of objects in different domains in an unsupervised way. Photo album summarization is a typical application of CDOM, where photos are automatically aligned into a designed frame expressed in the Cartesian coordinate system. CDOM is usually formulated as finding a mapping from objects in one domain (photos) to objects in the other domain (frame) so that the pairwise dependency is maximized. A state-of-the-art CDOM method employs a kernel-based dependency measure, but it has a drawback that the kernel parameter needs to be determined manually. In this paper, we propose alternative CDOM methods that can naturally address the model selection problem. Through experiments on image matching, unpaired voice conversion, and photo album summarization tasks, the effectiveness of the proposed methods is demonstrated.

研究の動機と目的

カーネルに基づく依存度測定を用いたクロスドメインオブジェクトマッピング（CDOM）における、手動によるカーネルパラメータチューニングの課題を解決すること。
KS-MI や KS-HSIC といった既存手法がヒューリスティックまたは非最適なカーネルパラメータ選択に依存するという限界を克服すること。
交差検証を用いて客観的かつデータ駆動型のモデル選択を可能にするCDOM手法の開発。
画像マッチング、非ペアド音声変換、フォトアルバム要約といった多様なタスクにおいて、提案手法の有効性を実証すること。
LSOMを、ハイパーパramータにほとんど感度を示さない、堅牢で一貫性があり実用的なCDOM手法として確立すること。

提案手法

正規化されたクロスコバリアンス作用素（NOCCO）をカーネルに基づく依存度測定として用いるCDOM手法であるKS-NOCCO を提案。これは漸近的にカーネル選択に依存しない。
最小二乗相互情報量（LSMI）を二乗損失相互情報量の一貫性のある推定器として用いる最小二乗オブジェクトマッピング（LSOM）を導入。
LSMIの基準に対する交差検証を用いて、ガウスカーネル幅や正則化パラメータを含むチューニングパラメータを客観的に最適化可能にすること。
オブジェクト集合 $\{\bm{x}_i\}$ と $\{\bm{y}_i\}$ 間のマッピングを置換行列 $\bm{\Pi}$ で表現し、依存度測定 $D(Z(\bm{\Pi}))$ を最大化することを目的とする。
ガウスカーネル $K(\bm{x}, \bm{x}') = \exp(-\|\bm{x} - \bm{x}'\|^2 / (2\tau^2))$ を用いたカーネル化された定式化と正則化を採用し、数値的安定性を確保する。
実世界のタスクへの適用のために、画像を高次元ベクトル（例：RGB では 4800D、グレースケールでは 256D）に変換し、それらを2次元グリッドフレームに整列させる。

実験結果

リサーチクエスチョン

RQ1ヒューリスティックに依存せずに、カーネルパラメータ選択への感受性を低減するCDOM手法を開発可能か？
RQ2有限標本設定において、正規化されたクロスコバリアンス作用素（NOCCO）に基づく依存度測定は、HSIC よりもより頑健な性能を発揮するか？
RQ3交差検証をCDOMに効果的に適用でき、複数のチューニングパラメータをデータ駆動的に最適化できるか？
RQ4画像マッチングや音声変換といった多様なタスクにおいて、LSOM は KS-HSIC や KS-NOCCO と比較して優れた性能を発揮するか？
RQ5フォトアルバム要約において、LSOM は視覚的に類似した画像を空間的にグループ化することで、優れた配置品質を達成できるか？

主な発見

非ペアド音声変換において、LSOM は 100 回のランで平均してより低いログスペクトル距離を達成し、KS-HSIC や KS-NOCCO を上回る性能を発揮した。
フォトアルバム要約において、LSOM は視覚的に類似した画像が空間的にグループ化されるように、長方形や複雑な形状のフレーム（例：「マウンテン」、「スマイルイ」、「777」）に画像を整列させることに成功した。
40×40×3 にリサイズされた 320 枚の Flickr 画像に対して、LSOM は図 6(a) に示すように、色が類似した画像がクラスタリングされる整合性のあるレイアウトを生成した。
Frey データセットの 225 枚の顔画像を用いた実験では、LSOM は顔の表情や向きに基づいて画像を整列させ、図 6(b) に示すように一貫性のある「スマイルイ」形のレイアウトを形成した。
数字認識タスクでは、LSOM が 320 枚の数字「7」の画像をプロファイルの類似性でグループ化し、図 6(c) に示すように明確な「777」形状のレイアウトを形成した。
LSOM における交差検証の使用により、カーネル幅と正則化パラメータの自動的かつ客観的なチューニングが可能になり、手動によるパラメータ選択が不要になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。