[論文レビュー] DICNet: Deep Instance-Level Contrastive Network for Double Incomplete Multi-View Multi-Label Classification
DICNet は、ビュー固有の高レベル表現を学習し、インスタンスレベルの対比学習によるビュー間コンセンサスを強制し、欠損データを考慮したビュー融合を行う、ダブル完了不完全なマルチビュー・マルチラベル分類を扱う深層ニューラルネットワークです。
In recent years, multi-view multi-label learning has aroused extensive research enthusiasm. However, multi-view multi-label data in the real world is commonly incomplete due to the uncertain factors of data collection and manual annotation, which means that not only multi-view features are often missing, and label completeness is also difficult to be satisfied. To deal with the double incomplete multi-view multi-label classification problem, we propose a deep instance-level contrastive network, namely DICNet. Different from conventional methods, our DICNet focuses on leveraging deep neural network to exploit the high-level semantic representations of samples rather than shallow-level features. First, we utilize the stacked autoencoders to build an end-to-end multi-view feature extraction framework to learn the view-specific representations of samples. Furthermore, in order to improve the consensus representation ability, we introduce an incomplete instance-level contrastive learning scheme to guide the encoders to better extract the consensus information of multiple views and use a multi-view weighted fusion module to enhance the discrimination of semantic features. Overall, our DICNet is adept in capturing consistent discriminative representations of multi-view multi-label data and avoiding the negative effects of missing views and missing labels. Extensive experiments performed on five datasets validate that our method outperforms other state-of-the-art methods.
研究の動機と目的
- 両方のビューとラベルが欠落する可能性がある、ダブル完了不完全なマルチビュー・マルチラベル分類を動機づけ、解決する。
- ビュー固有のオートエンコーダを通じて高レベルの意味特徴を学習する深層アーキテクチャを開発する。
- 欠落インスタンスレベルの対比学習を取り入れて、ビュー間のコンセンサスを促進する。
- 欠落データに robust に対処する重み付きマルチビュー融合モジュールを実装する。
- 欠落ビューおよび欠落ラベルへの対応を可能としたエンドツーエンドの教師ありまたは半教師ありトレーニング。
提案手法
- ビューごとのオートエンコーダを用いたビュー固有表現学習により高レベル特徴を抽出し、入力を再構成する。欠落ビューを考慮した再構成損失を用いる。
- 欠落インスタンスレベル対比学習により、同一サンプルを異なるビュー間で引き寄せ、異なるサンプルを押し離す。アンカー/ポジティブ/ネガティブ方式と欠落ビューマスキングを利用。
- 利用可能な各ビューの特徴を単一のサンプル表現へ統合する重み付き融合モジュール。欠落ビューの影響を緩和。
- 統合表現上で動作するマルチラベル分類器と欠落ラベル指標を用いて無効な監視を抑制。
- 全体のトレーニング目的は、マルチラベル分類損失、インスタンスレベル対比損失、再構成損失を組み合わせたもの:L = L_MC + β L_IC + γ L_FR。
実験結果
リサーチクエスチョン
- RQ1ダブルの不完全性(欠落ビューと欠落ラベル)をMVMLCでどのように効果的に対処できるか。
- RQ2インスタンスレベル対比学習を活用するエンドツーエンドの DNN は、不完全データ下でビュー間のコンセンサスと識別性を改善できるか。
- RQ3重み付き融合戦略は欠落ビューへのロバスト性を高めつつ識別的な意味情報を保持できるか。
- RQ4提案する損失(分類、対比、再構成)がDIMVMLCタスクの性能に与える影響はどの程度か。
主な発見
| Dataset | Metric | lrMMC | MVL-IV | MvEL-ILD | iMSF | iMvWL | NAIML | ours |
|---|---|---|---|---|---|---|---|---|
| Corel5k | AP | 0.240 | 0.240 | 0.204 | 0.189 | 0.283 | 0.309 | 0.381 |
| Corel5k | 1-HL | 0.954 | 0.954 | 0.946 | 0.943 | 0.978 | 0.987 | 0.988 |
| Corel5k | 1-RL | 0.762 | 0.756 | 0.638 | 0.709 | 0.865 | 0.878 | 0.882 |
| Corel5k | AUC | 0.763 | 0.762 | 0.715 | 0.663 | 0.868 | 0.881 | 0.884 |
| VOC2007 | AP | 0.425 | 0.433 | 0.358 | 0.325 | 0.441 | 0.488 | 0.505 |
| VOC2007 | 1-HL | 0.882 | 0.883 | 0.837 | 0.836 | 0.882 | 0.928 | 0.929 |
| VOC2007 | 1-RL | 0.698 | 0.702 | 0.643 | 0.568 | 0.737 | 0.783 | 0.783 |
| VOC2007 | AUC | 0.728 | 0.730 | 0.686 | 0.620 | 0.767 | 0.811 | 0.809 |
| ESP Game | AP | 0.188 | 0.189 | 0.132 | 0.108 | 0.242 | 0.246 | 0.297 |
| ESP Game | 1-HL | 0.970 | 0.970 | 0.967 | 0.964 | 0.972 | 0.983 | 0.983 |
| ESP Game | 1-RL | 0.777 | 0.778 | 0.683 | 0.722 | 0.807 | 0.818 | 0.832 |
| ESP Game | AUC | 0.783 | 0.784 | 0.734 | 0.674 | 0.813 | 0.824 | 0.836 |
| IAPR TC-12 | AP | 0.197 | 0.198 | 0.141 | 0.101 | 0.235 | 0.261 | 0.323 |
| IAPR TC-12 | 1-HL | 0.967 | 0.967 | 0.963 | 0.960 | 0.969 | 0.981 | 0.981 |
| IAPR TC-12 | 1-RL | 0.801 | 0.799 | 0.725 | 0.631 | 0.833 | 0.848 | 0.873 |
| IAPR TC-12 | AUC | 0.805 | 0.804 | 0.746 | 0.665 | 0.836 | 0.850 | 0.874 |
| MIR Flickr | AP | 0.441 | 0.449 | 0.375 | 0.323 | 0.495 | 0.551 | 0.589 |
| MIR Flickr | 1-HL | 0.839 | 0.839 | 0.778 | 0.775 | 0.840 | 0.882 | 0.888 |
| MIR Flickr | 1-RL | 0.802 | 0.808 | 0.771 | 0.641 | 0.806 | 0.844 | 0.863 |
| MIR Flickr | AUC | 0.806 | 0.807 | 0.761 | 0.715 | 0.794 | 0.837 | 0.849 |
- DICNet は、ダブル不完全条件の下で5つのデータセットにおいて最先端手法を上回る。
- Corel5k で 0.381 の AP、0.988 の 1-HL、0.882 の 1-RL、0.884 の AUC を達成し、競合を上回る。
- VOC2007 で 0.505 の AP、0.929 の 1-HL、0.783 の 1-RL、0.809 の AUC を達成し、ベースラインをリード。
- ESP Game で 0.297 の AP、0.983 の 1-HL、0.832 の 1-RL、0.836 の AUC を達成し、比較を上回る。
- IAPR TC-12 で 0.323 の AP、0.981 の 1-HL、0.873 の 1-RL、0.874 の AUC を達成し、ライバルを上回る。
- MIR Flickr で 0.589 の AP、0.888 の 1-HL、0.863 の 1-RL、0.849 の AUC を達成し、一貫した改善を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。