QUICK REVIEW

[論文レビュー] Order-Free RNN with Visual Attention for Multi-Label Classification

Shang‐Fu Chen, Yi‐Chen Chen|arXiv (Cornell University)|Jul 18, 2017

Text and Document Classification Technologies被引用数 53

ひとこと要約

本論文は、共信頼度 Ranked LSTM を用いて信頼度付き RNN を組み合わせ、事前に定義されたラベル順序を必要とせずに、視覚的注意とラベル依存性を同時に学習する順序自由なRNNを用いた多ラベル画像分類を提案し、頑健性を向上させ、訓練・推論時の事前定義ラベル順序を回避します。

ABSTRACT

In this paper, we propose the joint learning attention and recurrent neural network (RNN) models for multi-label classification. While approaches based on the use of either model exist (e.g., for the task of image captioning), training such existing network architectures typically require pre-defined label sequences. For multi-label classification, it would be desirable to have a robust inference process, so that the prediction error would not propagate and thus affect the performance. Our proposed model uniquely integrates attention and Long Short Term Memory (LSTM) models, which not only addresses the above problem but also allows one to identify visual objects of interests with varying sizes without the prior knowledge of particular label ordering. More importantly, label co-occurrence information can be jointly exploited by our LSTM model. Finally, by advancing the technique of beam search, prediction of multiple labels can be efficiently achieved by our proposed network model.

研究の動機と目的

既存のCNN-RNNアプローチが要求する事前定義ラベル順序の制約と、小さなまたは遮蔽された物体での苦労を動機づけ、解決する。
視覚的注意とLSTMベースの予測子を共同で学習し、ラベル順序と依存関係を自動的に発見する統一ネットワークを提案する。
訓練と推論の一貫性を確保し、逐次予測における誤伝播に対して頑健にする。

提案手法

特徴マッピング（CNNベース）、視覚注意、LSTMベースの予測子（信頼度ランキングLSTM）という三要素のネットワーク。
注意は前のLSTM状態に条件付けられ、領域に焦点を当てた予測を導くコンテキストベクトルを生成する。
固定された順序なしでラベルを逐次予測するため、候補ラベルプールを維持し、推論時にはビームサーチを用いて頑健性を高める。
ソフト予測と真の多ラベルベクトルを直接比較して損失を計算することで、順序に依存しない訓練を可能にする。
推論時のビームサーチは上位Kの予測パスを維持し、逐次予測における誤伝播を緩和する。

実験結果

リサーチクエスチョン

RQ1事前定義順序なしに、注意とLSTMコンポーネントを共同訓練することでRNNベースの多ラベル分類子はラベル依存関係を学べるのか？
RQ2視覚的注意メカニズムを組み込むことで、多ラベル画像における小さなラベルや遮蔽されたラベルの検出が改善されるのか？
RQ3順序自由の訓練/推論は、事前定義順序のCNN-RNNアプローチと比較して誤伝播を減らし頑健性を高めるのか？
RQ4提案手法は標準的な多ラベルベンチマーク（NUS-WIDE、MS-COCO）で、最先端手法と比較してどうなるのか？

主な発見

方法	C-P	C-R	C-F1	O-P	O-R	O-F1
KNN	32.6	19.3	24.3	43.9	53.4	47.6
Softmax	31.7	31.2	31.4	47.8	59.5	53.0
WARP	31.7	35.6	33.5	48.6	60.5	53.9
CNN-RNN	40.5	30.4	34.7	49.9	61.7	55.2
Resnet-baseline	46.5	47.6	47.1	61.6	68.1	64.7
Frequency-first (w/ atten)	48.9	48.7	48.8	62.1	69.4	65.5
Rare-first (w/ atten)	53.9	51.8	52.8	55.1	65.2	59.8
Ours (w/o atten)	60.8	49.5	54.5	68.3	72.4	70.2
Ours	59.4	50.7	54.7	69.0	71.4	70.2

提案モデルは、NUS-WIDEにおいてベースラインおよび最先端手法より有利な結果を達成。
注意を用いることで、ラベルに対応する領域に焦点を合わせ、小さな物体の認識が改善される。
MS-COCOでは、全モデルがベースラインを上回り、F1などの指標で改善を示す。
注意を削除したり、固定ラベル順序を用いると性能が低下し、順序自由学習と視覚注意の利点が強調される。
推論時のビームサーチは中間的な予測誤差に対する頑健性を提供する。
本手法はノイズの多い訓練ラベルに対しても頑健で、意味のあるラベル順序と注視パターンを学習し続ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。