Skip to main content
QUICK REVIEW

[論文レビュー] Vanishing point detection with convolutional neural networks

Ali Borji|arXiv (Cornell University)|Sep 4, 2016
Visual Attention and Saliency Detection参考文献 10被引用数 25
ひとこと要約

この論文では、AlexNet や VGG などの畳み込みニューラルネットワーク(CNN)を用いたデータ駆動型の消失点検出手法を提案している。本手法は、YouTube ビデオから抽出した大規模な自然な画像データセット(37,497 枚)をエンド・トゥ・エンドで学習させた。本手法は、消失点の存在を検出する際の正確度が 99.73% に達し、10×10 グリッド上での局在化においてトップ5誤差率が 5.1% にとどまり、従来のハフ変換や幾何的手法を大きく上回っている。

ABSTRACT

Inspired by the finding that vanishing point (road tangent) guides driver's gaze, in our previous work we showed that vanishing point attracts gaze during free viewing of natural scenes as well as in visual search (Borji et al., Journal of Vision 2016). We have also introduced improved saliency models using vanishing point detectors (Feng et al., WACV 2016). Here, we aim to predict vanishing points in naturalistic environments by training convolutional neural networks in an end-to-end manner over a large set of road images downloaded from Youtube with vanishing points annotated. Results demonstrate effectiveness of our approach compared to classic approaches of vanishing point detection in the literature.

研究の動機と目的

  • 自然環境における消失点検出のためのディープラーニングベースの手法を開発し、従来の幾何的・構造的アプローチの限界を克服すること。
  • AlexNet および VGG といった CNN の、多様な現実世界のシーンにおける消失点検出性能を評価すること。
  • 訓練済みモデルが建物、トンネル、スケッチなどの未学習の画像タイプにどれほど一般化できるかを調査すること。
  • 将来的な研究を支援するため、37,497 枚のアノテート済みフレームを含む大規模かつ多様なデータセットを構築・公開すること。

提案手法

  • 37,497 フレームの大きなデータセットを、ロードトリップ、アドベンチャー、ゲームプレイ動画から YouTube から収集した。気象、地形、照明条件の多様な状況をカバーしている。
  • 消失点は、10×10、20×20、30×30 のグリッド地図上で著者により手動でアノテートされた。1フレームにつき、消失点を含むグリッドセルを1つラベルとして付与した。
  • エンド・トゥ・エンドで学習する2つのディープラーニングモデル(AlexNet および VGG)を用い、消失点の存在と正確な位置を予測するように訓練した。
  • 存在予測のため、バイナリ分類ヘッドを用いた。63,916 枚の画像(VP を含む 34,497 枚、含まない 29,419 枚)を用い、20 エポックで学習した。
  • 局在化のため、グリッド位置を線形化したクラス数 p = 100、400、900 の多クラス分類器として出力層を設定し、40 エポックで学習した。
  • ベースラインモデルとして、最も頻度の高い消失点位置(トップ1およびトップ5中央)を用いて、ディープラーニング性能と比較した。

実験結果

リサーチクエスチョン

  • RQ1手作業で設計された幾何的特徴に依存せずに、畳み込みニューラルネットワークが自然的で現実世界のシーンにおける消失点を効果的に検出できるか。
  • RQ2ハフ変換や Košecká-Zhang アルゴリズムといった古典的手法と比較して、ディープラーニングモデル(AlexNet および VGG)の消失点検出性能はどの程度か。
  • RQ3道路シーンで学習した CNN が、建物、トンネル、スケッチなどの多様で未学習の環境における消失点検出にどれほど一般化できるか。
  • RQ4データオーグメンテーションおよびデータセットの多様性が、消失点検出モデルの頑健性と正確度に与える影響は何か。

主な発見

  • VGG ネットワークは、6,000 枚のテスト画像において、消失点の存在予測正確度が 99.73% に達し、AlexNet(98.9%)を上回った。
  • 20×20 グリッド上では、VGG モデルのトップ5誤差率は 15.9% であり、84.1% のケースで消失点を 15 ピクセル以内に正しく局在化できた。
  • ディープラーニングモデルのトップ1正確度は約 57% であり、トップ1中央ベースライン(16.5%)およびハフ変換(35% のトップ1正確度)を大きく上回った。
  • 建物やトンネルのような未学習のシーンに対しても、モデルは比較的うまく一般化できたが、スケッチでは失敗しており、非写真的コンテンツへの一般化に限界があることが示された。
  • ディープラーニングと古典的手法の間には顕著な性能差があり、ハフ変換は 20×20 グリッド上でのトップ1正確度がたったの 35% にとどまったのに対し、CNN は 57% を達成した。
  • 本研究は、データ駆動型の CNN が、多様で現実世界のデータで学習された場合に、消失点検出において高い正確度を達成できることを示しており、拡張および増強されたデータセットを用いることでモデルの一般化能力を向上させられることも示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。