Skip to main content
QUICK REVIEW

[論文レビュー] Semi-Supervised Learning in Video Sequences for Urban Scene Segmentation

Liang-Chieh Chen, Raphael Gontijo Lopes|arXiv (Cornell University)|May 20, 2020
Video Surveillance and Tracking Methods被引用数 16
ひとこと要約

この論文では、ラベルなしの動画シーケンスと追加の画像を活用して都市風景セグメンテーションを向上させる、シンプルでありながら効果的な反復的半教師あり学習フレームワークを提案する。ラベルなしデータに対して偽ラベルを生成し、モデルを反復的に再訓練することで、Naive-Studentアプローチは、すべての3つのCityscapesベンチマークで最先端の性能を達成した:67.8% PQ、42.6% AP、85.2% mIOU。

ABSTRACT

Supervised learning in large discriminative models is a mainstay for modern computer vision. Such an approach necessitates investing in large-scale human-annotated datasets for achieving state-of-the-art results. In turn, the efficacy of supervised learning may be limited by the size of the human annotated dataset. This limitation is particularly notable for image segmentation tasks, where the expense of human annotation is especially large, yet large amounts of unlabeled data may exist. In this work, we ask if we may leverage semi-supervised learning in unlabeled video sequences and extra images to improve the performance on urban scene segmentation, simultaneously tackling semantic, instance, and panoptic segmentation. The goal of this work is to avoid the construction of sophisticated, learned architectures specific to label propagation (e.g., patch matching and optical flow). Instead, we simply predict pseudo-labels for the unlabeled data and train subsequent models with both human-annotated and pseudo-labeled data. The procedure is iterated for several times. As a result, our Naive-Student model, trained with such simple yet effective iterative semi-supervised learning, attains state-of-the-art results at all three Cityscapes benchmarks, reaching the performance of 67.8% PQ, 42.6% AP, and 85.2% mIOU on the test set. We view this work as a notable step towards building a simple procedure to harness unlabeled video sequences and extra images to surpass state-of-the-art performance on core computer vision tasks.

研究の動機と目的

  • 意味的・インスタンス・パノプティックセグメンテーションにおける人間によるアノテーションデータセットの高コストとスケーラビリティの制限を解決すること。
  • ラベルなしの動画シーケンスと追加の画像が、複雑なラベル伝搬アーキテクチャを必要とせずにセグメンテーション性能を向上させられるかを検証すること。
  • ラベル伝搬のための特別なモデルを避けるシンプルな反復的トレーニング手順を開発すること。
  • 最小限のアーキテクチャ的革新で、すべての3つのCityscapesベンチマークで最先端の結果を達成すること。

提案手法

  • 人間によるアノテーションデータで訓練された教師モデルを用いて、ラベルなしの動画フレームおよび追加の画像に対して偽ラベルを生成する。
  • 人間によるアノテーションデータと偽ラベル付きデータの両方を、エンドツーエンドの方法で学生モデルにトレーニングする。
  • 更新された学生モデルを用いて教師モデルを反復的に再訓練することで、時間の経過とともに偽ラベルの品質を向上させる。
  • パッチマッチングやオプティカルフローのようなラベル伝搬のための特別なコンponentsを含まない、標準的なディープラーニングアーキテクチャを用いる。
  • 一貫性正則化と信頼度フィルタリングを適用して、トレーニング中の偽ラベルの信頼性を向上させる。
  • 最終的なモデルを、本物のラベル付きデータと偽ラベル付きデータの両方を用いて、完全なトレーニングセットでファインチューニングして性能を最大化する。

実験結果

リサーチクエスチョン

  • RQ1複雑なラベル伝搬メカニズムを必要としない反復的半教師あり学習と偽ラベル化によって、都市風景セグメンテーションの性能が向上するか?
  • RQ2ラベルなしの動画シーケンスと追加の画像は、意味的・インスタンス・パノプティックセグメンテーションにおいて、モデルの一般化性能をどの程度向上させられるか?
  • RQ3ラベル伝搬のための複雑なアーキテクチャよりも、偽ラベルに基づくシンプルなトレーニング手順が優れた性能を発揮するか?
  • RQ4提案手法の性能は、Cityscapesベンチマークにおける既存の最先端モデルと比べてどの程度か?

主な発見

  • Naive-Studentモデルは、Cityscapesパノプティックセグメンテーションベンチマークで67.8% PQを達成し、新たな最先端性能を樹立した。
  • この手法は、インスタンスセグメンテーションで42.6% APを達成し、Cityscapesテストセットにおける以前の最先端結果を上回った。
  • 意味的セグメンテーションでは85.2% mIOUを達成し、すべての3つのセグメンテーションタスクで強力な性能を示した。
  • 最小限のアーキテクチャ的変更で、反復的偽ラベル化アプローチが顕著に性能を向上させ、複雑なラベル伝搬モジュールを必要とするモデルを上回った。
  • タスク固有の適応なしに、意味的・インスタンス・パノプティックの3つのセグメンテーションタイプすべてに、良好な一般化性能を示した。
  • 結果から、ラベルなしの動画と画像データが、シンプルでスケーラブルなトレーニングループを用いて効果的に活用可能であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。