[論文レビュー] Semantic Edge Detection with Diverse Deep Supervision
DDS は情報変換器を導入して多様な深層監督を単一バックボーンで可能にし、意味的エッジ検出において SBD と Cityscapes で最先端の結果を達成する。
Semantic edge detection (SED), which aims at jointly extracting edges as well as their category information, has far-reaching applications in domains such as semantic segmentation, object proposal generation, and object recognition. SED naturally requires achieving two distinct supervision targets: locating fine detailed edges and identifying high-level semantics. Our motivation comes from the hypothesis that such distinct targets prevent state-of-the-art SED methods from effectively using deep supervision to improve results. To this end, we propose a novel fully convolutional neural network using diverse deep supervision (DDS) within a multi-task framework where bottom layers aim at generating category-agnostic edges, while top layers are responsible for the detection of category-aware semantic edges. To overcome the hypothesized supervision challenge, a novel information converter unit is introduced, whose effectiveness has been extensively evaluated on SBD and Cityscapes datasets.
研究の動機と目的
- 既存の SED 手法が競合する監督ターゲットのため深層監督の恩恵を受けられない理由を分析する。
- 情報変換器を用いて bottom および top レイヤーに別個の監督を間接的に適用する DDS アーキテクチャを提案する。
- ボトム側の監督が変換器でバッファリングされ、トップの意味的エッジと融合されることで局在化が改善されることを示す。
- DDS を SBD および Cityscapes で評価し、最先端の性能を示し、設計選択をアブレーションする。
提案手法
- ResNet ベースのバックボーンを採用し Side-1 から Side-4 が情報変換器を介して二値カテゴリ無依存エッジマップを生成する。
- ボトム層の特徴をバッファする情報変換器ユニットを導入し、ボトム(カテゴリ無依存)とトップ(意味的)ターゲットの二つの損失を分離して適用できるようにする。
- Side-5 で意味的エッジを計算し、ボトムエッジ出力とスタックされたエッジ活性化マップと K-grouped 1x1 conv を用いたフュージョンで最終の意味的エッジを生成する。
- 式 (3)-(6) のように reweighted cross-entropy を用いた L_side^(m) for m in 1..4 と L_fuse を組み合わせたマルチタスク損失で学習する。
- 代替の非重み付き損失版(DDS-U)および SEAL に合わせた変種(DDS-R)を提供し、監督戦略を探る。
- CASENet にインスパイアされたアーキテクチャを ResNet バックボーンで採用し、拡張畳み込みと双線形アップサンプリングを使用、COCO で事前学習後に SBD/Cityscapes で微調整する。
実験結果
リサーチクエスチョン
- RQ1distinct な監督ターゲット(カテゴリ無依存 vs 意味的エッジ)を、最適化の衝突を生まずに単一バックボーンで効果的に分離できるか。
- RQ2情報変換器バッファの導入が SED に対して有益な多様な深層監督を可能にするか。
- RQ3ボトム側エッジをトップの意味的エッジと専用のフュージョン機構で結合した場合、意味的エッジの局在化は改善するか。
- RQ4DDS は標準的な SED ベンチマーク(SBD と Cityscapes)で CASENet や他のベースラインと比較してどのように性能を示すか、アブレーションを含めて。
主な発見
| aer. | bike | bird | boat | bot. | bus | car | cat | cha. | cow | tab. | dog | hor. | mot. | per. | pot. | she. | sofa | train | tv | mean | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Softmax | 74.0 | 64.1 | 64.8 | 52.5 | 52.1 | 73.2 | 68.1 | 73.2 | 43.1 | 56.2 | 37.3 | 67.4 | 68.4 | 67.6 | 76.7 | 42.7 | 64.3 | 37.5 | 64.6 | 56.3 | 60.2 |
| Basic | 82.5 | 74.2 | 80.2 | 62.3 | 68.0 | 80.8 | 74.3 | 82.9 | 52.9 | 73.1 | 46.1 | 79.6 | 78.9 | 76.0 | 80.4 | 52.4 | 75.4 | 48.6 | 75.8 | 68.0 | 70.6 |
| DSN | 81.6 | 75.6 | 78.4 | 61.3 | 67.6 | 82.3 | 74.6 | 82.6 | 52.4 | 71.9 | 45.9 | 79.2 | 78.3 | 76.2 | 80.1 | 51.9 | 74.9 | 48.0 | 76.5 | 66.8 | 70.3 |
| CASENet+S4 | 84.1 | 76.4 | 80.7 | 63.7 | 70.3 | 81.3 | 73.4 | 79.4 | 56.9 | 70.7 | 47.6 | 77.5 | 81.0 | 74.5 | 79.9 | 54.5 | 74.8 | 48.3 | 72.6 | 69.4 | 70.9 |
| DDS ∖ Convt | 83.3 | 77.1 | 81.7 | 63.6 | 70.6 | 81.2 | 73.9 | 79.5 | 56.8 | 71.9 | 48.0 | 78.3 | 81.2 | 75.2 | 79.7 | 54.3 | 76.8 | 48.9 | 75.1 | 68.7 | 71.3 |
| DDS ∖ Convt † | 83.6 | 75.4 | 78.9 | 59.9 | 69.7 | 79.7 | 71.9 | 77.2 | 54.7 | 72.0 | 42.8 | 75.5 | 77.1 | 71.9 | 79.1 | 53.4 | 76.4 | 46.9 | 72.6 | 66.9 | 69.3 |
| DDS ∖ DeSup | 82.5 | 77.4 | 81.5 | 62.4 | 70.8 | 81.6 | 73.8 | 80.5 | 56.9 | 72.4 | 46.6 | 77.9 | 80.1 | 73.4 | 79.9 | 54.8 | 76.6 | 47.5 | 73.3 | 67.8 | 70.9 |
| CASENet | 83.3 | 76.0 | 80.7 | 63.4 | 69.2 | 81.3 | 74.9 | 83.2 | 54.3 | 74.8 | 46.4 | 80.3 | 80.2 | 76.6 | 80.8 | 53.3 | 77.2 | 50.1 | 75.9 | 66.8 | 71.4 |
| DDS-R | 85.4 | 78.3 | 83.3 | 65.6 | 71.4 | 83.0 | 75.5 | 81.3 | 59.1 | 75.7 | 50.7 | 80.2 | 82.7 | 77.0 | 81.6 | 58.2 | 79.5 | 50.2 | 76.5 | 71.2 | 73.3 |
| DDS-U | 87.2 | 79.7 | 84.7 | 68.3 | 73.0 | 83.7 | 76.7 | 82.3 | 60.4 | 79.4 | 50.9 | 81.2 | 83.6 | 78.3 | 82.0 | 60.1 | 82.7 | 51.2 | 78.0 | 72.7 | 74.8 |
- DDS は SBD において DDS-U が CASENet および DSN ベースラインより高い平均 F 値を達成して最先端の性能を示す。
- 情報変換器とボトム側の監督の組み合わせが結果を有意に改善し、DDS-R および DDS-U の変種が CASENet や他のベースラインを上回る。
- DDS-R および DDS-U は元のプロトコル下で SBD ベンチマークの平均 F 値がそれぞれ 73.3, 74.8 に達し、従来法を上回る。
- ボトム側の寄与は情報変換器でバッファリングされると、トップ側の意味マップと融合後の意味的エッジがより滑らかで正確になる。
- アブレーションを通じて、単純な変換器設計と残差ブロックが多くの利得を提供し、厳密なアーキテクチャの詳細よりもバッファリング仮説を支持する。
- DDS は Cityscapes で堅牢な向上を示し、都市景観意味的エッジ検出タスク全般での一般化を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。