Skip to main content
QUICK REVIEW

[論文レビュー] YOLOR-Based Multi-Task Learning

Hung–Shuo Chang, Chien-Yao Wang|arXiv (Cornell University)|Sep 29, 2023
Domain Adaptation and Few-Shot Learning被引用数 11
ひとこと要約

本論文は YOLOR に ELAN を組み込み、オブジェクト検出、インスタンス分割、セマンティック分割、画像キャプション生成を共同訓練し、軽量モデルから競争力のある結果を達成する。

ABSTRACT

Multi-task learning (MTL) aims to learn multiple tasks using a single model and jointly improve all of them assuming generalization and shared semantics. Reducing conflicts between tasks during joint learning is difficult and generally requires careful network design and extremely large models. We propose building on You Only Learn One Representation (YOLOR), a network architecture specifically designed for multitasking. YOLOR leverages both explicit and implicit knowledge, from data observations and learned latents, respectively, to improve a shared representation while minimizing the number of training parameters. However, YOLOR and its follow-up, YOLOv7, only trained two tasks at once. In this paper, we jointly train object detection, instance segmentation, semantic segmentation, and image captioning. We analyze tradeoffs and attempt to maximize sharing of semantic information. Through our architecture and training strategies, we find that our method achieves competitive performance on all tasks while maintaining a low parameter count and without any pre-training. We will release code soon.

研究の動機と目的

  • 視覚と視覚言語タスクのマルチタスク学習(MTL)を、タスク間で共有されるセマンティクスを最大化することで動機づける。
  • YOLOR と ELAN を活用して、パラメータ数を減らしつつ複数のヘッドをサポートするバックボーンを構築する。
  • 検出、分割、キャプション生成のタスク特有のヘッドを設計し、タスク間のセマンティック整合性を保持する統一学習フローを構築する。
  • MTL におけるセマンティック衝突を最小化し、学習の頑健性を高めるデータ拡張と最適化戦略を検討する。

提案手法

  • オブジェクト検出、インスタンス分割、セマンティック分割、画像キャプション生成のために、軽量なタスク固有ヘッドを用いたハードパラメータ共有を用いる。
  • ELAN を組み込んで勾配フローを最適化し、タスク間で共有表現を保持する。
  • タスク間のセマンティック整合性を維持し、タスク間の衝突を減らすために非対称なデータ拡張戦略を採用する。
  • 視覚タスクとバックボーンを共有しつつ、画像キャプション生成には Transformer ベースのデコーダを使用する(ELAN+YOLOR)。
  • 事前学習なしで画像エンコーダとテキストデコーダを共同訓練するための学習率戦略を調査する。

実験結果

リサーチクエスチョン

  • RQ1YOLOR と ELAN をどのように構成して、複数の視覚タスクと視覚言語タスク全体で共有セマンティクスを最大化できるか?
  • RQ2データ拡張と最適化手法のうち、マルチタスク学習でセマンティック一貫性を最もよく維持し、タスク間の干渉を最小化するのはどれか?
  • RQ3単一のゼロからの訓練 regime で、オブジェクト検出、インスタンス分割、セマンティック分割、画像キャプション生成の競争力のある性能を達成できるか?
  • RQ4この設定で単一タスクからマルチタスク学習へ拡張する際のパラメータ数とタスク性能のトレードオフはどうなるか?

主な発見

  • 全タスクは、ベースラインと比較して共同学習を通じて改善される。
  • マルチタスク設定で枠組み化した場合、セマンティック分割はベースラインより 13.6% 向上する。
  • 提案されたマルチタスク枠組みの下で、画像キャプション生成はベースラインより 9.2% 向上する。
  • 提案モデルは軽量で、パラメータ数は 80.0M、MS COCO派生評価で OD (AP 52.1) および IS (AP 42.4) および SemS (MIOU 50.1) で競争力のある結果を達成。
  • 事前学習なしで画像エンコーダとテキストデコーダを共同訓練することで、画像キャプション生成は利益を得、報告設定で競争力のBLEU-4 (B@4) スコア (28.4) を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。