Skip to main content
QUICK REVIEW

[论文解读] YOLOR-Based Multi-Task Learning

Hung–Shuo Chang, Chien-Yao Wang|arXiv (Cornell University)|Sep 29, 2023
Domain Adaptation and Few-Shot Learning被引用 11
一句话总结

本文在 YOLOR 基础上加入 ELAN,实现目标检测、实例分割、语义分割与图片说明的端到端联合训练,使用轻量级模型从零开始获得具有竞争力的结果。

ABSTRACT

Multi-task learning (MTL) aims to learn multiple tasks using a single model and jointly improve all of them assuming generalization and shared semantics. Reducing conflicts between tasks during joint learning is difficult and generally requires careful network design and extremely large models. We propose building on You Only Learn One Representation (YOLOR), a network architecture specifically designed for multitasking. YOLOR leverages both explicit and implicit knowledge, from data observations and learned latents, respectively, to improve a shared representation while minimizing the number of training parameters. However, YOLOR and its follow-up, YOLOv7, only trained two tasks at once. In this paper, we jointly train object detection, instance segmentation, semantic segmentation, and image captioning. We analyze tradeoffs and attempt to maximize sharing of semantic information. Through our architecture and training strategies, we find that our method achieves competitive performance on all tasks while maintaining a low parameter count and without any pre-training. We will release code soon.

研究动机与目标

  • 通过最大化跨任务的共享语义,推动视觉任务和视觉-语言任务的多任务学习(MTL)。
  • 利用 YOLOR 和 ELAN 构建一个支持多头的骨干网络,同时降低参数数量。
  • 设计面向检测、分割、描述的任务特定头,以及在各任务间保持语义一致性的统一训练流程。
  • 探索在 MTL 中最小化语义冲突、提升训练鲁棒性的数据增强与优化策略。

提出的方法

  • 使用硬参数共享,并配以轻量级的任务特定头,用于目标检测、实例分割、语义分割和图片描述。
  • 整合 ELAN 以优化梯度流并在各任务之间保持共享表示。
  • 采用非对称数据增强策略,以在各任务之间保持语义一致性并降低跨任务冲突。
  • 在图片描述中使用基于 Transformer 的解码器,同时与视觉任务共享骨干网络(ELAN+YOLOR)。
  • 研究在无需预训练的情况下联合训练图像编码器和文本解码器的学习率策略。

实验结果

研究问题

  • RQ1如何配置 YOLOR 和 ELAN,以在多视觉与视觉-语言任务间最大化共享语义?
  • RQ2哪些数据增强与优化器策略最能保持语义一致性并最小化多任务学习中的任务干扰?
  • RQ3单一的从零开始训练方案是否能在目标检测、实例分割、语义分割和图片描述上达到具有竞争力的性能?
  • RQ4在此设置下,从单任务扩展到多任务学习时,参数数量与任务性能的权衡是什么?

主要发现

  • 与基线相比,所有任务通过联合学习均有提升。
  • 在多任务框架中,语义分割较基线提升 13.6%。
  • 在所提多任务框架下,图片描述较基线提升 9.2%。
  • 提出的模型轻量级,参数量为 80.0M,在 OD (AP 52.1)、IS (AP 42.4) 和 SemS (MIOU 50.1) 的 MS COCO 派生评估中实现了具有竞争力的结果。
  • 图片描述在无需预训练的情况下联合训练图像编码器和文本解码器而受益,在所述设置中实现了有竞争力的 BLEU-4 (B@4) 分数 28.4。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。