Skip to main content
QUICK REVIEW

[论文解读] YolactEdge: Real-time Instance Segmentation on the Edge (Jetson AGX Xavier: 30 FPS, RTX 2080 Ti: 170 FPS)

Haotian Liu, Rafael A. Rivera Soto|arXiv (Cornell University)|Dec 22, 2020
Advanced Neural Network Applications参考文献 8被引用 5
一句话总结

YolactEdge 是一种专为边缘设备优化的实时实例分割模型,在 Jetson AGX Xavier 上实现了高达 30.8 FPS 的推理速度,在 RTX 2080 Ti 上达到 172.7 FPS,通过结合 TensorRT 优化与一种新颖的特征扭曲模块,利用视频中的时间冗余性,同时在 MS COCO 和 YouTube VIS 基准测试中保持了具有竞争力的精度。

ABSTRACT

We propose YolactEdge, the first competitive instance segmentation approach that runs on small edge devices at real-time speeds. Specifically, YolactEdge runs at up to 30.8 FPS on a Jetson AGX Xavier (and 172.7 FPS on an RTX 2080 Ti) with a ResNet-101 backbone on 550x550 resolution images. To achieve this, we make two improvements to the state-of-the-art image-based real-time method YOLACT: (1) TensorRT optimization while carefully trading off speed and accuracy, and (2) a novel feature warping module to exploit temporal redundancy in videos. Experiments on the YouTube VIS and MS COCO datasets demonstrate that YolactEdge produces a 3-5x speed up over existing real-time methods while producing competitive mask and box detection accuracy. We also conduct ablation studies to dissect our design choices and modules. Code and models are available at this https URL

研究动机与目标

  • 在资源受限的边缘设备(如 Jetson AGX Xavier)上实现实时实例分割。
  • 解决在计算能力有限的边缘硬件上实时部署高精度实例分割模型的挑战。
  • 通过优化模型推理并利用视频的时间一致性,降低推理延迟,同时不牺牲检测和分割掩码的质量。
  • 在保持标准基准测试中具有竞争力的精度的同时,相较于现有实时实例分割方法实现 3-5 倍的速度提升。

提出的方法

  • 对 YOLACT 架构应用 TensorRT 优化,以加速在边缘设备和高端 GPU 上的推理速度。
  • 提出一种新颖的特征扭曲模块,利用视频序列中的时间冗余性,减少帧间冗余计算。
  • 通过 TensorRT 中的量化和层级优化,精细平衡速度与精度。
  • 采用 ResNet-101 主干网络,并在 550x550 分辨率下处理特征图,以实现性能与精度的平衡。
  • 对原始 YOLACT 架构进行改进,通过模型压缩和硬件感知优化,实现边缘设备上的高效推理。

实验结果

研究问题

  • RQ1是否可以在 Jetson AGX Xavier 等边缘设备上实现具有可接受精度的实时实例分割?
  • RQ2时间特征扭曲在降低视频推理计算负载方面的效果如何?
  • RQ3在边缘硬件上使用 TensorRT 优化 YOLACT 时,速度与精度之间的权衡关系如何?
  • RQ4YolactEdge 与现有实时实例分割方法相比,在速度和精度方面表现如何?

主要发现

  • YolactEdge 在使用 ResNet-101 主干网络和 550x550 分辨率的条件下,在 Jetson AGX Xavier 上实现了 30.8 FPS 的推理速度,证明了其在边缘硬件上的实时性能。
  • 在 RTX 2080 Ti 上,YolactEdge 达到了 172.7 FPS,展现出在高端 GPU 上的强劲性能。
  • 该模型相较于现有实时实例分割方法实现了 3-5 倍的速度提升,同时保持了具有竞争力的掩码和边界框检测精度。
  • 特征扭曲模块通过利用视频序列中的时间一致性,有效减少了计算量。
  • 消融实验验证了 TensorRT 优化和特征扭曲模块对速度提升均有显著贡献。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。