QUICK REVIEW

[论文解读] Deep Joint Task Learning for Generic Object Extraction

Xiaolong Wang, Zhang Li-liang|arXiv (Cornell University)|Feb 3, 2015

Visual Attention and Saliency Detection参考文献 32被引用 37

一句话总结

该论文提出了一种深度联合任务学习框架，通过使用两个通过潜在变量连接的卷积神经网络，同时执行通用目标定位和像素级分割。通过使用MCMC采样进行EM型算法的迭代优化网络参数和潜在变量调整，该方法实现了最先进的精度，并且推理速度比以往方法快1000倍，每张图像仅需0.014秒。

ABSTRACT

This paper investigates how to extract objects-of-interest without relying on hand-craft features and sliding windows approaches, that aims to jointly solve two sub-tasks: (i) rapidly localizing salient objects from images, and (ii) accurately segmenting the objects based on the localizations. We present a general joint task learning framework, in which each task (either object localization or object segmentation) is tackled via a multi-layer convolutional neural network, and the two networks work collaboratively to boost performance. In particular, we propose to incorporate latent variables bridging the two networks in a joint optimization manner. The first network directly predicts the positions and scales of salient objects from raw images, and the latent variables adjust the object localizations to feed the second network that produces pixelwise object masks. An EM-type method is presented for the optimization, iterating with two steps: (i) by using the two networks, it estimates the latent variables by employing an MCMC-based sampling method; (ii) it optimizes the parameters of the two networks unitedly via back propagation, with the fixed latent variables. Extensive experiments suggest that our framework significantly outperforms other state-of-the-art approaches in both accuracy and efficiency (e.g. 1000 times faster than competing approaches).

研究动机与目标

解决传统滑动窗口方法和手工设计特征方法在通用目标提取中的局限性。
联合优化目标定位和像素级分割，以提升准确性和效率。
通过潜在变量调整克服预测目标边界框与精确分割掩码之间的错位问题。
开发一种可扩展的端到端深度学习框架，无需类别特定预训练即可在多样化数据集上泛化。

提出的方法

双分支深度神经网络架构：一个用于目标定位，一个用于像素级分割，通过潜在变量连接以优化目标提议。
潜在变量表示对预测边界框的空间调整（例如缩放或平移），以提升分割输入质量。
一种EM型优化算法交替执行：(1) 使用数据驱动的MCMC采样方法估计最优潜在变量；(2) 在固定潜在变量下通过反向传播更新网络参数。
MCMC采样通过从数据中学习，避免对所有可能提议进行穷举枚举，从而实现高效的潜在变量估计。
联合训练最小化一个统一的目标函数，该函数同时包含定位和分割损失，潜在变量作为中间调节旋钮。
该框架在原始图像上端到端训练，无需手工设计特征或滑动窗口扫描。

实验结果

研究问题

RQ1联合学习目标定位与分割是否能优于独立或顺序处理？
RQ2如何有效利用潜在变量校正错位的目标提议并提升分割精度？
RQ3深度学习框架能否在通用目标提取中同时实现高精度和极高的推理效率？
RQ4该模型在无需微调的情况下，对未见数据集的泛化能力如何？

主要发现

在OE数据集上，该方法实现了93.12%的精确率和77.69%的Jaccard相似度，优于当前最先进的方法。
在Saliency数据集上，该方法实现了91.56%的精确率和64.72%的Jaccard相似度，超越了先前的SOTA结果。
该模型比竞争方法快50至6000倍，每张图像的推理时间仅为0.014秒。
在OE数据集上，与单独训练相比，联合学习结合潜在变量调整使精确率提高1.87%，Jaccard相似度提高6.19%。
该模型在未见数据集上泛化良好，在Internet数据集上性能优于或等同于协同分割方法，且推理速度显著更快。
对625个提议的穷举枚举达到了相似的准确率，但每次迭代的训练时间长了30倍，验证了MCMC采样方法的高效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。