QUICK REVIEW

[论文解读] UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes

А. И. Колесников, André Susano Pinto|arXiv (Cornell University)|May 20, 2022

Advanced Neural Network Applications被引用 23

一句话总结

tldr: UViM 提出一个两阶段的统一视觉模型，将一个由学习离散编码引导的基础前馈模型与一个生成该引导编码的自回归语言模型结合起来，从而在不使用特定任务结构的情况下，在全景分割、深度预测和上色任务中实现具有竞争力的结果。

ABSTRACT

We introduce UViM, a unified approach capable of modeling a wide range of computer vision tasks. In contrast to previous models, UViM has the same functional form for all tasks; it requires no task-specific modifications which require extensive human expertise. The approach involves two components: (I) a base model (feed-forward) which is trained to directly predict raw vision outputs, guided by a learned discrete code and (II) a language model (autoregressive) that is trained to generate the guiding code. These components complement each other: the language model is well-suited to modeling structured interdependent data, while the base model is efficient at dealing with high-dimensional outputs. We demonstrate the effectiveness of UViM on three diverse and challenging vision tasks: panoptic segmentation, depth prediction and image colorization, where we achieve competitive and near state-of-the-art results. Our experimental results suggest that UViM is a promising candidate for a unified modeling approach in computer vision.

研究动机与目标

以高维结构化输出为目标，推动对多样化视觉任务的统一方法。
通过引入学习的引导码框架，消除对特定任务的架构定制。
证明一个共享基模型加上自回归编码模型能够应对分割、深度和着色任务。
展示端到端两阶段训练能够实现具有竞争力、接近最新水平的结果。

提出的方法

引入两阶段训练过程：Stage I 训练一个由受限 oracle 引导的基模型，该 oracle 从真值 y 输出一个短的离散引导码 z。
Stage II 训练一个自回归语言模型以从输入 x 预测引导码 z，使 f(x, LM(x)) 能执行该任务。
使用受 VQ-VAE 启发的离散瓶颈来学习 z，并应用字典学习更新（类似 LBFGS）以防止代码本条目未被充分利用。
用 ViT 来参数化 f 和受限 oracle Omega；LM 是一个具备 ViT 编码器和 Transformer 解码器的编码器-解码器 Transformer。
在 Stage I 中端到端联合训练，然后在 Stage II 训练 LM 以模拟 Omega 的输出；在测试时，计算 z = LM(x) 并预测 y = f(x, z)。
在 Stage II 讨论代码 dropout，通过在训练时随机将 z 的部分位置设为零来提高鲁棒性。

实验结果

研究问题

RQ1单一、统一的建模框架是否能够在具有高维结构化输出的多样化视觉任务上取得具有竞争力的结果？
RQ2引入学习的引导码和自回归 LM 是否能在不进行任务特定修改的情况下高效建模复杂的输出依赖？
RQ3两阶段训练（带 oracle 引导的基模型再加上 LM 生成的引导码）在全景分割、深度估计和着色任务中的泛化程度如何？
RQ4Stage I 的引导码长度和字典大小有哪些权衡，代码 dropout 与自回归建模如何影响最终性能？

主要发现

UViM 在三项多样化任务（全景分割、深度预测和着色）上取得具有竞争力的结果，且无需任务特定的架构。
Stage I 结合受限 oracle 与类似 VQ-VAE 的离散瓶颈，使基模型在引导码的帮助下能够解决高维结构化输出。
Stage II 训练一个自回归 LM，从图像预测引导码，使统一模型能够用一个单一管线处理不同任务。
消融结果显示对引导码进行自回归建模至关重要；移除它会显著降低性能。
使用预训练权重和代码 dropout 可以提高最终性能和鲁棒性；从头训练仍具竞争力但速度较慢。
代码长度和字典大小影响性能；更长的序列和更大的字典有助于 Stage I，在最终模型上存在一个最佳点。
与任务特定基线相比，UViM 在所评估任务上接近最新研究水平，并展示出强大的可迁移性和通用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。