[论文解读] You Only Learn One Representation: Unified Network for Multiple Tasks
本文提出一个统一网络,将隐式(学习的潜意识知识)与显式(与观测对齐的知识)整合,在单一模型中为多任务服务,利用极小的参数/成本开销提升性能。它通过内核空间对齐、预测精炼和多任务学习来实现隐式表示。
People ``understand'' the world via vision, hearing, tactile, and also the past experience. Human experience can be learned through normal learning (we call it explicit knowledge), or subconsciously (we call it implicit knowledge). These experiences learned through normal learning or subconsciously will be encoded and stored in the brain. Using these abundant experience as a huge database, human beings can effectively process data, even they were unseen beforehand. In this paper, we propose a unified network to encode implicit knowledge and explicit knowledge together, just like the human brain can learn knowledge from normal learning as well as subconsciousness learning. The unified network can generate a unified representation to simultaneously serve various tasks. We can perform kernel space alignment, prediction refinement, and multi-task learning in a convolutional neural network. The results demonstrate that when implicit knowledge is introduced into the neural network, it benefits the performance of all tasks. We further analyze the implicit representation learnt from the proposed unified network, and it shows great capability on catching the physical meaning of different tasks. The source code of this work is at : https://github.com/WongKinYiu/yolor.
研究动机与目标
- 通过利用训练过程中学习的隐式知识,激励构建一个能够处理多任务的单一网络。
- 引入将显式观测对齐特征与隐式潜在知识融合的统一表示。
- 证明在增量极小的参数增加下,结合隐式知识可在多个任务上提升性能。
- 展示在多任务设置中对齐核空间和精炼预测的方法。
- 在目标检测、多标签分类和特征嵌入上评估该方法。
- 提供通过向量、神经网络或矩阵分解来建模隐式知识的指南。
提出的方法
- 将显式知识定义为直接与观测相关的特征,将隐式知识定义为与任务无关的潜在表示。
- 引入一个统一网络,其中一个通用的显式表示 f_theta(x) 与任务特定的隐式表示 g_phi(z) 通过加法、乘法或拼接等运算结合。
- 将训练公式化为最小化传统误差与隐式-显式知识项之和,使单一表示能够支持多任务。
- 使用向量、神经网络或矩阵分解形式对隐式知识进行建模并引入小的先验,在推理时允许简化,因为在推理时 z 是一个常量张量。
- 应用核空间对齐以平移/旋转/缩放输出核,从而对齐多任务空间;在隐式知识框架内应用预测精炼和多任务学习。
- 在 FPN 特征对齐、YOLO 输出处的预测精炼以及规范化的多任务表示方面进行实验;比较运算符和建模方法以评估性能提升。
实验结果
研究问题
- RQ1单一的统一网络是否能够通过整合隐式与显式知识来学习一个支撑多任务的通用表示?
- RQ2如何对隐式表示进行建模和整合(向量、神经网络、矩阵分解)以提升多任务性能?
- RQ3哪些运算符(加法、乘法、拼接)最适合将显式和隐式知识结合在不同组件(特征对齐、预测精炼)中?
- RQ4通过隐式知识的核空间对齐和预测精炼是否在目标检测、分类和嵌入任务上带来可衡量的提升?
- RQ5将隐式知识引入基线检测器时,参数量和 FLOPs 的权衡是多少?
主要发现
- 将隐式知识纳入特征对齐,在对象检测的 AP 指标(AP、AP50、AP75 等)上大约提升0.5%。
- 预测精炼受益于隐式表示,使用合适的运算符时大多数 AP 指标均有提升。
- 将隐式表示引入到联合任务(JDC/JDE)可以得到比单任务模型更高的总分,包括中大型对象的增益。
- 不同的组合运算符展现出特定任务的优势;例如,加法/拼接有助于特征对齐,而乘法有助于预测任务中的中心/锚点精炼。
- 通过矩阵分解对隐式知识进行建模在所测试的建模方法中取得了最佳综合增益(在 AP、AP50、AP75 分别提升 AP+0.2、+0.4、+0.5)。
- 所提出的方法在参数开销极小的情况下实现了具有竞争力的最先进对象检测性能(每个隐式添加的参数和 FLOPs 占比不到0.001)。
- 与基线 YOLOv4-CSP-fast 相比,含隐式知识的统一网络在对象检测指标上有所提升,且在不增加额外数据的情况下可达到或超过最先进方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。