QUICK REVIEW

[论文解读] Deep Scale-spaces: Equivariance Over Scale

Daniel E. Worrall, Max Welling|arXiv (Cornell University)|May 28, 2019

Computer Graphics and Visualization Techniques参考文献 40被引用 43

一句话总结

本文引入了深度尺度空间，一种 CNN 的半群等变扩展，通过尺度等变的跨相关实现，在标准架构中实现多尺度信息的融合。它在 Patch Camelyon 和 Cityscapes 上展示了改进的结果，并分析等变性属性。

ABSTRACT

We introduce deep scale-spaces (DSS), a generalization of convolutional neural networks, exploiting the scale symmetry structure of conventional image recognition tasks. Put plainly, the class of an image is invariant to the scale at which it is viewed. We construct scale equivariant cross-correlations based on a principled extension of convolutions, grounded in the theory of scale-spaces and semigroups. As a very basic operation, these cross-correlations can be used in almost any modern deep learning architecture in a plug-and-play manner. We demonstrate our networks on the Patch Camelyon and Cityscapes datasets, to prove their utility and perform introspective studies to further understand their properties.

研究动机与目标

由于视觉任务固有的尺度对称性，动机在于需要在 CNN 中显式处理尺度。
将卷积泛化为半群等变相关，以处理非可逆的尺度变换。
将尺度空间理论嵌入可插拔的 CNN 操作中，以融合多尺度信息。
在医学（Patch Camelyon）和城市场景（Cityscapes）数据集上评估尺度等变网络。
分析有限尺度实现中的等变质量和边界效应。

提出的方法

定义一个半群相关，将信号在尺度空间作用下变换，并在半群域内对滤波器进行内积。
将半群相关具体化为与高斯模糊和各向异性下采样相结合的尺度空间作用。
将输入提升到尺度空间域，使尺度变换在半群索引上的作用简化为平移。
使用尺度空间 CNN，其中扩张对应在提升表示中的尺度上移/下移，并在尺度上进行膨胀卷积。
将不同尺度维度的核交错，以缓解边界效应并保持表达能力。

实验结果

研究问题

RQ1当尺度变换是非可逆的（半群）而非可逆群时，如何在 CNN 中对尺度变换进行建模？
RQ2半群等变相关性是否能够生成适合深度学习架构的尺度等变表示？
RQ3与非等变基线相比，尺度等变网络在具有多尺度变化的真实视觉任务上是否提升性能（如 PCam、Cityscapes）？
RQ4在 CNN 中实现深度尺度空间的实际影响与局限性（如边界效应、计算开销）是什么？

主要发现

PCam 模型	准确率	Cityscapes 模型	mAP
DenseNet Baseline	87.0	ResNet, matched parameters	45.66
S-DenseNet (Ours)	88.1	ResNet, matched channels	49.99
(Veeling et al., 2018)	89.8	S-ResNet, multiscale (Ours)	63.53
		S-ResNet, no interaction (Ours)	64.78

基于半群理论构建的尺度等变跨相关实现了在 CNN 内的多尺度信息融合。
实验表明尺度等变模型在 Patch Camelyon 和 Cityscapes 任务上优于非等变基线。
等变质量保持较高（平均误差通常小于 0.01），直至来自尺度空间截断的边界效应变得显著。
将尺度维度 1 和更高维度的相关性交错，可以提高性能并有助于缓解边界问题。
在 Patch Camelyon 上，S-DenseNet 的准确率为 88.1%，基线为 87.0%；Veeling 等人达到 89.8%。
在 Cityscapes 上，具有多尺度交互的 S-ResNet 达到 63.53% 的 mAP，且无交互时达到 64.78%，优于匹配参数基线（分别为 45.66% 和 49.99%）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。