QUICK REVIEW

[论文解读] MIDAS: Mosaic Input-Specific Differentiable Architecture Search

Konstanty Subbotko|arXiv (Cornell University)|Feb 6, 2026

Advanced Neural Network Applications被引用 0

一句话总结

MIDAS 用面向输入、按块自注意力取代静态架构参数，动态选择架构，利用无参数拓扑搜索，在 NAS 基准和空间中实现具有竞争力与最先进的结果。

ABSTRACT

Differentiable Neural Architecture Search (NAS) provides efficient, gradient-based methods for automatically designing neural networks, yet its adoption remains limited in practice. We present MIDAS, a novel approach that modernizes DARTS by replacing static architecture parameters with dynamic, input-specific parameters computed via self-attention. To improve robustness, MIDAS (i) localizes the architecture selection by computing it separately for each spatial patch of the activation map, and (ii) introduces a parameter-free, topology-aware search space that models node connectivity and simplifies selecting the two incoming edges per node. We evaluate MIDAS on the DARTS, NAS-Bench-201, and RDARTS search spaces. In DARTS, it reaches 97.42% top-1 on CIFAR-10 and 83.38% on CIFAR-100. In NAS-Bench-201, it consistently finds globally optimal architectures. In RDARTS, it sets the state of the art on two of four search spaces on CIFAR-10. We further analyze why MIDAS works, showing that patchwise attention improves discrimination among candidate operations, and the resulting input-specific parameter distributions are class-aware and predominantly unimodal, providing reliable guidance for decoding.

研究动机与目标

推动改进可微分 NAS 的稳定性与性能。
引入输入特定的分块架构参数以提升 DARTS。
结合一个无参数的拓扑感知搜索来建模连通性。
在 NAS-Bench-201、DARTS 与 RDARTS 空间和数据集上评估 MIDAS。
提供关于为何分块注意力和输入特定分布有助于解码的分析。

提出的方法

用通过点积自注意力计算的输入特定权重替代静态架构参数。
将激活映射分割成 P^2 个块，并应用分块注意力以产生 mosaic 架构分布。
在候选边的对之间定义一个拓扑感知搜索空间，并在解码时不使用额外的拓扑参数。
通过对训练样本的输入特定参数进行平均来进行解码，得到固定的架构决策。
使用类似 DARTS 的双层优化方案来训练超网络，同时更新架构参数。
通过对样本边缘求和并在每个节点上选择前几条边，保持一个无参数的解码步骤。

Figure 1 : Computing input-specific architecture with attention. For a given node, each candidate operation $o^{(j)}$ applied to an incoming feature $x^{(i)}$ produces an activation map $F^{(i,j)}=o^{(j)}(x^{(i)})$ . We project the node’s concatenated input into a query and the candidate activation

实验结果

研究问题

RQ1输入特定、由注意力驱动的架构参数是否能在候选操作之间提高辨别性，相较于静态参数？
RQ2分块（ mosaic）注意力是否比全局池化对架构的区分性更强、解释性更好？
RQ3在一个基于注意力的 NAS 框架中，拓扑能否以无参数的方式被有效搜索？
RQ4MIDAS 在 NAS-Bench-201、DARTS 与 RDARTS 空间的表现如何，并能否迁移到 ImageNet？
RQ5学习到的输入特定架构是否呈单峰且具有类别感知结构，帮助解码？

主要发现

MIDAS 在多个 NAS 空间和数据集上实现了最先进或具有竞争力的结果。
在 NAS-Bench-201 中，MIDAS 一贯找到最优或近似最优的架构。
在 DARTS 空间，MIDAS 在 CIFAR-10 上达到 97.42% 的 top-1，CIFAR-100 上达到 83.38%。
在 RDARTS S1–S4 上，MIDAS 在 CIFAR-10 的 S2 与 S4 达成最先进水平。
分块注意力（PS=4 或 PS=8）在对操作的区分性方面优于全局池化，尤其是在前几层。
输入特定的架构参数往往呈单峰且具有类别感知结构，有助于鲁棒解码。

Figure 2 : Learned input-specific architecture parameters in the first two cells in the DARTS search space on CIFAR-10, averaged over four runs. We compare three variants: no patch (global average pooling only), PS=4 (patch size $4\times 4$ ), and PS=8 (patch size $8\times 8$ ). The horizontal line

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。