[论文解读] Fair DARTS: Eliminating Unfair Advantages in Differentiable Architecture Search
该论文提出 Fair DARTS,一种新型可微神经架构搜索方法,通过将操作之间的互斥竞争替换为通过独立的架构权重实现的协作竞争,消除了 DARTS 中的性能崩溃问题。该方法引入零一损失以最小化离散化差异,使在 CIFAR-10 上达到 97.4% 的 SOTA 准确率,在 ImageNet 上达到 75.6% 的 top-1 准确率。
Differentiable Architecture Search (DARTS) is now a widely disseminated weight-sharing neural architecture search method. However, it suffers from well-known performance collapse due to an inevitable aggregation of skip connections. In this paper, we first disclose that its root cause lies in an unfair advantage in exclusive competition. Through experiments, we show that if either of two conditions is broken, the collapse disappears. Thereby, we present a novel approach called Fair DARTS where the exclusive competition is relaxed to be collaborative. Specifically, we let each operation's architectural weight be independent of others. Yet there is still an important issue of discretization discrepancy. We then propose a zero-one loss to push architectural weights towards zero or one, which approximates an expected multi-hot solution. Our experiments are performed on two mainstream search spaces, and we derive new state-of-the-art results on CIFAR-10 and ImageNet. Our code is available on https://github.com/xiaomi-automl/fairdarts .
研究动机与目标
- 识别并解决 DARTS 中性能崩溃的根本原因,其根源在于操作之间互斥竞争中的不公平优势。
- 消除跳连接因该不公平优势而垄断架构的趋势。
- 减少连续架构权重与其在搜索空间中离散对应物之间的离散化差异。
- 提出一个统一框架,解释并改进现有针对跳连接聚合的 DARTS 变体。
- 通过一种鲁棒且可扩展的架构搜索方法,在 CIFAR-10 和 ImageNet 上实现 SOTA 性能。
提出的方法
- 通过使每个操作的架构权重独立于其他操作,将 DARTS 中的互斥竞争替换为协作竞争。
- 引入零一损失,以促使架构权重收敛至 0 或 1,从而最小化连续与离散架构表示之间的差异。
- 在 Fair DARTS 中对架构权重使用 Sigmoid 激活函数,替代 DARTS 中使用的 Softmax,以实现独立优化。
- 在训练过程中将零一损失作为辅助损失应用,以推动架构权重向极端值逼近,近似实现多热编码。
- 在保持可微神经架构搜索范式的同时,修改优化动态以防止性能崩溃。
- 在两种主流搜索空间(S1 和 S2)的代理和无代理设置下验证该方法。
实验结果
研究问题
- RQ1DARTS 中的性能崩溃,特别是与跳连接聚合相关的原因是什么?
- RQ2通过修改操作之间竞争机制,能否消除性能崩溃?
- RQ3独立的架构权重优化如何影响所搜索架构的鲁棒性和准确率?
- RQ4零一损失在多大程度上减少了可微神经架构搜索中的离散化差异?
- RQ5所提出的方法能否在 CIFAR-10 和 ImageNet 等标准基准上实现 SOTA 性能?
主要发现
- DARTS 中的性能崩溃是由互斥竞争中不公平优势引起的,其中跳连接因结构优势而占据主导地位。
- 单独打破互斥竞争或跳连接的主导地位均可消除性能崩溃,证实了这两个因素的双重作用。
- Fair DARTS 在 CIFAR-10 上实现了 97.4% 的 top-1 准确率,超越了之前的 SOTA 结果。
- 在 ImageNet 上,Fair DARTS 达到 75.6% 的 top-1 准确率,显著优于 DARTS(66.4%)及其他变体。
- 该方法生成的架构更深、更具多样性,而 DARTS 倾向于坍缩为浅层模型并过度使用跳连接。
- 零一损失有效减少了离散化差异,从而实现了更一致且准确的架构离散化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。