[论文解读] Improving Consistency-Based Semi-Supervised Learning with Weight Averaging.
本文提出使用随机权重平均(Stochastic Weight Averaging, SWA)及其快速变体(fast-SWA),通过沿SGD轨迹平均模型权重来改进基于一致性的半监督学习,从而获得更平坦、更具泛化能力的极小值。该方法实现了最先进性能,包括在仅使用4,000个标签的情况下在CIFAR-10上达到95.0%的准确率,以及在从CIFAR-10到STL的域自适应任务中达到83%的准确率。
Recent advances in deep unsupervised learning have renewed interest in semi-supervised methods, which can learn from both labeled and unlabeled data. Presently the most successful approaches to semi-supervised learning are based on consistency regularization, whereby a model is trained to be robust to small perturbations of its inputs and parameters. We show that consistency regularization leads to flatter but narrower optima. We also show that the test error surface for these methods is approximately convex in regions of weight space traversed by SGD. Inspired by these observations, we propose to train consistency based semi-supervised models with stochastic weight averaging (SWA), a recent method which averages weights along the trajectory of SGD. We also develop fast-SWA, which further accelerates convergence by averaging multiple points within each cycle of a cyclical learning rate schedule. With fast-SWA we achieve the best known semi-supervised results on CIFAR-10 and CIFAR-100 over many different numbers of observed training labels. For example, we achieve 95.0% accuracy on CIFAR-10 with only 4000 labels, compared to the previous best result in the literature of 93.7%. We also improve the best known accuracy for domain adaptation from CIFAR-10 to STL from 80% to 83%. Finally, we show that with fast-SWA the simple $\Pi$ model becomes state-of-the-art for large labeled settings.
研究动机与目标
- 改进基于一致性的半监督学习方法的泛化能力和鲁棒性。
- 通过权重平均技术寻找更平坦的极小值,以解决一致性训练中出现的尖锐、狭窄极小值问题。
- 通过循环学习率调度与fast-SWA结合,加速收敛并提升性能。
- 在不同标签预算下,于CIFAR-10和CIFAR-100上建立半监督学习的新最先进水平。
- 证明fast-SWA在大规模标注数据场景下使简单的Π模型具备竞争力。
提出的方法
- 在SGD轨迹上应用随机权重平均(SWA)以平均模型权重,促进更平坦且更具泛化能力的极小值。
- 提出fast-SWA,通过在循环学习率调度的每个周期内平均多个权重点来加速SWA。
- 使用一致性正则化训练模型,使其对输入和参数扰动具有鲁棒性,构成基础的半监督学习框架。
- 使用带有循环学习率的SGD训练模型,并在每个周期结束时通过fast-SWA定期平均权重。
- 分析损失景观,表明SGD轨迹经过区域的测试误差曲面近似为凸性,从而支持权重平均的使用。
- 将该方法应用于标准半监督学习基准,包括CIFAR-10、CIFAR-100以及从CIFAR-10到STL的域自适应任务。
实验结果
研究问题
- RQ1权重平均能否提升基于一致性的半监督学习模型的泛化能力?
- RQ2fast-SWA是否能在保持或提升性能的同时加速半监督设置下的收敛?
- RQ3一致性正则化模型在权重空间中的损失景观如何表现?其是否支持SWA的使用?
- RQ4fast-SWA能否使Π模型在大规模标注数据的半监督学习场景中具备竞争力?
- RQ5在使用极少量标注数据的情况下,fast-SWA在CIFAR-10和CIFAR-100等标准基准上能带来哪些性能提升?
主要发现
- 在仅使用4,000个标注样本的情况下,fast-SWA在CIFAR-10上达到95.0%的准确率,超越此前最先进方法的93.7%。
- 该方法将从CIFAR-10到STL的域自适应准确率从80%提升至83%。
- 一致性正则化模型的测试误差曲面在SGD轨迹经过的区域近似为凸性,支持权重平均的使用。
- 一致性正则化导致更平坦但更狭窄的极小值,而SWA和fast-SWA有效缓解了该问题。
- 在fast-SWA的加持下,简单的Π模型在大规模标注数据的半监督学习设置中成为最先进方法。
- 与标准训练和基线SWA相比,fast-SWA实现了更快的收敛速度和更好的泛化性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。