[论文解读] NOTE: Robust Continual Test-time Adaptation Against Temporal Correlation
NOTE 引入 Instance-Aware Batch Normalization (IABN) 和 Prediction-balanced Reservoir Sampling (PBRS),以在非独立同分布、时间相关的数据流下实现鲁棒的测试时自适应,特别在非i.i.d.设置下显著超越基线效果。
Test-time adaptation (TTA) is an emerging paradigm that addresses distributional shifts between training and testing phases without additional data acquisition or labeling cost; only unlabeled test data streams are used for continual model adaptation. Previous TTA schemes assume that the test samples are independent and identically distributed (i.i.d.), even though they are often temporally correlated (non-i.i.d.) in application scenarios, e.g., autonomous driving. We discover that most existing TTA methods fail dramatically under such scenarios. Motivated by this, we present a new test-time adaptation scheme that is robust against non-i.i.d. test data streams. Our novelty is mainly two-fold: (a) Instance-Aware Batch Normalization (IABN) that corrects normalization for out-of-distribution samples, and (b) Prediction-balanced Reservoir Sampling (PBRS) that simulates i.i.d. data stream from non-i.i.d. stream in a class-balanced manner. Our evaluation with various datasets, including real-world non-i.i.d. streams, demonstrates that the proposed robust TTA not only outperforms state-of-the-art TTA algorithms in the non-i.i.d. setting, but also achieves comparable performance to those algorithms under the i.i.d. assumption. Code is available at https://github.com/TaesikGong/NOTE.
研究动机与目标
- 在没有标签的情况下,通过在未标注的测试流上自适应模型来解决训练和测试之间的分布偏移。
- 解决现实场景中常见的非i.i.d.、时序相关测试数据(如自动驾驶、HAR)。
- 开发归一化与数据管理技术,防止对时间模式过拟合,同时实现对目标领域的自适应。
- 展示所提出方法在 i.i.d. 条件下保持竞争力,在非i.i.d. 条件下提供强劲提升。
提出的方法
- 提出实例感知批量归一化(IABN),将 Batch Normalization 与每实例统计量结合起来,以纠正分布外样本的归一化。
- 引入基于软阈值的对 BN 统计量的校正,使用实例级均值和方差。
- 定义超参数 alpha,用于控制对 BN 与实例统计量的依赖性(实验中设为 4)。
- 提出 Prediction-Balanced Reservoir Sampling (PBRS),通过时间均匀水库采样和预测平衡类别平衡,从非i.i.d. 流中模拟 i.i.d.-like 数据。
- 存储样本记忆,通过熵最小化来更新归一化统计量和仿射 BN 参数。
- 推理是无批次的,只需对每个实例执行一次前向传播;适应使用记忆在每 N 个样本更新 BN 统计量(N=64)。
- 内存开销可忽略(约为 ResNet18 参数的 0.02%),且代码在线可用。
实验结果
研究问题
- RQ1如何使测试时自适应对非i.i.d.、时序相关的测试流更鲁棒?
- RQ2与最先进的 TTA 方法相比,IABN 和 PBRS 在非i.i.d. 测试数据下是否提升性能?
- RQ3时序相关性水平和批量大小对 TTA 性能的影响?
- RQ4NOTE 是否能在 i.i.d. 条件下保持竞争力,同时在非i.i.d. 条件下表现出色?
主要发现
| 方法 | CIFAR10-C | CIFAR100-C | ImageNet-C | 平均值 |
|---|---|---|---|---|
| Source | 42.3 ± 1.1 | 66.6 ± 0.1 | 86.1 ± 0.0 | 65.0 |
| BN Stats [29] | 73.4 ± 1.3 | 65.0 ± 0.3 | 96.9 ± 0.0 | 78.5 |
| ONDA [27] | 63.6 ± 1.0 | 49.6 ± 0.3 | 89.0 ± 0.0 | 67.4 |
| PL [22] | 75.4 ± 1.8 | 66.4 ± 0.4 | 98.9 ± 0.0 | 80.2 |
| TENT [41] | 76.4 ± 2.7 | 66.9 ± 0.6 | 96.9 ± 0.0 | 80.1 |
| LAME [4] | 36.2 ± 1.3 | 63.3 ± 0.3 | 82.7 ± 0.0 | 60.7 |
| CoTTA [44] | 75.5 ± 0.7 | 64.2 ± 0.2 | 97.0 ± 0.0 | 78.9 |
| NOTE | 21.1 ± 0.6 | 47.0 ± 0.1 | 80.6 ± 0.1 | 49.6 |
- NOTE 在非i.i.d. 测试流下显著优于基线(如 CIFAR10-C:相对最佳基线的平均降低 21.1%)。
- 在 i.i.d. 条件下,NOTE 取得具有竞争力的性能(如 CIFAR10-C:错误率 17.6% 对比最佳基线 17.8%)。
- 消融实验显示仅 IABN 就能显著降低错误;PBRS 提升了归一化统计量的估计,且与 IABN 结合时取得最佳结果。
- 联合 IABN+PBRS 的表现优于任一单独组件,表明归一化校正与平衡数据采样之间存在协同效应。
- 在真实世界数据流(KITTI、HARTH、ExtraSensory)上,NOTE 适应后相对于基线持续降低错误。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。