[论文解读] Scalable Low-Rank Autoregressive Tensor Learning for Spatiotemporal Traffic Data Imputation.
本文提出 LATC-Tubal,一种可扩展的低秩自回归张量补全模型,用于大规模时空交通数据插补。通过将酉变换与管状核范数最小化相结合,该方法可在保留每日间相关性的同时,对每天执行高效的奇异值阈值化处理,在真实世界 PeMS 数据集(含 11,160 个传感器)上实现了最先进的准确率,且计算成本显著降低。
Missing value problem in spatiotemporal traffic data has long been a challenging topic, in particular for large-scale and high-dimensional data with complex missing mechanisms and diverse degrees of missingness. Recent studies based on tensor nuclear norm have demonstrated the superiority of tensor learning in imputation tasks by effectively characterizing the complex correlations/dependencies in spatiotemporal data. However, despite the promising results, these approaches do not scale well to large tensors. In this paper, we focus on addressing the missing data imputation problem for large-scale spatiotemporal traffic data. To achieve both high accuracy and efficiency, we develop a scalable autoregressive tensor learning model---Low-Tubal-Rank Autoregressive Tensor Completion (LATC-Tubal)---based on the existing framework of Low-Rank Autoregressive Tensor Completion (LATC), which is well-suited for spatiotemporal traffic data that characterized by multidimensional structure of location$ imes$ time of day $ imes$ day. In particular, the proposed LATC-Tubal model involves a scalable tensor nuclear norm minimization scheme by integrating linear unitary transformation. Therefore, the tensor nuclear norm minimization can be solved by singular value thresholding on the transformed matrix of each day while the day-to-day correlation can be effectively preserved by the unitary transform matrix. Before setting up the experiment, we consider two large-scale 5-minute traffic speed data sets collected by the California PeMS system with 11160 sensors. We compare LATC-Tubal with state-of-the-art baseline models, and find that LATC-Tubal can achieve competitively accuracy with a significantly lower computational cost. In addition, the LATC-Tubal will also benefit other tasks in modeling large-scale spatiotemporal traffic data, such as network-level traffic forecasting.
研究动机与目标
- 解决具有复杂缺失机制的大规模、高维时空交通数据中的缺失数据问题。
- 克服现有基于张量核范数的插补方法在处理大规模张量时的可扩展性限制。
- 在通过线性酉变换实现高效计算的同时,保留交通数据的每日间相关性。
- 开发一种在实际部署中显著降低计算成本的同时保持高插补准确率的模型。
- 拓展至其他相关任务,如网络级交通预测,而不仅限于插补任务。
提出的方法
- 提出一种新颖的张量补全框架 LATC-Tubal,基于低秩自回归张量补全(LATC),专为具有三维结构(位置 × 每日时间 × 日期)的时空交通数据设计。
- 引入通过酉变换实现的管状核范数最小化方案,将三维张量转换为每日一组二维矩阵,以实现高效的奇异值阈值化处理。
- 对每日转换后的矩阵应用奇异值阈值化,以近似低秩结构,同时保留跨日的时间相关性。
- 利用酉变换矩阵在优化过程中保持每日间的依赖关系,确保结构一致性。
- 设计一种高效的优化算法,通过变换后按日解耦计算,使计算复杂度与张量规模呈线性关系。
- 集成自回归建模以捕捉时间维度上的时序动态,提升预测准确性。
实验结果
研究问题
- RQ1基于管状核范数的张量补全模型能否在具有复杂缺失模式的大规模时空交通数据上实现高插补准确率?
- RQ2酉变换的引入是否能在保留交通数据每日间相关性的同时实现可扩展的计算?
- RQ3在真实世界数据集上,LATC-Tubal 在插补准确率与计算效率方面相较于最先进基线方法表现如何?
- RQ4LATC-Tubal 在多大程度上可推广至其他时空建模任务,如交通预测?
- RQ5当扩展至包含超过 11,000 个传感器的大规模传感器网络(如 PeMS)时,模型准确率与计算成本之间存在何种权衡?
主要发现
- LATC-Tubal 在加州 PeMS 系统的两个大规模 5 分钟交通速度数据集上,与最先进模型相比,实现了具有竞争力的插补准确率。
- 与现有基于张量核范数的方法相比,该模型显著降低了计算成本,实现了对含 11,160 个传感器的大规模张量的可扩展处理。
- 酉变换有效保留了交通模式中的每日间相关性,提升了模型捕捉长期时序依赖的能力。
- 通过矩阵变换实现的管状核范数使用,使每日奇异值阈值化处理更加高效,从而确保优化过程在计算上可行。
- 由于其可扩展且高精度的设计,LATC-Tubal 展现出向其他时空任务(如网络级交通预测)扩展的强潜力。
- 实证结果证实,所提方法在真实交通系统中常见的多样化且复杂的缺失数据机制下,仍能保持高性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。