[论文解读] Robust Locally-Linear Controllable Embedding
该论文提出了一种新型模型——鲁棒局部线性可控嵌入(RCE),该模型通过使用具有结构化动态的瓶颈生成模型,直接估计预测条件密度 $ p(\mathbf{x}_{t+1}|\mathbf{x}_t) $,实现对鲁棒局部线性控制的建模。与E2C不同,RCE采用基于未来观测的变分推断方案,降低了近似误差,并在噪声动力学下显著提升了性能。
Embed-to-control (E2C) is a model for solving high-dimensional optimal control problems by combining variational auto-encoders with locally-optimal controllers. However, the E2C model suffers from two major drawbacks: 1) its objective function does not correspond to the likelihood of the data sequence and 2) the variational encoder used for embedding typically has large variational approximation error, especially when there is noise in the system dynamics. In this paper, we present a new model for learning robust locally-linear controllable embedding (RCE). Our model directly estimates the predictive conditional density of the future observation given the current one, while introducing the bottleneck between the current and future observations. Although the bottleneck provides a natural embedding candidate for control, our RCE model introduces additional specific structures in the generative graphical model so that the model dynamics can be robustly linearized. We also propose a principled variational approximation of the embedding posterior that takes the future observation into account, and thus, makes the variational approximation more robust against the noise. Experimental results show that RCE outperforms the E2C model, and does so significantly when the underlying dynamics is noisy.
研究动机与目标
- 解决E2C的统计缺陷,其缺乏基于似然的目标函数,并使用非鲁棒的变分近似方法。
- 提出一种系统化的方法,学习低维嵌入以支持在高维观测空间中的鲁棒局部线性控制。
- 引入一种显式将线性化点建模为随机变量的生成模型,以实现结构化、局部线性的动态行为。
- 设计一种变分推断框架,通过条件化于未来观测来降低后验近似误差。
- 确保模型在系统动力学存在噪声时仍具鲁棒性,同时与现有局部最优控制算法(如iLQG)保持兼容。
提出的方法
- 使用带有隐变量 $ \mathbf{z}_t $ 的瓶颈图模型来建模预测条件密度 $ p(\mathbf{x}_{t+1}|\mathbf{x}_t) $,灵感来源于BCDE。
- 在生成模型中将局部线性化点视为随机变量,以强制实现结构化、局部线性的动态行为。
- 构建一个显式依赖于未来观测 $ \mathbf{x}_{t+1} $ 的变分后验 $ q(\mathbf{z}_t|\mathbf{x}_t, \mathbf{x}_{t+1}) $,以提高近似精度。
- 优化数据似然的变分下界,该下界考虑了完整序列而非仅成对边际分布。
- 将生成模型与识别模型解耦,以支持模块化训练并提升泛化能力。
- 采用因子化识别模型,利用转移动态中的确定性以提升推断效率。
实验结果
研究问题
- RQ1能否通过直接估计预测条件密度 $ p(\mathbf{x}_{t+1}|\mathbf{x}_t) $ 的模型,在高维、噪声环境中实现优于E2C的控制性能?
- RQ2将变分后验条件化于未来观测是否能降低变分近似误差,并提升对系统噪声的鲁棒性?
- RQ3在生成模型中对线性化点进行结构化建模,是否能实现更精确且更稳定的局部线性控制?
- RQ4在多个控制基准测试中,所提出的RCE框架在重建、预测和规划性能方面与E2C相比表现如何?
- RQ5生成模型与识别模型之间的分离是否有利于复杂控制任务中的训练稳定性和性能提升?
主要发现
- 在所有基准测试中,RCE在规划损失方面显著优于E2C,尤其在噪声动力学下表现更优:倒立摆任务中分别为61.1±16.2与97.1±34.1。
- 在小车间平衡任务中,RCE在噪声条件下实现了90%的成功率,而E2C仅为60%,且预测与规划损失更低。
- 在三连杆机械臂任务中,RCE在无噪声条件下保持90%的成功率,噪声条件下为80%,而E2C下降至65%。
- 在高维视觉控制任务中,RCE相较于E2C将重建与预测损失降低了最多达30%。
- 在噪声条件下,模型性能差距进一步扩大,表明RCE中未来条件化的变分推断能有效缓解噪声引起的近似误差。
- 由于生成建模与近似推理之间的清晰分离,RCE实现了更好的泛化能力与鲁棒性,支持稳定训练并提升了控制策略的学习效果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。