Skip to main content
QUICK REVIEW

[论文解读] Active Learning for Nonlinear System Identification with Guarantees

Horia Mania, Michael I. Jordan|arXiv (Cornell University)|Jun 18, 2020
Control Systems and Identification参考文献 54被引用 29
一句话总结

该论文提出了一种主动学习方法,用于识别具有已知特征嵌入的非线性动力系统,通过迭代的轨迹规划、跟踪和重估实现参数估计速率。该方法通过自适应选择能探索特征空间所有方向的输入,即使独立同分布(i.i.d.)输入失效,也能保证有限时间内的系统识别。

ABSTRACT

While the identification of nonlinear dynamical systems is a fundamental building block of model-based reinforcement learning and feedback control, its sample complexity is only understood for systems that either have discrete states and actions or for systems that can be identified from data generated by i.i.d. random inputs. Nonetheless, many interesting dynamical systems have continuous states and actions and can only be identified through a judicious choice of inputs. Motivated by practical settings, we study a class of nonlinear dynamical systems whose state transitions depend linearly on a known feature embedding of state-action pairs. To estimate such systems in finite time identification methods must explore all directions in feature space. We propose an active learning approach that achieves this by repeating three steps: trajectory planning, trajectory tracking, and re-estimation of the system from all available data. We show that our method estimates nonlinear dynamical systems at a parametric rate, similar to the statistical rate of standard linear regression.

研究动机与目标

  • 解决当独立同分布(i.i.d.)输入无法提供信息性数据时,识别具有连续状态和动作的非线性动力系统所面临的挑战。
  • 开发一种数据采集方案,确保系统过渡线性依赖于已知特征映射时的有限时间系统识别。
  • 为基于反馈的自适应输入选择建立估计精度的理论保证。
  • 将系统识别的适用范围从独立同分布输入假设扩展到需要主动探索的系统。
  • 提供一种通过迭代规划和跟踪确保特征空间中完全可控性的框架。

提出的方法

  • 该方法迭代执行三个步骤:从当前状态规划至特征空间中高不确定性区域的轨迹,使用当前系统矩阵估计进行轨迹跟踪,以及从所有收集的数据中重新估计系统矩阵。
  • 该方法依赖于一个计算预言机用于轨迹规划,确保系统能在有界规划时域内到达特征空间中的高不确定性区域。
  • 系统模型假设状态转移在线性已知特征映射下成立:$\mathbf{x}_{t+1} = A_\star \phi(\mathbf{x}_t, \mathbf{u}_t) + \mathbf{w}_t$,其中$\phi$是已知的,$A_\star$是待估计的未知系统矩阵。
  • 通过自适应选择与未探索方向对齐的输入,确保特征向量在特征空间中覆盖所有方向。
  • 该方法利用特征空间中的可控性,其中规划时域和系统可控性决定了信息性数据的采集速率。
  • 重估步骤使用所有历史数据来更新估计$\widehat{A}$,实现与标准线性回归相似的参数收敛速率。

实验结果

研究问题

  • RQ1当独立同分布(i.i.d.)输入无法探索完整特征空间时,能否保证非线性动力系统的有限时间识别?
  • RQ2如何设计自适应输入序列,以系统性地探索非线性系统特征空间中的所有方向?
  • RQ3在主动学习下,系统识别的理论保证(特别是估计速率和样本复杂度)可以如何建立?
  • RQ4系统在特征空间中的可控性如何影响识别算法的收敛速率?
  • RQ5当系统动力学在已知特征映射下为线性时,能否在非线性系统识别中实现参数估计速率?

主要发现

  • 所提出的主动学习方法即使在非线性系统中,也能实现与标准线性回归相同的参数估计速率。
  • 通过自适应选择确保特征空间完全探索的输入,该方法保证了有限时间内的系统识别,克服了独立同分布(i.i.d.)输入策略的局限性。
  • 理论分析表明,估计误差的衰减速率取决于规划时域和系统在特征空间中的可控性。
  • 该方法对无法通过独立同分布(i.i.d.)输入识别的系统有效,例如示例1中具有输入约束的分段仿射系统。
  • 该方法对噪声具有鲁棒性,并确保特征向量与特征空间中的所有方向对齐,从而实现系统矩阵$A_\star$的完全恢复。
  • 理论保证在真实系统属于模型类的假设下成立,且当特征映射可逆或张成整个空间时,该方法有效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。