- 系统辨识:
- 在对输入和输出观测的基础上,从一组给定的模型中,确定一个与所测系统等价的模型——Zadeh
- 系统辨识是数据、模型类和准则三个要素的一个集合,输入输出数据是作为辨识的必要条件,评价准则是辨识所依靠的依据,模型类决定了辨识的范围,因此系统辨识即是按照一定的评价准则在选定的模型类中找到一个与输入输出数据拟合得最好的模型——1978 Ljung
系统辨识的效果受到几个因素制约:待辨识 对象的动态特性;选取的模型结构和参数化方式;系 统辨识的实验条件等
- 非线性系统Nonlinear System:输出的变化与输入的变化不成比例的系统
- 在线学习/离线学习
- 数据驱动 : ,规避建模的复杂过程,利用系统的输入输出数据等信息来直接设计控制器
- 面向控制的辨识是指以控制器设计作为系统辨识的目 的,以控制性能的优劣作为评价辨识模型优劣的标准,而进 行的系统模型建立的过程
- 如果一个控制器能够镇定不确定模型集合中所有的模型,那么这个控制器就通过稳定性验证 —— 以模型集来代替一个确定的模型用于控制设计能够满足鲁棒性的要求,这个模型集就称为不确定模型集
- 鲁棒辨识:鲁棒辨识是指从系统的输人输出数据及一定的先验信息得到体现系统不确定性的模型集估计
- 迭代辨识:通过重复的控制器设计来改善闭环控制性能
- 迭代辨识的发展主要有三个原因,第一是计算原因,真实模型对象未知,单纯的优化方法对该问题的处理往往使用高阶模型近似,这可能导致计算复杂度问题;第二个原因是对于闭环系统而言,一个更为有效的控制器所控制的系统,在此条件下进行的辨识实验所得到的模型,能够用于改善控制器的性能,设计更为理想的控制器,因此如果迭代过程实现了这个目的,则迭代方法是好的;第三,鲁棒辨识过程往往是离线的,这与辨识与控制一体化还有很长的距离,通过迭代过程可以在线调整辨识结果,控制器也可根据辨识结果进行间歇地调整,从而有助于整合辨识与控制过程,实现面向控制的目的
- 迭代辨识的缺点:不能保证收敛性
背景: 对于在复杂动态环境中运行的机器人,实时自适应控制 (real-time adaptation)是必不可少的
问题:
想法:
机器人的性能控制(performat control)受到由机器人本身(即其非线性运动方程)及其与环境的相互作用组成的 动力学系统(dynamical system)的复杂性
的阻碍
以往做法1:
以往做法2:
已知的结构化
方式进入系统,非线性控制仍然可以通过在线测量(online measurements)的实时自适应(real-time adaptation)产生这种控制理论特性现在问题: 当机器人部署在复杂场景(complex scenarios)中时,通常很难知道机器人可能经历的所有可能配置和交互(configurations and interactions)的结构
现在解决方式: 基于系统辨识(system identification)和数据驱动(data driven)的控制试图从过去的测量(measurements)中学习一个准确的输入输出模型(input-output model)
但是机器学习的方式存在问题:
大量的数据和计算来
反向传播多层参数的梯度,因此通常不能用于快速非线性控制回路
控制导向
(control-oriented)学习的概念在自适应控制理论的基本结果中得到了证明:在不使参数估计收敛于真实系统的情况下,可以保证跟踪收敛 —— 不拟合当前数据,能够更好适应各个控制任务?
- 学习用于闭环控制(closed-loop)的系统模型(system model)是线性系统辨识(linear system identification)的一个标志(halmark)
- 在非线性系统辨识中,有一个新兴的文献主体是关于动态系统的数据驱动、约束学习(data-driven、constrained learning),鼓励学习后的模型和控制器在闭环中表现良好
当前的工作是关注学习到一个固定的模型-控制器对,相反,通过离线元学习,我们训练了一个自适应控制器,它可以在线更新其内部动态表示
- 从广义上讲,自适应控制涉及参数控制器与自适应律配对,该律规定了参数如何在线调整以响应动力系统中的信号
- 非线性系统的稳定自适应控制通常依赖于具有已知 非线性基函数(即特征) 的线性参数化动力学,以及当参数准确已知时,通过控制输入稳定地消除这些非线性的能力
- 当这些特征不能先验地导出时,可以使用神经网络、高斯过程和随机傅里叶特征等函数逼近器(function approximators),并在自适应控制回路中在线更新
然而,具有复杂函数逼近器的快速闭环自适应控制受到训练它们所需的计算工作量的阻碍;控制器增益调优的实际需求加剧了这个问题。在我们的论文中,我们专注于神经网络特征的离线元训练和从收集的数据中获得的控制器增益,控制器结构可以在快速闭环中运行
- 一般来说,用于解决特定任务的算法是基础学习器,而用于优化元目标的算法是元学习器【过程】
- 当试图让一个动力系统跟踪几个目标轨迹时,每个轨迹都与一个“任务”相关联,自适应跟踪控制器是基础学习器,所有这些轨迹的平均跟踪误差是我们想要最小化的元目标
- 许多工作尝试离线元学习动态模型,该模型可以最适合在特定任务期间收集的新输入-输出数据。也就是说,基学习器和元学习器是面向回归的
我们通过离线闭环模拟反向传播梯度的方式训练自适应控制器,以实现在线快速实现
本文主要研究连续时间非线性动力系统(continuous-time,nonlinear dynamical system)的控制问题
自适应控制中的学习是在“需要知道”的基础上完成的,在闭环中消除扰动,而不是开环中估计未知参数