ilqr 算法说明

发布时间：2024年01月17日

1 Introduction

希望能用比较简单的方式将ilqr算法进行整理和总结。

2 HJB方程

假定我们现在需要完成一个从A点到B点的任务，执行这段任务的时候，每一步都需要消耗能量，可以用下面这个图表示。

在这里插入图片描述
我们在执行这个A点到B点的任务的时候，需要建立一个评价评价系统，有了明显的评价指标，我们才能对各种决策进行对比。现在问题来了，应该选择什么样的数据作为评价指标。我们在构建我们的最优决策的时候，借用动态规划的思想，通过分解的方法去反向求解我们这个最优决策序列。显然我们会使用能量损耗作为评价指标(值函数)，我们希望用当前步开始，到终点所用的总能量最小。

$V_{k-1}(x)=V_k(x)+loss （bellman方程）$

这是一个离散的表达形式，在一个连续的系统上，上面这个公式可以看成是，从时间维度上能量消耗的速度 * 时间=单位距离能量消耗 * 距离，根据上面动态规划的策略，随着距离终点越远，我们的值函数是越大的，所以
$\begin{aligned} \frac{\partial V}{\partial s}\Delta_s + loss=0 \\ \frac{\partial V}{\partial s} v*\Delta_t + loss速度*\Delta_t=0 \\ \frac{\partial V}{\partial s} v + loss速度=0 \end{aligned}$
但是我们知道，这是我们在动态规划的贪婪策略下，才能取得的结果，并不是所有的u都能得到这样好的结果，所以有
$\min_{u_0} \{ \frac{\partial V}{\partial s} v + loss速度 \}=0$

现在说了很多了，看起来和hamilton毫无关系。实际上ilqr推导过程中，使用了hamilonian变量就是
$\frac{\partial V}{\partial s} v + loss速度 (hamilon 公式)$
那么实际上HJB方程就是
$min_{u} H =0$
如果hamilonian变量可导，这个公式可以拆成两个公式：
$\begin{aligned} H & =0 \\ \frac{\partial H}{\partial u} &= 0 (导数等于0，才能取到极值) \end{aligned}$

3 LQR

在我们开始我们的推导之前，我们先把一些知识复习和梳理一下。
1）首先值函数V，可以看成是从当前状态到终点的损失累计J
2）LQR问题中，假定终点是无穷大时间，那么
$\int (x_{ref}-x)^TQ(x_{ref}-x)+u^TRu$
3) 我们现在的瞬时loss(loss速度)是
$g(x,u)=(x_{ref}-x)^TQ(x_{ref}-x)+u^TRu$
4) Hamilonian变量中的速度，一般由动力学系统(微分系统)给出。
$\dot{x}=f(x,u)=A(x_{ref}-x)+Bu$

那么HJB方程有
$\begin{aligned} \frac{\partial J}{\partial x}^T(A (x_{ref}-x)+Bu)+(x_{ref}-x)^TQ(x_{ref}-x)+u^TRu & =0 \\ B\frac{\partial J}{\partial x}+2Ru & = 0 \end{aligned}$
这个公式中 $\frac{\partial J}{\partial x}$ 没法直接求，但是根据 $\int (x_{ref}-x)^TQ(x_{ref}-x)+u^TRu$ ，可以猜测

$\frac{\partial J}{\partial x}=2S(x_{ref}-x)(有个2为了计算方便)$
并且我们采用最简单的线性控制策略
$u=K(x_{ref}-x)$
我们把这两个假设代入到刚才那个方程中，虽然我们有两个未知量，但是我们有两个方程，大概率能求解。
$\begin{aligned} 2(x_{ref}-x)^TS^T(A (x_{ref}-x)+BK(x_{ref}-x))+(x_{ref}-x)^TQ(x_{ref}-x)+(x_{ref}-x)^TK^TRK(x_{ref}-x) & =0 \\ 2BS(x_{ref}-x)+2RK(x_{ref}-x) & =0 \end{aligned}$
进行简化，得到
$\begin{aligned} 2SA+2SBK+Q+K^TRK &=0 \\ K &=-R^{-1}BS \\ 2SA-2SBR^{-1}BS+Q+SB^TR^{-1}BS &=0 \\ 2SA-SBR^{-1}BS+Q&=0 \\ \end{aligned}$
这就是Ricaati方程，先把riccati方程借出来，得到S，然后再用$K =-R^{-1}BS $, 就能得到我们控制器所用的参数了。
注意，我这里推到和传统lqr推导不一样，我使用了 $x_{ref}-x$

最后我们总结一下，原来lqr，就是对HJB方程进行展开而已。

3 ilqr

ilqr 和lqr不同之处，在于需要在有限长度的情况下，做出决策。
对于当前状态的值函数，满足
$\sum_0^{k-1} \{(x_{iref}-x_i)^TQ(x_{iref}-x_i)+u_i^TRu_i \}+(x_{kref}-x_k)^TQ(x_{kref}-x_k)+u_k^TRu_k$

这个时候的Hamlitonian变量中的 $\frac{\partial J}{\partial x}$ ，物理意义是单位距离内，能量的变化。[1]
在这里插入图片描述

在这里插入图片描述
因为
$\frac{\partial P^k}{\partial u_k}=0$
根据这个公式很容易推导得到8，
因为
$V_x^k=\frac{\partial P^k}{\partial x_k}$
并且因为 $\delta_{uk}$ 中有 $\delta_{xk}$ 的分量。
同理
$V_{xx}^k=\frac{\partial^2 P^k}{\partial ^2x_k}$

Reference

[1] Chen, Jianyu, Wei Zhan, and Masayoshi Tomizuka. “Autonomous driving motion planning with constrained iterative LQR.” IEEE Transactions on Intelligent Vehicles 4.2 (2019): 244-254.

文章来源:https://blog.csdn.net/weixin_43485943/article/details/134561766
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！