凸函数笔记（1）

发布时间：2023年12月17日

1. 凸函数基本概念

$记\overline{\mathbb{R}}:=\mathbb{R}\cup\{\pm\infty\}.\text{ 对函数 }f:\mathbb{R}^n\to\overline{\mathbb{R}},称$ $\mathbf{dom}(f):=\{x\in\mathbb{R}^n|f(x)<\infty\}$ 为 $f$ 的有效定义域.

$\text{若 }f(x)>-\infty\text{ (}\forall x\in\mathbb{R}^n)\text{ 且 dom}(f)\neq\emptyset,\text{ 则称 }f\text{ 是真的 (proper)}.$

定义 1.1（凸函数）：称函数 $f:\mathbb{R}^n\to\overline{\mathbb{R}}$ 是一个凸函数，如果对于任意的 $\in \mathbf{dom}(f)$ 和 $\theta\in[0,1]$ ，有 $\theta x+ (1-\theta )y \in \mathbf{dom}(f)$ ，且有： $f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y).$

当不等号对任意 $x,y\in\mathbf{dom}(f),\quad x\neq y$ 和 $0<\theta<1$ 严格成立时，我们称 $f$ 是严格凸的.若 $? f$ 是凸的 (或严格凸的), 则称 $f$ 是凹的 (或严格凹的).

定义 1.2（函数的水平集） $\text{设 }\alpha\in\mathbb{R},\text{ 函数 }f:\mathbb{R}^n\to\overline{\mathbb{R}}\text{ 的 }\alpha\text{-水平集定义为}$ : $\mathbf{lev}_\alpha(f):=\{x\in\mathbb{R}^n|f(x)\leq\alpha\}.$

命题 1.1（凸函数的水平集是凸集）： $\text{若函数 }f:\mathbb{R}^n\to\overline{\mathbb{R}}\text{ 是凸的, 则 }\forall\alpha\in\mathbb{R}, 其 α-水平集\mathbf{lev}_\alpha(f)是凸集$

证： $\text{对任意的 }\alpha\in\mathbb{R}.\text{ 根据 }f\text{的凸性可知: }\forall x,y\in\mathbf{lev}_\alpha(f),\text{有 }x,y\in有效域\mathbf{dom}(f),\text{从而}$ $f(\theta x+(1-\theta)y)\leq（由凸函数的定义）\theta f(x)+(1-\theta)f(y)\leq\theta\alpha+(1-\theta)\alpha=\alpha.$ $\text{所以,}\theta x+(1-\theta)y\in\textbf{lev}_\alpha(f).\text{即 lev}_\alpha(f)\text{ 是凸集}.$

注：命题 1.1 的逆命题不成立。一个函数的水平集是凸集，不能够推出这个函数是凸函数。

此外函数的凸性可以通过集合的凸性来刻画。

定义 1.3（上镜图(epigraph)）对于函数 $f:\mathbb{R}^n\to\overline{\mathbb{R}}$ ，我们称 $\mathbb{R}^{n+1}$ 中集合 $\mathbf{epi}(f):=\{(x,t)\in\mathbb{R}^n\times\mathbb{R}|f(x)\leq t\}$ 为 $f$ 的上镜图。

命题 1.2（函数凸性的上镜图刻画）函数 $f:\mathbb{R}^n\to\overline{\mathbb{R}}$ 是凸函数当且仅当 $\mathbf{epi}(f)$ 是凸集.

证：对任意的 $(x,t),(y,s)\in\mathbf{epi}(f)$ 和 $\theta\in[0,1]$ ，利用不等式的传递性有 $\theta(x,t)+(1-\theta)(y,s)\in\mathbf{epi}(f)\iff f(\theta x+(1-\theta)y)\leq\theta t+(1-\theta)s.$ 由此式可以证明函数 $f:\mathbb{R}^n\to\overline{\mathbb{R}}$ 是凸函数当且仅当 $\mathbf{epi}(f)$ 是凸集.

2.可微函数的凸性判定

2.1 函数凸性的微分判据

命题 2.1：(一阶微分判据) $\text{对函数 }f:\mathbb{R}^n\to\mathbb{R}\cup\{\infty\},若\mathrm{dom}(f)\text{ 是一个凸集,且}f在有效域\mathrm{dom}(f)\text{ 上处处可微},\text{则 }f\text{ 是凸函数当且仅当}:$ $f(y)\geq f(x)+\nabla f(x)^T(y-x),\quad\forall x,y\in\mathbf{dom}(f).\quad(1)$
证： $充分性 . 设 (1) 式成立$ ， $\forall x,y\in\mathbf{dom}(f),\theta\in(0,1),\text{ 记 }z=\theta y+(1-\theta)x.$

$由于有效域是凸集,\text{那么}z\in \mathbf{dom}( f)$ 且 $f(y)\geq f(z)+\nabla f(z)^T(y-z),\quad f(x)\geq f(z)+\nabla f(z)^T(x-z).$ 于是 $\begin{aligned}\theta f(y)+(1-\theta)f(x)\geq f(z)+\nabla f(z)^T[\theta(y-z)+(1-\theta)(x-z)]=f(z).\end{aligned}$ $所以 f 是凸函数$

$必要性$ . $设f是凸函数，那么\forall x,y\in\mathbf{dom}(f),\:\theta\in(0,1), 有$ $f(\theta y+(1-\theta)x)\leq\theta f(y)+(1-\theta)f(x)=f(x)+\theta[f(y)-f(x)].$ $由泰勒公式$ $f(\theta y+(1-\theta)x)=f(x)+\theta\nabla f(x)^T(y-x)+o(\theta).$ $所以有$ $\nabla f(x)^T(y-x)+\frac{o(\theta)}{\theta}\leq f(y)-f(x).$ $令$ $\theta\to0$ , $得$ $\nabla f(x)^T(y-x)\leq f(y)-f(x)$ . $即 (1) 成立 .$

由此命题可以知道：可微函数是凸函数当且仅当其图形总是在其切平面的上方.

命题 2.2 (二阶微分判据) ： $\begin{aligned}对&函数f:\mathbb{R}^n\to\mathbb{R}\cup\{\infty\},若 dom(f)是一个凸集，且f在\operatorname{dom}(f)上二阶连续可微，那么\\ &(1) 是凸函数当且仅当：对任意x\in \mathbf{dom}(f) , \nabla^2 f(x)是半正定的，\\ &(2) 若\nabla^2f(x)是正定的，则f是严格凸函数.\end{aligned}$

证：先证明(1)

必要性：设 $f$ 是凸函数，则 $\forall x\in\mathbf{dom}(f),~h\in\mathbb{R}^n$ 以及充分小的 $\theta\in(0,1)$ 利用泰勒公式，有 $f(x+\theta h)=f(x)+\theta\nabla f(x)^Th+\frac{1}{2}\theta^2h^T\nabla^2f(x)h+o(\theta^2).$ 利用命题 2.1(一阶微分判据), 得 $\frac{1}{2}\theta^{2}h^{T}\nabla^{2}f(x)h+o(\theta^{2})\geq0.$ 两边除以 $\theta^2$ 并令 $\theta\to0$ ,便得 $h^T\nabla^2f(x)h\geq0$ .由 $h\in\mathbb{R}^n$ 的任意性即知 $\nabla^2f(x)$ 是半正定的.

充分性：设对任意 $x\in\mathbf{dom}(f),\nabla^2f(x)$ 是半正定的. $\forall x,y\in\mathbf{dom}(f),\:x\neq y$ ,则存在 $\xi=(1-\theta)x+\theta y\in\mathbf{dom}(f)$ ,其中 $\theta\in(0,1)$ , 使得 $f(y)=f(x)+\nabla f(x)^T(y-x)+\frac{1}{2}(y-x)^T\nabla^2f(\xi)(y-x).$ 将 $y-x=(1-\theta)^{-1}(y-\xi)$ 代入上式最后一项并利用 $\nabla^2f(x)$ 的半正定性，得 $f(y)\geq$ $f(x)+\nabla f(x)^T(y-x)$ .据命题 2.1(一阶微分判据)可知 $f$ 是凸函数.

下面证明(2)：

若 $\nabla^2f(x)$ 是正定的，那么对互异的 $x,y\in\mathbf{dom}(f)$ ,根据泰勒公式有 $f(y)>f(x)+\nabla f(x)^T(y-$ $x)$ .（余项中带有 $\nabla^2f(x)$ ，且是二次项。因为 $\nabla^2f(x)$ 正定，那么余项一定大于0）因而 $f$ 是严格凸函数.

注：严格凸函数不一定 $\nabla^2f(x)$ 在 dom$( f) $ 上恒为正定的. 例如在一维函数情形， $f(x)=x^4$ 在 $\mathbb{R}$ 上严格凸，但其二阶导数不恒为正.

2.2 可微凸函数的例子

例 (多元凸函数) 如下函数 $f:\mathbb{R}^n\to\mathbb{R}\cup\{\infty\}$ 均为凸函数：

(1) 仿射函数： $f(x)=a^Tx+b,\:a\in\mathbb{R}^n,b\in\mathbb{R}.$

(2) 二次函数： $f(x):=\frac12x^TAx+b^Tx+c,\quad A\in\mathbb{S}_+^n,\quad b\in\mathbb{R}^n,\quad c\in\mathbb{R}$ . 特别地，当 $A\in\mathbb{S}_{\vdash+}^n$ 时， $f$ 是严格凸函数.

(3) 二次线性分式： $f(x,y):=x^2/y,\:\mathbf{dom}(f):=\mathbb{R}\times\mathbb{R}_{++}.$

(4) 指数对数函数： $f(x):=\ln(\sum_{i=1}^ne^{x_i})$ ,其中 $x_i$ 是 $x$ 的第 $i$ 个分量.

(5) 负对数指数函数： $\exp \left ( \frac 1n\sum _{i= 1}^n\ln x_i\right ) ,$ $\mathbf{dom}(f)$ : = $\mathbb{R} _{+ + }^n.$

注：(5)中的函数可以化为： $f(x)=-\exp\Big(\frac{1}{n}\sum_{i=1}^{n}\ln x_i\Big)=-\big(\prod_{i=1}^{n}x_i\big)^{1/n},\quad\text{dom}(f):=\mathbb{R}_{++}^{n}.$ 所以，此函数又称为负几何平均函数.

3. 保凸运算

3.1 复合函数的凸性

命题 3.1.1：设 $h:\mathbb{R}^m\to\overline{\mathbb{R}}$ 是一个凸函数，对 $i=1,\cdots,m,g_i:C_i\to\mathbb{R}$ 是凸函数或凹函数，其中 $C_i\subset\mathbb{R}^n$ ,满足条件：

$1)g_i$ 是凸函数时， $h$ 关于第 $i$ 个变元 $x_i$ 在 R 上递增；或

$2)g_i$ 是凹函数时， $h$ 关于第 $i$ 个变元 $x_i$ 在 R 上递减，

记 $g(x):=(g_1(x),\cdots,g_m(x))^T.$ 那么，复合函数 $f=h\circ g,\quad\textbf{dom}(f):=\Big\{x\in\bigcap\limits_{i=1}^mC_i\Big|h(g(x))<\infty\Big\},$ 也是凸函数.

证：根据凸函数的定义以及 $h$ 的凸性，可以得到 $C_1,...,C_m$ 以及 $\mathbf{dom}(h)$ 均为凸集. 设 $x,y\in\mathbf{dom}(f),\theta\in[0,1]$ ,我们有 $\theta x+(1-\theta)y\in\bigcap_{i=1}^mC_i$ , 且 $\theta g(x)+(1-\theta)g(y)\in\mathbf{dom}(h)$ .（ $这里是因为 g (?) 的值域是 h (?) 的定义域，且 h 是凸的$ ）记 $\begin{aligned}u:=g(\theta x+(1-\theta)y),\quad v:=\theta g(x)+(1-\theta)g(y).\end{aligned}$ 对于 $i = 1$

$\mathrm{( a) }$ 当条件 (1) 成立时， $g_1$ 是凸的，故 $u_1\leq v_1$ . 由于 $h (x)$ 关于第一个变元 $x_1$ 是递增的，所以 $\begin{aligned}f(\theta x+(1-\theta)y)&=h(u_1,u_2,\cdots,u_m)\le h(v_1,u_2,\cdots,u_m).\end{aligned}$

$\mathrm{(b) }$ 当条件 (2) 成立时， $g_1$ 是凹的，故 $u_1\geq v_1$ . 由于 $h (x)$ 关于第一个变元 $x_{1}$ 是递减的，所以有 $\begin{aligned}f(\theta x+(1-\theta)y)&=h(u_1,u_2,\cdots,u_m)\leq h(v_1,u_2,\cdots,u_m).\end{aligned}$ 总之，有 $h(u_1,u_2,\cdots,u_m)\leq h(v_1,u_2,\cdots,u_m)$ . 依次对变元 $u_2,\cdots,u_n$ 做同样的推导，最终我们得到 $\begin{aligned}f(\theta x+(1-\theta)y)&=h(u_1,u_2,\cdots,u_m)\le h(v_1,v_2,\cdots,v_m)=h(\theta g(x)+(1-\theta)g(y))\end{aligned}$ 利用 $h$ 的凸性可以得到： $f(\theta x+(1-\theta)y)\leq\theta h(g(x))+(1-\theta)h(g(y))=\theta f(x)+(1-\theta)f(y).$ 所以 $f$ 是凸函数.

注：上述证明中，我们用到了 $h$ 在如下点列 $u=(u_1,\cdots,u_m)^T\to(v_1,u_2,\cdots,u_m)^T\to\cdots\to(v_1,\cdots,v_{m-1},u_m)^T\to v$ 的值，其中，除了 $\in\mathbf{dom}(h)$ ,我们并不知道其他的点是否属于 $\mathbf{dom}(h)$ .所以，我们需要假定 $h$ 关于每一个单变量在 $\mathbb{R}$ 上的单调性，即使这样的点不在 $\mathbf{dom}(h)$ 中.

例 3.1.1：(凹函数的对数与倒数)设 $g:C\to\mathbb{R}$ 是凸函数，其中 $C\subset\mathbb{R}^n$ ，则有： $f(x):=-\ln g(x),\quad\mathbf{dom}(f):=\{x\in C|g(x)>0\}\\和f(x):=1/g(x),\quad\mathbf{dom}(f):=\{x\in C|g(x)>0\}均为凸函数$

证：由于 $h(u):=-\ln u$ 是凸函数，且关于 $u$ 递减，而 $g$ 是凹函数，根据命题 3.3.1可知 $h\circ g$ 是凸函数，即 $-\ln g(x)$ 是凸函数.

类似地，因为 $h(u):=1/u,\quad\mathbf{dom}(h):=\mathbb{R}_+$ 是凸函数，关于 $u$ 递减，而 $g$ 是凹函数，所以 $f (x) := h (g (x)) = 1/ g (x)$ 是凸函数.

注： 对恒为正的凸函数 $g$ ,不能保证 $\ln g$ 和 $1/ g$ 仍为凹或凸的函数. 例如， $g_1(x)=x$ 和 $g_2(x)=1/\sqrt{x}$ 均是凸函数，而 $1/g_1$ 和 $1/g_2$ 却一个是凸函数另一个是凹的. $ln g_1$ 和 $ln g_2$ 亦然.

3.2 几种保凸运算

下面给出几个命题，其中几个命题没有给出证明，感兴趣的读者可以自行证明。

命题 3.2.1：(求和的保凸性) 设 $f_i:\mathbb{R}^n\to\mathbb{R}\cup\{\infty\},\quad i=1,\cdots,m$ ,均为凸函数，那么 $f(x):=f_1(x)+...+f_m(x),\quad\forall x\in\mathbb{R}^n,$ 和 $h(X):=f_1(x_1)+...+f_m(x_m),\quad X:=(x_1,...,x_m)\in\mathbb{R}^{mn},$ 都是凸函数，其有效定义域分别是 $\mathbf{dom}(f)=\bigcap_{i=1}^m\mathbf{dom}(f_i),\quad\mathbf{dom}(h)=\mathbf{dom}(f_1)\times\cdots\times\mathbf{dom}(f_m).$

命题 3.2.2：(与仿射变换复合) 设 $f:\mathbb{R}^n\to\overline{\mathbb{R}}$ 为凸函数， $A\in\mathbb{R}^{m\times n},\quad b\in\mathbb{R}^m$ , 那么 $g (x) := f (A x + b)$ 是凸函数.

命题 3.2.3：(凸函数族的逐点上确界) 设 $f_\gamma:\mathbb{R}^n\to\overline{\mathbb{R}},\quad\gamma\in\Gamma\neq\emptyset$ ,是一族凸函数，则 $f(x):=\sup_{\gamma\in\Gamma}f_\gamma(x),\quad x\in\mathbb{R}^n,$ 也是凸函数.

证：容易证明 $f=\sup_{\gamma\in\Gamma}f_\gamma\iff\mathbf{epi}(f)=\bigcap_{\gamma\in\Gamma}\mathbf{epi}(f_\gamma).$ 所以 $f$ 也是凸函数.

命题 3.2.4： (凸函数关于部分变量的下确界) 设 $f:\mathbb{R}^n\times\mathbb{R}^m\to\overline{\mathbb{R}}$ 是一个凸函数， $C\subset$ $\mathbb{R}^m$ 是非空凸集，则 $g(x):=\inf_{y\in C}f(x,y)$ 是一个凸函数.

证.：易见 $g$ 的有效定义域为 $\mathbf{dom}(g):=\{x|$ 存在 $y\in C$ , 使得 $(x,y)\in\mathbf{dom}(f)\}.$

对任意的 $x_1,x_2\in\mathbf{dom}(g),\theta\in[0,1],\:\forall y_1,y_2\in C$ , 记 $\begin{aligned}x_\theta:=\theta x_1+(1-\theta)x_2,\quad y_\theta:=\theta y_1+(1-\theta)y_2.\end{aligned}$ 则 $y_\theta\in C$ 且 $(x_\theta,y_\theta)=\theta(x_1,y_1)+(1-\theta)(x_2,y_2)$ .于是 $g(x_\theta)\leq f(x_\theta,y_\theta)\leq\theta f(x_1,y_1)+(1-\theta)f(x_2,y_2).$ $\begin{aligned}&,y_2\in C\text{ 是任意的, 所以 }g(x_\theta)\leq\theta g(x_1)+(1-\theta)g(x_2)\end{aligned}$ 即 $g$ 是凸函数.

例 3.2.1 (点到凸集的距离) 设 $\parallel\cdot\parallel$ 是 $\mathbb{R}^n$ 中一个半范数， $C$ 是 $\mathbb{R}^n$ 中凸集，则 $\mathbf{dist}(x,C):=\inf_{y\in C}\|x-y\|,\quad\forall x\in\mathbb{R}^n,$ 是 $\mathbb{R}^n$ 中凸函数.

证：易见 $f(x,y):=\|x-y\|$ 是 $\mathbb{R}^n\times\mathbb{R}^n$ 上凸函数，所以 ${\mathrm{dist}}(x,C):=\inf_{y\in\mathcal{C}}f(x,y)$ 是凸函数.

文章来源:https://blog.csdn.net/weixin_47255403/article/details/135032720
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！