MIT线性代数笔记-第30讲-奇异值分解

发布时间:2023年12月27日

30.奇异值分解

奇异值分解(简称 S V D SVD SVD分解)可以将一个比较复杂的矩阵用更小更简单的几个子矩阵相乘来表示,这些小矩阵描述的都是矩阵的重要的特性。奇异值分解在图形降噪、推荐系统中都有很重要的应用。

对于任意矩阵 A A A都有 A = U Σ V T A = U \Sigma V^T A=UΣVT,其中 U , V U , V U,V为正交矩阵,当 A A A为方阵时, Σ \Sigma Σ为对角阵且其主对角线元素即为 A A A的奇异值

由主轴定理可知对称矩阵的奇异值分解为 Q Λ Q T Q \Lambda Q^T QΛQT,此时 U = V = Q U = V = Q U=V=Q

A A A是一个 m m m n n n列的矩阵且秩为 r r r,可以将 A A A视为一个线性变换且能把行空间中的向量 v ? \vec{v} v 变为列空间中的 u ? \vec{u} u ,即 u ? = A v ? \vec{u} = A \vec{v} u =Av

考虑 A A A行空间的一组标准正交基,经过 A A A的变换后不一定能得到列空间的一组正交基,因此那组满足条件的标准正交基尤为重要,再考虑将变换后的每个向量都视为一个单位向量的倍数,即 A v ? = σ u ? A \vec{v} = \sigma \vec{u} Av =σu (其中 v ? , u ? \vec{v} , \vec{u} v ,u 均为单位向量),最后将上述过程用矩阵表示得 A [ v ? 1 v ? 2 ? v ? r ] = [ u ? 1 u ? 2 ? u ? r ] [ σ 1 0 ? 0 0 σ 2 ? 0 ? ? ? ? 0 0 ? σ r ] A \begin{bmatrix} \vec{v}_1 & \vec{v}_2 & \cdots & \vec{v}_r \end{bmatrix} = \begin{bmatrix} \vec{u}_1 & \vec{u}_2 & \cdots & \vec{u}_r \end{bmatrix} \begin{bmatrix} \sigma_1 & 0 & \cdots & 0 \\ 0 & \sigma_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma_r \end{bmatrix} A[v 1??v 2????v r??]=[u 1??u 2????u r??] ?σ1?0?0?0σ2??0??????00?σr?? ?,即 A V = U Σ A V = U \Sigma AV=UΣ

  1. A A A是可逆矩阵时, U , V U , V U,V为正交矩阵,所以 A = U Σ V ? 1 = U Σ V T A = U \Sigma V^{-1} = U \Sigma V^T A=UΣV?1=UΣVT

    接下来求解 U , V U , V U,V,先考虑消去 U U U,由上一讲可知 A T A A^T A ATA至少是半正定的,这说明它具有很好的性质,接下来表示出 A T A A^T A ATA,有 A T A = V Σ T U T U Σ V T = V Σ 2 V T = V [ σ 1 2 0 ? 0 0 σ 2 2 ? 0 ? ? ? ? 0 0 ? σ r 2 ] V T A^T A = V \Sigma^T U^T U \Sigma V^T = V \Sigma^2 V^T = V \begin{bmatrix} \sigma_1^2 & 0 & \cdots & 0 \\ 0 & \sigma_2^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma_r^2 \end{bmatrix} V^T ATA=VΣTUTUΣVT=VΣ2VT=V ?σ12?0?0?0σ22??0??????00?σr2?? ?VT

    因为 A T A A^T A ATA是对称矩阵,又 A T A A^T A ATA的特征值非负且 Σ 2 \Sigma^2 Σ2的主对角线元素为平方也非负,所以 V Σ 2 V T V \Sigma^2 V^T VΣ2VT可以被视为 Q Λ Q T Q \Lambda Q^T QΛQT,这样就求出了 V , Σ V , \Sigma V,Σ,即 v ? 1 , v ? 2 , ? ? , v ? r \vec{v}_1 , \vec{v}_2 , \cdots , \vec{v}_r v 1?,v 2?,?,v r?分别为 A T A A^T A ATA的标准正交特征向量, σ 1 , σ 2 , ? ? , σ r \sigma_1 , \sigma_2 , \cdots , \sigma_r σ1?,σ2?,?,σr?分别为 A T A A^T A ATA特征值的平方根

    同理可以由 A A T A A^T AAT得到 U U U,即 u ? 1 , u ? 2 , ? ? , u ? r \vec{u}_1 , \vec{u}_2 , \cdots , \vec{u}_r u 1?,u 2?,?,u r?分别为 A A T A A^T AAT的标准正交特征向量

    例: A = [ 4 4 ? 3 3 ] A = \begin{bmatrix} 4 & 4 \\ -3 & 3 \end{bmatrix} A=[4?3?43?] S V D SVD SVD分解

    ? ??有 A T A = [ 4 ? 3 4 3 ] [ 4 4 ? 3 3 ] = [ 25 7 7 25 ] A^T A = \begin{bmatrix} 4 & -3 \\ 4 & 3 \end{bmatrix} \begin{bmatrix} 4 & 4 \\ -3 & 3 \end{bmatrix} = \begin{bmatrix} 25 & 7 \\ 7 & 25 \end{bmatrix} ATA=[44??33?][4?3?43?]=[257?725?],解得其特征值为 32 , 18 32 , 18 32,18,对应特征向量 [ 1 1 ] , [ 1 ? 1 ] \begin{bmatrix} 1 \\ 1 \end{bmatrix} , \begin{bmatrix} 1 \\ -1 \end{bmatrix} [11?],[1?1?]

    ? ??标准化后得到 [ 1 2 1 2 ] , [ 1 2 ? 1 2 ] \begin{bmatrix} 1\over{\sqrt{2}} \\ 1\over{\sqrt{2}} \end{bmatrix} , \begin{bmatrix} 1\over{\sqrt{2}} \\ -1\over{\sqrt{2}} \end{bmatrix} [2 ?1?2 ?1??],[2 ?1?2 ??1??],所以 Σ = [ 4 2 0 0 3 2 ] , V T = [ 1 2 1 2 1 2 ? 1 2 ] \Sigma = \begin{bmatrix} 4\sqrt{2} & 0 \\ 0 & 3\sqrt{2} \end{bmatrix} , V^T = \begin{bmatrix} 1\over{\sqrt{2}} & 1\over{\sqrt{2}} \\ 1\over{\sqrt{2}} & -1\over{\sqrt{2}} \end{bmatrix} Σ=[42 ?0?032 ??],VT=[2 ?1?2 ?1??2 ?1?2 ??1??]

    ? ??再用和求 V V V类似的方法求得 U = [ 1 0 0 1 ] U = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} U=[10?01?],但是此时 U Σ V T = [ 4 4 3 ? 3 ] ≠ A U \Sigma V^T = \begin{bmatrix} 4 & 4 \\ 3 & -3 \end{bmatrix} \ne A UΣVT=[43?4?3?]=A

    ? ??这是因为在求 u ? \vec{u} u 时没有考虑已经求得的对应 v ? \vec{v} v ,而 u ? \vec{u} u 本应该由对应 v ? \vec{v} v 得到,所以应该用已经求得的 V V V Σ \Sigma Σ求出 U U U

    ? ??比如把该例子中 U U U的第二个列向量换为 [ 0 ? 1 ] \begin{bmatrix} 0 \\ -1 \end{bmatrix} [0?1?],仍然可以对应特征值且保持标准正交,还满足 U Σ V T = A U \Sigma V^T = A UΣVT=A

  2. A A A是奇异矩阵时,应该考虑矩阵的零空间和左零空间,它们分别和行空间、列空间正交,因此分别把它们的一组标准正交基加入 V , U V , U V,U,这样 U , V U , V U,V又成为了正交矩阵,并且零空间和左零空间基中的元素对应的 σ = 0 \sigma = 0 σ=0

    A [ v ? 1 ? v ? r v ? r + 1 ? v ? n ] = [ u ? 1 ? u ? r u ? r + 1 ? u ? n ] [ σ 1 ? 0 0 ? 0 ? ? ? ? ? ? 0 ? σ r 0 ? 0 0 ? 0 0 ? 0 ? ? ? ? ? ? 0 ? 0 0 ? 0 ] A \begin{bmatrix} \vec{v}_1 & \cdots & \vec{v}_r & \vec{v}_{r + 1} & \cdots & \vec{v}_n \end{bmatrix} = \begin{bmatrix} \vec{u}_1 & \cdots & \vec{u}_r & \vec{u}_{r + 1} & \cdots & \vec{u}_n \end{bmatrix} \begin{bmatrix} \sigma_1 & \cdots & 0 & 0 & \cdots & 0 \\ \vdots & \ddots & \vdots & \vdots & \cdots & \vdots \\ 0 & \cdots & \sigma_r & 0 & \cdots & 0 \\ 0 & \cdots & 0 & 0 & \cdots & 0 \\ \vdots & \cdots & \vdots & \vdots & \ddots & \vdots \\ 0 & \cdots & 0 & 0 & \cdots & 0 \end{bmatrix} A[v 1????v r??v r+1????v n??]=[u 1????u r??u r+1????u n??] ?σ1??00?0????????0?σr?0?0?0?00?0????????0?00?0? ?

    这样也有 A = U Σ V T A = U \Sigma V^T A=UΣVT,求 U , V U , V U,V的方法和 A A A为可逆矩阵时一致

  3. A A A不是方阵时,考虑了零空间和左零空间后, U , V U , V U,V的维数分别为 m , n m , n m,n,不再相等,所以 Σ \Sigma Σ会是一个 m m m n n n列的矩阵

    但是仍然有 A = U Σ V T A = U \Sigma V^T A=UΣVT,并且求 U , V U , V U,V的方法还是一样的


打赏

制作不易,若有帮助,欢迎打赏!
赞赏码

支付宝付款码

文章来源:https://blog.csdn.net/jiaoliao946/article/details/135251383
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。