二次型

二次型是一种特殊的二次函数，只含有二次项，它在线性代数与多元函数微积分中被广泛使用

在机器学习中二次型经常作为目标函数出现

基本概念

二次型(Quadric Form) 是由纯二次项构成的函数，即二次齐次多项式，如下面的函数

$2 x^{2}-3 x y+y^{2}+z^{2}$

二次型可以写成矩阵形式

$x^{\mathrm{T}} \boldsymbol{A x}$

其中$\boldsymbol{A}$是$n$阶对称矩阵，$\boldsymbol{x}$是一个列向量，上面的二次型展开之后为

$\sum_{i=1}^{n} \sum_{j=1}^{n} a_{i j} x_{i} x_{j}$

这里要求 $a_{i j}=a_{j i}$ ，需要注意的是，一般的二次函数不一定是二次型，它可能有一次项和常数项

上式的二次型对应的矩阵为

$\left(\begin{array}{ccc} 2 & -1.5 & 0 \\ -1.5 & 1 & 0 \\ 0 & 0 & 1 \end{array}\right)$

平方项 $a x_{i}^{2}$ 的系数是矩阵的主对角线元素，交叉乘积项 $a x_{i} x_{j}$ 的系数由 $a_{i j}$ 与 $a_{j i}$ 均分，实对称矩阵与二次型一一对应

正定二次型与正定矩阵

在某些数学证明或计算中，会将二次函数配方成完全平方的形式以得到想要的结果，如下面的例子

$\left(x_{1}-2\right)^{2}+\left(x_{2}+5\right)^{2}+\left(x_{3}-7\right)^{2}$

平方项是非负的，$(2,-5,7)$是该函数的极小值，由此引入二次型和矩阵正定的概念，如果一个二次型对于任意非$\boldsymbol{0}$向量$\boldsymbol{x}$都有

$\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}>0$

则称该二次型为正定(Positive Definite)二次型，矩阵$\boldsymbol{A}$为正定矩阵，如果对于任意非$\boldsymbol{0}$向量$\boldsymbol{x}$都有

$\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x} \geqslant 0$

则该二次型为半正定(Positive Semi-definite)二次型，矩阵$\boldsymbol{A}$为半正定矩阵，如果对于任意非0向量$\boldsymbol{x}$都在

$\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A x}<0$

则该二次型为负定(Negative Definite)二次型，矩阵$A$为负定矩阵，类似地可以定义半负定的概念

如果既不正定也不负定，则称为不定

下面的二次型为正定二次型

$f\left(x_{1},x_{2},x_{3}\right)=x_{1}^{2}+2 x_{2}^{2}+x_{3}^{2}$

其对应的矩阵为正定矩阵

$\left(\begin{array}{lll} 1 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 1 \end{array}\right)$

下面的二次型为半正定二次型

$f\left(x_{1},x_{2},x_{3}\right)=x_{1}^{2}+2 x_{2}^{2}$

其对应的矩阵为半正定矩阵

$\left(\begin{array}{lll} 1 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 0 \end{array}\right)$

如果令 $x_{1}=0，x_{2}=0，x_{3}=1$ ，二次型的值为0

下面的二次型是负定二次型

$f\left(x_{1},x_{2},x_{3}\right)=-x_{1}^{2}-2 x_{2}^{2}-x_{3}^{2}$

其对应的矩阵为负定矩阵

$\left(\begin{array}{ccc} -1 & 0 & 0 \\ 0 & -2 & 0 \\ 0 & 0 & -1 \end{array}\right)$

正定二次型被用于多元函数极值的判定法则

正定矩阵的所有主对角线元素$a_{i i}>0，i=1，\cdots，n$

根据正定的定义，由于对于任意非0向量$\boldsymbol{x}$都有$\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}>0$，因此可以构造一个第$i$个分量为1，其他分量均为0的向量$\boldsymbol{x}$

$\left(\begin{array}{lllll} 0 & \cdots & 1 & \cdots & 0 \end{array}\right)^{\mathrm{T}}$

则有

$\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}=a_{i i}>0$

因此结论成立

证明一个对称矩阵$\boldsymbol{A}$正定可以按照定义进行，除此之外，还可以采用下面的方法

矩阵 $\boldsymbol{A}$ 的 $n$ 个特征值 $\lambda_{1}，\cdots，\lambda_{n}$ 均大于0
存在可逆矩阵$\boldsymbol{P}$使得$\boldsymbol{A}=\boldsymbol{P}^{\mathrm{T}} \boldsymbol{P}$
如果$\boldsymbol{A}$是正定矩阵，则$\boldsymbol{A}^{\mathrm{T}}$也是正定矩阵
矩阵$\boldsymbol{A}$的所有顺序主子式均为正

第一条判定规则可以通过正交变换将二次型化为标准型证明，化为标准型(对应于对角矩阵)之后为正定二次型

下面证明第2条判定规则，对于任意曲$\boldsymbol{\theta}$向量$\boldsymbol{x}$在

$\boldsymbol{x}^{\mathrm{T}} A \boldsymbol{x}=\boldsymbol{x}^{\mathrm{T}} \boldsymbol{P}^{\mathrm{T}} \boldsymbol{P} \boldsymbol{x}=\left(\boldsymbol{P}_{\boldsymbol{x}}\right)^{\mathrm{T}} \boldsymbol{P} \boldsymbol{x}>0$

因为$P$可逆，对于任意非$\boldsymbol{0}$向量$\boldsymbol{x}$有$\boldsymbol{P x} \neq \mathbf{0}$

下面证明第3条判定规则，如果$A$是正定矩阵，对于任意非0向量$x$都有$x^{\mathrm{T}} A \boldsymbol{x}>0$，对于任意非$\boldsymbol{0}$向量$\boldsymbol{x}$有

$\left(\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A}^{\mathrm{T}} \boldsymbol{x}\right)^{\mathrm{T}}=\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}>0$

对于$n$阶矩阵$A$

$\boldsymbol{A}=\left(\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1 n} \\ a_{21} & a_{22} & \cdots & a_{2 n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n 1} & a_{n 2} & \cdots & a_{n n} \end{array}\right)$

其前$k, 1 \leqslant k \leqslant n$行前$k$列元素形成的行列式

$\left|\begin{array}{ccc} a_{11} & \cdots & a_{1 k} \\ \vdots & \ddots & \vdots \\ a_{k 1} & \cdots & a_{k k} \end{array}\right|$

称为顺序主子式，这是矩阵左上角的子方阵形成的行列式，对于下面的4阶矩阵

$\boldsymbol{A}=\left(\begin{array}{cccc} 1 & 2 & 3 & 4 \\ 5 & 6 & 7 & 8 \\ 9 & 10 & 11 & 12 \\ 13 & 14 & 15 & 16 \end{array}\right)$

其1阶顺序主子式为

$|1|$

2阶顺序主子式为

$\left|\begin{array}{ll} 1 & 2 \\ 5 & 6 \end{array}\right|$

3阶顺序主子式为

$\left|\begin{array}{ccc} 1 & 2 & 3 \\ 5 & 6 & 7 \\ 9 & 10 & 11 \end{array}\right|$

4阶顺序主子式为

$\left|\begin{array}{cccc} 1 & 2 & 3 & 4 \\ 5 & 6 & 7 & 8 \\ 9 & 10 & 11 & 12 \\ 13 & 14 & 15 & 16 \end{array}\right|$

矩阵$A$不是正定的，因为其二阶顺序主子式为负

$\left|\begin{array}{ll} 1 & 2 \\ 5 & 6 \end{array}\right|=1 \times 6-2 \times 5<0$

对于任意的$m \times n$矩阵$\boldsymbol{A}$，$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}$是对称半正定矩阵，下面给出证明，显然该矩阵是对称的

$\left(\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}\right)^{\mathrm{T}}=\boldsymbol{A}^{\mathrm{T}}\left(\boldsymbol{A}^{\mathrm{T}}\right)^{\mathrm{T}}=\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}$

对于任意非$\boldsymbol{0}$向量$\boldsymbol{x}$，有

$\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}=(\boldsymbol{A} \boldsymbol{x})^{\mathrm{T}}(\boldsymbol{A} \boldsymbol{x}) \geqslant 0$

类似地可以证明$\boldsymbol{A A ^ { \mathrm { T } }}$也是对称半正定矩阵

在机器学习中，这种矩阵经常出现，如向量组的格拉姆矩阵，包括线性回归、支持向量机以及logistic回归等线性模型

它们目标函数的黑塞矩阵为这种类型的矩阵，因此是凸函数，可以保证求得全局极小值点

类似地，实对称矩阵负定可以通过下面的方法进行判定

矩阵 $A$ 的 $n$ 个特征值 $\lambda_{1}, \cdots, \lambda_{n}$ 均小于0
存在可逆矩阵$\boldsymbol{P}$使得$\boldsymbol{A}=-\boldsymbol{P}^{\mathrm{T}} \boldsymbol{P}$
矩阵$A$的所有奇数阶顺序主子式均为负，偶数阶顺序主子式均为正

标准型

标准型指对于任意的 $i \neq j$ ，二次型中项 $a_{i j} x_{i} x_{j}$ 的系数均为0，二次型由纯平方项构成，可写成如下形式

$\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}=d_{1} x_{1}^{2}+d_{2} x_{2}^{2}+\cdots+d_{n} x_{n}^{2}$

下面是一个标准型

$x_{1}^{2}-3 x_{2}^{2}+x_{3}^{2}$

标准型对应的矩阵为对角矩阵，上面的标准型对应的矩阵为

$\left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & -3 & 0 \\ 0 & 0 & 1 \end{array}\right)$

在标准型中，正平方项的数量称为正惯性指数，负平方项的数量称为负惯性指数

上面的标准型的正惯性指数为2，负惯性指数为1

由于二次型的矩阵为对称矩阵，因此一定可以对角化

通过正交变换可以将二次型化为标准型，与实对称矩阵的正交变换对角化相同

对于二次型$x^{\mathrm{T}} A \boldsymbol{x}$，通过正交变换将$A$化为对角矩阵

$\boldsymbol{A}=\boldsymbol{P} \boldsymbol{\Lambda} \boldsymbol{P}^{\mathrm{T}}$

从而有

$\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}=\boldsymbol{x}^{\mathrm{T}} \boldsymbol{P} \boldsymbol{\Lambda} \boldsymbol{P}^{\mathrm{T}} \boldsymbol{x}=\left(\boldsymbol{P}^{\mathrm{T}} \boldsymbol{x}\right)^{\mathrm{T}} \boldsymbol{\Lambda}\left(\boldsymbol{P}^{\mathrm{T}} \boldsymbol{x}\right)$

这里$\boldsymbol{P}$是正交矩阵，如果令$\boldsymbol{y}=\boldsymbol{P}^{\mathrm{T}} \boldsymbol{x}$或者$\boldsymbol{x}=\boldsymbol{P} \boldsymbol{y}$，则$\boldsymbol{y}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{y}$是标准型

这对应于通过将$\boldsymbol{x}$换元为$y$，使得换元之后的二次型为标准型

如果矩阵 $\boldsymbol{A}$ 的 $n$ 个特征值 $\lambda_{1}, \cdots, \lambda_{n}$ 均大于0，则矩阵 $\boldsymbol{A}$ 正定

对于任意非0向量$x$，由于$P$是正交矩阵，$y=P^{\mathrm{T}} x \neq 0$，因此$A$正定

下面举例说明，对于下面的二次型

$x_{1}^{2}+5 x_{2}^{2}+5 x_{3}^{2}+2 x_{1} x_{2}-4 x_{1} x_{3}$

其对应的系数矩阵为

$A=\left(\begin{array}{ccc} 1 & 1 & -2 \\ 1 & 5 & 0 \\ -2 & 0 & 5 \end{array}\right)$

特征多项式为

$\begin{array}{l} |A-\lambda I| =\left|\begin{array}{ccc} 1-\lambda & 1 & -2 \\ 1 & 5-\lambda & 0 \\ -2 & 0 & 5-\lambda \end{array}\right| \stackrel{r_{3}+2 r_{2}}{\longrightarrow}\left|\begin{array}{ccc} 1-\lambda & 1 & -2 \\ 1 & 5-\lambda & 0 \\ 0 & 2(5-\lambda) & 5-\lambda \end{array}\right| \stackrel{c_{2}-2 \times c_{3}}{\longrightarrow}\left|\begin{array}{cccc} 1-\lambda & 5 & -2 \\ 1 & 5-\lambda & 0 \\ 0 & 0 & 5-\lambda \end{array}\right| \\ =(5-\lambda)\left(\lambda^{2}-6 \lambda\right) \end{array}$

解得特征值为$0,5,6$

当$\lambda=5$时，有

$A-\lambda I=\left(\begin{array}{ccc} -4 & 1 & -2 \\ 1 & 0 & 0 \\ -2 & 0 & 0 \end{array}\right) \rightarrow\left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & -2 \\ 0 & 0 & 0 \end{array}\right)$

方程$(A-\lambda I) x=0$的解为

$\boldsymbol{x}_{1}=\left(\begin{array}{lll} 0 & 2 & 1 \end{array}\right)^{\mathrm{T}}$

当$\lambda=6$时，有

$\boldsymbol{A}-\lambda \boldsymbol{I}=\left(\begin{array}{ccc} -5 & 1 & -2 \\ 1 & -1 & 0 \\ -2 & 0 & -1 \end{array}\right) \rightarrow\left(\begin{array}{ccc} 1 & 0 & 1 / 2 \\ 0 & 1 & 1 / 2 \\ 0 & 0 & 0 \end{array}\right)$

方程$(A-\lambda I) x=0$的解为

$x_{2}=\left(\begin{array}{lll} 1 & 1 & -2 \end{array}\right)^{\mathrm{T}}$

当$\lambda=0$时，有

$\boldsymbol{A}-\lambda I=\left(\begin{array}{ccc} 1 & 1 & -2 \\ 1 & 5 & 0 \\ -2 & 0 & 5 \end{array}\right) \rightarrow\left(\begin{array}{ccc} 1 & 0 & -5 / 2 \\ 0 & 1 & 1 / 2 \\ 0 & 0 & 0 \end{array}\right)$

方程$(A-\lambda I) x=0$的解为

$\boldsymbol{x}_{3}=\left(\begin{array}{lll} 5 & -1 & 2 \end{array}\right)^{\mathrm{T}}$

由于二次型的系数矩阵是实对称矩阵，其不同特征值对应的特征向量相互正交，因此只需要将这些特征向量单位化即可

$\alpha_{1}=\frac{1}{\sqrt{5}}\left(\begin{array}{l} 0 \\ 2 \\ 1 \end{array}\right), \alpha_{2}=\frac{1}{\sqrt{6}}\left(\begin{array}{c} 1 \\ 1 \\ -2 \end{array}\right), \alpha_{3}=\frac{1}{\sqrt{30}}\left(\begin{array}{c} 5 \\ -1 \\ 2 \end{array}\right)$

令

$P=\left(\begin{array}{ccc} 0 & \frac{1}{\sqrt{6}} & \frac{5}{\sqrt{30}} \\ \frac{2}{\sqrt{5}} & \frac{1}{\sqrt{6}} & -\frac{1}{\sqrt{30}} \\ \frac{1}{\sqrt{5}} & -\frac{2}{\sqrt{6}} & \frac{2}{\sqrt{30}} \end{array}\right)$

通过正交变换$x=\boldsymbol{P y}$可将二次型化为如下的标准型

$5 y_{1}^{2}+6 y_{2}^{2}$

矩阵分解

矩阵分解是矩阵分析的重要内容，这种技术将一个矩阵分解为若干矩阵的乘积，通常为2个或3个矩阵的乘积

在求解线性方程组，计算逆矩阵、行列式以及特征值，多重积分换元等问题上，矩阵分解有广泛的应用

楚列斯基分解

对于$n$阶对称半正定矩阵$\boldsymbol{A}$，楚列斯基(Cholesky)分解将其分解为$n$阶下三角矩阵$L$以及其转置$L^{\mathrm{T}}$的乘积

$\boldsymbol{A}=\boldsymbol{L} \boldsymbol{L}^{\mathrm{T}}$

如果$A$是实对称正定矩阵，则上式的分解唯一

下面是对称矩阵楚列斯基分解的一个例子

$\left(\begin{array}{ccc} 4 & 12 & -16 \\ 12 & 37 & -43 \\ -16 & -43 & 98 \end{array}\right)=\left(\begin{array}{ccc} 2 & 0 & 0 \\ 6 & 1 & 0 \\ -8 & 5 & 3 \end{array}\right)\left(\begin{array}{ccc} 2 & 6 & -8 \\ 0 & 1 & 5 \\ 0 & 0 & 3 \end{array}\right)$

楚列斯基分解可用于求解线性方程组，对于如下的线性方程组

$\boldsymbol{A x}=\boldsymbol{b}$

如果$A$是对称正定矩阵，它可以分解为$L L^{\mathrm{T}}$，则有

$\boldsymbol{L} \boldsymbol{L}^{\mathrm{T}} \boldsymbol{x}=\boldsymbol{b}$

如果令

$\boldsymbol{L}^{\mathrm{T}} \boldsymbol{x}=\boldsymbol{y}$

则可先求解线性方程组

$L y=b$

得到$y$。然后求解

$\boldsymbol{L}^{\mathrm{T}} \boldsymbol{x}=\boldsymbol{y}$

得到$x$，这两个方程组的系数矩阵分别为下三角和上三角矩阵，均可高效地求解

在实际应用中，如果系数矩阵$A$不变而常数向量$b$会改变，则预先将$A$进行楚列斯基分解，每次对于不同的$b$均可高效地求解

在求解最优化问题的拟牛顿法中，需要求解如下的方程组

$\boldsymbol{B}_{k} \boldsymbol{d}=-\boldsymbol{g}_{k}$

其中 $B_{k}$ 为第 $k$ 次迭代时的黑塞(Hessian)矩阵的近似矩阵， $d$ 为牛顿方向， $g_{k}$ 为第 $k$ 次迭代时的梯度值

此方程可以使用楚列斯基分解求解

楚列斯基分解还可以用于检查矩阵的正定性

对一个矩阵进行楚列斯基分解，如果分解失败，则说明矩阵不是半正定矩阵；否则为半正定矩阵

下面以3阶矩阵为例推导楚列斯基分解的计算公式，如果

$\boldsymbol{A}=\left(\begin{array}{lll} a_{11} & a_{21} & a_{31} \\ a_{21} & a_{22} & a_{32} \\ a_{31} & a_{32} & a_{33} \end{array}\right)=\boldsymbol{L} \boldsymbol{L}^{\mathrm{T}}=\left(\begin{array}{ccc} l_{11} & 0 & 0 \\ l_{21} & l_{22} & 0 \\ l_{31} & l_{32} & l_{33} \end{array}\right)\left(\begin{array}{ccc} l_{11} & l_{21} & l_{31} \\ 0 & l_{22} & l_{32} \\ 0 & 0 & l_{33} \end{array}\right)$

则有

$\left(\begin{array}{ccc} l_{11}^{2} & l_{21} l_{11} & l_{31} l_{11} \\ l_{21} l_{11} & l_{21}^{2}+l_{22}^{2} & l_{31} l_{21}+l_{32} l_{22} \\ l_{31} l_{11} & l_{31} l_{21}+l_{32} l_{22} & l_{31}^{2}+l_{32}^{2}+l_{33}^{2} \end{array}\right)=\left(\begin{array}{lll} a_{11} & a_{21} & a_{31} \\ a_{21} & a_{22} & a_{32} \\ a_{31} & a_{32} & a_{33} \end{array}\right)$

首先可以得到主对角的第一个元素

$l_{11}=\sqrt{a_{11}}$

根据$l_{11}$可以得到第2行的所有元素

$l_{21}=\frac{a_{21}}{l_{11}}, l_{22}=\sqrt{a_{22}-l_{21}^{2}}$

进一步得到第3行的元素

$l_{31}=\frac{a_{31}}{l_{11}}, l_{32}=\frac{1}{l_{22}}\left(a_{32}-l_{31} l_{21}\right), l_{33}=\sqrt{a_{33}-\left(l_{31}^{2}+l_{32}^{2}\right)}$

所有元素逐行算出，首先计算出第1行的元素 $l_{11}$ ，然后计算第2行的元素 $l_{21}, l_{22}$ ，接下来计算 $l_{31}, l_{32}, l_{33}$ ，依此类推

这里 $l_{i j}, 1<j \leqslant i$ 与 $l_{p q}, p \leqslant i, q<j$ 有关，这些值已经被算出

对于$n$阶矩阵，楚列斯基分解的计算公式为

$l_{i i}=\left(a_{i i}-\sum_{k=1}^{i-1} l_{i k}^{2}\right)^{\frac{1}{2}} \qquad l_{j i}=\frac{1}{l_{i i}}\left(a_{j i}-\sum_{k=1}^{i-1} l_{i k} l_{j k}\right), j=i+1, \cdots, n$

Python中linalg的cholesky函数实现了对称正定矩阵的楚列斯基分解

函数的输入是被分解矩阵$\boldsymbol{A}$，输出为下三角矩阵$\boldsymbol{L}$

import numpy as np

A = np.array([[6,3,4,8],[3,6,5,1],[4,5,10,7],[8,1,7,25]])
L = np.1inalg.cholesky(A)
print(L)

程序输出结果为

[[2.44948974  0.0         0.0         0.0 ],
 [1.22474487  2.12132034  0.0         0.0],
 [1.63299316  1.41421356  2.30940108  0.0],
 [3.26598632  -1.41421356 1.58771324  3.13249102]]

可以验证矩阵$\boldsymbol{L}$与其转置的乘积即为矩阵$\boldsymbol{A}$

QR 分解

QR分解(正交三角分解)将矩阵分解为正交矩阵与上三角矩阵的乘积，这种分解被广泛地应用于求解某些问题，如矩阵的特征值

事实上，$\mathrm{QR}$分解是格拉姆-施密特正交化的另外一种表现形式

首先考虑方阵的情况，对于任意的$n$阶方阵$\boldsymbol{A}$，$\mathrm{QR}$分解将其分解为一个$n$阶正交矩阵$\boldsymbol{Q}$与一个$n$阶上三角矩阵$\boldsymbol{R}$的乘积

$A=Q R$

如果矩阵$\boldsymbol{A}$可逆且要求矩阵$\boldsymbol{R}$的主对角元为正，则上式的分解唯一

如果$\boldsymbol{A}$有$m(m \leqslant n$) 个线性无关的列，则$\boldsymbol{Q}$的前$m$个列构成$\boldsymbol{A}$的列空间的标准正交基

下面来看$\mathrm{QR}$分解的实际例子，对于如下矩阵

$\boldsymbol{A}=\left(\begin{array}{ll} 7 & 2 \\ 2 & 4 \end{array}\right)$

其$\mathrm{QR}$分解的结果为

$\boldsymbol{A}=\boldsymbol{Q R}=\left(\begin{array}{ll} 7 & 2 \\ 2 & 4 \end{array}\right)=\left(\begin{array}{cc} 0.962 & -0.275 \\ 0.275 & 0.962 \end{array}\right)\left(\begin{array}{cc} 7.28 & 3.02 \\ 0 & 3.30 \end{array}\right)$

下面考虑非方阵的情况，对于$m \times n, m>n$的矩阵$\boldsymbol{A}$，QR 分解将其分解为一个$m$阶正交矩阵与如下形式的$m \times n$矩阵$\boldsymbol{R}$的乘积

$\boldsymbol{A}=\boldsymbol{Q} \boldsymbol{R}=\boldsymbol{Q}\left(\begin{array}{c} \boldsymbol{R}_{n} \\ \boldsymbol{0}_{(m-n) \times n} \end{array}\right)$

其中$\boldsymbol{R}_{n}$是$n$阶上三角矩阵，$\boldsymbol{0}$是一个$(m-n) \times n$的零矩阵。如果$m<n$, 则分解的结果为

$\boldsymbol{A}=\boldsymbol{Q R}=\boldsymbol{Q}\left(\boldsymbol{R}_{m} \boldsymbol{B}_{m \times(n-m)}\right)$

其中$\boldsymbol{Q}$是一个$m$阶正交矩阵， $\boldsymbol{R}_{m}$ 是 $m$ 阶上三角矩阵， $\boldsymbol{B}_{m \times(n-m)}$ 是一个 $m \times(n-m)$ 的矩阵

$\mathrm{QR}$分解有 3 种实现方式

分别是格拉姆-施密特正交化、豪斯霍尔德变换以及吉文斯(Givens)旋转

下面介绍格拉姆-施密特正交化以及豪斯霍尔德变换

考虑$A$为$n$阶方阵的情况，使用格拉姆-施密特正交化技术对矩阵$A$的列进行正交化，将矩阵$\boldsymbol{A}$按列分块

$\boldsymbol{A}=\left(\begin{array}{lll} a_{1} & \cdots & a_{n} \end{array}\right)$

假设这些列向量线性无关，首先将它的列正交化

$\begin{array}{ll} u_{1}=\boldsymbol{a}_{1} \qquad \boldsymbol{u}_{2}=\boldsymbol{a}_{2}-\frac{\boldsymbol{a}_{2}^{\mathrm{T}} \boldsymbol{u}_{1}}{\boldsymbol{u}_{1}^{\mathrm{T}} \boldsymbol{u}_{1}} \boldsymbol{u}_{1} \qquad \boldsymbol{u}_{3}=\boldsymbol{a}_{3}-\frac{\boldsymbol{a}_{3}^{\mathrm{T}} \boldsymbol{u}_{1}}{\boldsymbol{u}_{1}^{\mathrm{T}} \boldsymbol{u}_{1}} \boldsymbol{u}_{1}-\frac{\boldsymbol{a}_{3}^{\mathrm{T}} \boldsymbol{u}_{2}}{\boldsymbol{u}_{2}^{\mathrm{T}} \boldsymbol{u}_{2}} \boldsymbol{u}_{2} \\ \ldots \qquad \boldsymbol{u}_{n}=\boldsymbol{a}_{n}-\sum_{i=1}^{n-1} \frac{\boldsymbol{a}_{n}^{\mathrm{T}} \boldsymbol{u}_{i}}{\boldsymbol{u}_{i}^{\mathrm{T}} \boldsymbol{u}_{i}} \boldsymbol{u}_{i} \end{array}$

然后进行单位化

$\boldsymbol{e}_{i}=\frac{\boldsymbol{u}_{i}}{\left\|\boldsymbol{u}_{i}\right\|^{\prime}}, i=1, \cdots, n$

$A$的各个列向量在标准正交基下的坐标为其在各个基向量上的投影，由于在进行格拉姆-施密特正交化时 $e_{i}$ 只与 $a_{1}, \cdots, a_{i}$ 有关

因此 $a_{i}$ 在 $e_{i+1}, \cdots, e_{n}$ 方向的投影均为0，有

$\begin{array}{l} \boldsymbol{a}_{1}=\boldsymbol{a}_{1}^{\mathrm{T}} \boldsymbol{e}_{1} \boldsymbol{e}_{1} \qquad \boldsymbol{a}_{2}=\boldsymbol{a}_{2}^{\mathrm{T}} \boldsymbol{e}_{1} \boldsymbol{e}_{1}+\boldsymbol{a}_{2}^{\mathrm{T}} \boldsymbol{e}_{2} \boldsymbol{e}_{2} \qquad \boldsymbol{a}_{3}=\boldsymbol{a}_{3}^{\mathrm{T}} \boldsymbol{e}_{1} \boldsymbol{e}_{1}+\boldsymbol{a}_{3}^{\mathrm{T}} \boldsymbol{e}_{2} \boldsymbol{e}_{2}+\boldsymbol{a}_{3}^{\mathrm{T}} \boldsymbol{e}_{3} \boldsymbol{e}_{3} \\ \ldots \qquad \boldsymbol{a}_{n}=\sum_{i=1}^{n} \boldsymbol{a}_{n}^{\mathrm{T}} e_{i} e_{i} \\ \end{array}$

写成矩阵形式为

$\left(a_{1} \cdots a_{n}\right)=\left(\begin{array}{lll}e_{1} & \cdots & e_{n}\end{array}\right)\left(\begin{array}{cccc}\boldsymbol{a}_{1}^{\mathrm{T}} \boldsymbol{e}_{1} & \boldsymbol{a}_{2}^{\mathrm{T}} \boldsymbol{e}_{1} & \boldsymbol{a}_{3}^{\mathrm{T}} \boldsymbol{e}_{1} & \cdots \\ 0 & \boldsymbol{a}_{2}^{\mathrm{T}} \boldsymbol{e}_{2} & \boldsymbol{a}_{3}^{\mathrm{T}} \boldsymbol{e}_{2} & \cdots \\ 0 & 0 & \boldsymbol{a}_{3}^{\mathrm{T}} \boldsymbol{e}_{3} & \cdots \\ \vdots & \vdots & \vdots & \end{array}\right)$

令 $Q=\left(e_{1} \cdots e_{n}\right)$ ，以及

$\boldsymbol{R}=\left(\begin{array}{cccc} \boldsymbol{a}_{1}^{\mathrm{T}} \boldsymbol{e}_{1} & \boldsymbol{a}_{2}^{\mathrm{T}} \boldsymbol{e}_{1} & \boldsymbol{a}_{3}^{\mathrm{T}} \boldsymbol{e}_{1} & \cdots \\ 0 & \boldsymbol{a}_{2}^{\mathrm{T}} \boldsymbol{e}_{2} & \boldsymbol{a}_{3}^{\mathrm{T}} \boldsymbol{e}_{2} & \cdots \\ 0 & 0 & \boldsymbol{a}_{3}^{\mathrm{T}} \boldsymbol{e}_{3} & \cdots \\ \vdots & \vdots & \vdots & \end{array}\right)$

$Q$的列是用$A$的列构造的标准正交基，$R$的第$i$列为$\boldsymbol{A}$的第$i$列在前$i$个基向量方向的投影，此即$Q R$分解结果

例子

下面举例说明，对于如下的矩阵

$\boldsymbol{A}=\left(\begin{array}{ccc} 12 & -51 & 4 \\ 6 & 167 & -68 \\ -4 & 24 & -41 \end{array}\right)$

首先对它的列向量进行正交化，得到如下矩阵

$\boldsymbol{U}=\left(\begin{array}{lll} \boldsymbol{u}_{1} & \boldsymbol{u}_{2} & \boldsymbol{u}_{3} \end{array}\right)=\left(\begin{array}{ccc} 12 & -69 & -58 / 5 \\ 6 & 158 & 6 / 5 \\ -4 & 30 & -33 \end{array}\right)$

然后将该矩阵的列单位化，可以得到

$\boldsymbol{Q}=\left(\begin{array}{lll} \frac{\boldsymbol{u}_{1}}{\left\|\boldsymbol{u}_{1}\right\|} & \frac{\boldsymbol{u}_{2}}{\left\|\boldsymbol{u}_{2}\right\|} & \frac{\boldsymbol{u}_{3}}{\left\|\boldsymbol{u}_{3}\right\|} \end{array}\right)=\left(\begin{array}{ccc} 6 / 7 & -69 / 175 & -58 / 175 \\ 3 / 7 & 158 / 175 & 6 / 175 \\ -2 / 7 & 6 / 35 & -33 / 35 \end{array}\right)$

由此可以得到上三角矩阵

$\boldsymbol{R}=\boldsymbol{Q}^{\mathrm{T}} \boldsymbol{A}=\left(\begin{array}{ccc} 14 & 21 & -14 \\ 0 & 175 & -70 \\ 0 & 0 & 35 \end{array}\right)$

用豪斯霍尔德变换进行$Q R$分解的思路与之前讲述的类似，首先用矩阵$A$的第1列构造第1个豪斯霍尔德矩阵$\boldsymbol{P}_{1}$

$\left(\begin{array}{cccc} p_{11} & p_{12} & \cdots & p_{1 n} \\ p_{21} & p_{22} & \cdots & p_{2 n} \\ \vdots & \vdots & & \vdots \\ p_{n 1} & p_{n 2} & \cdots & p_{n n} \end{array}\right)$

左乘该矩阵将$\boldsymbol{A}$的第1列后面$n-1$个元素全部零化

$\boldsymbol{P}_{1} \boldsymbol{A}=\left(\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1 n} \\ 0 & a_{22} & \cdots & a_{2 n} \\ \vdots & \vdots & & \vdots \\ 0 & a_{n 2} & \cdots & a_{n n} \end{array}\right)$

接下来构造第2个豪斯霍尔德矩阵$P_{2}$，为如下形式

$\left(\begin{array}{cccc} 1 & 0 & \cdots & 0 \\ 0 & p_{22} & \cdots & p_{2 n} \\ \vdots & \vdots & & \vdots \\ 0 & p_{n 2} & \cdots & p_{n n} \end{array}\right)$

其中

$\left(\begin{array}{ccc} p_{22} & \cdots & p_{2 n} \\ \vdots & & \vdots \\ p_{n 2} & \cdots & p_{n n} \end{array}\right)$

使用 $P_{1} \boldsymbol{A}$ 的第2列的后面 $n-1$ 个元素构造，将 $P_{1} A$ 左乘 $P_{2}$ ，可以将其第2列后面 $n-2$ 个元素零化

$\boldsymbol{P}_{2} \boldsymbol{P}_{1} \boldsymbol{A}=\left(\begin{array}{ccccc} a_{11} & a_{12} & a_{13} & \cdots & a_{1 n} \\ 0 & a_{22} & a_{23} & \cdots & a_{2 n} \\ 0 & 0 & a_{33} & \cdots & a_{3 n} \\ \vdots & \vdots & \vdots & & \vdots \\ 0 & 0 & a_{n 3} & \cdots & a_{n n} \end{array}\right)$

构造第3个豪斯霍尔德矩阵$\boldsymbol{P}_{3}$，为如下形式

$\left(\begin{array}{ccccc} 1 & 0 & 0 & \cdots & 0 \\ 0 & 1 & 0 & \cdots & 0 \\ 0 & 0 & p_{33} & \cdots & p_{3 n} \\ \vdots & \vdots & \vdots & & \vdots \\ 0 & 0 & p_{n 3} & \cdots & p_{n n} \end{array}\right)$

其中

$\left(\begin{array}{ccc} p_{33} & \cdots & p_{3 n} \\ \vdots & & \vdots \\ p_{n 3} & \cdots & p_{n n} \end{array}\right)$

用 $P_{2} P_{1} A$ 的第3列的后面 $n-2$ 个元素构造，将 $P_{2} P_{1} A$ 左乘 $P_{3}$ ，可以将其第3列后面 $n-3$ 个元素零化

$\boldsymbol{P}_{3} \boldsymbol{P}_{2} \boldsymbol{P}_{1} \boldsymbol{A}=\left(\begin{array}{cccccc} a_{11} & a_{12} & a_{13} & a_{14} & \cdots & a_{1 n} \\ 0 & a_{22} & a_{23} & a_{24} & \cdots & a_{2 n} \\ 0 & 0 & a_{33} & a_{34} & \cdots & a_{3 n} \\ 0 & 0 & 0 & a_{44} & \cdots & a_{4 n} \\ \vdots & \vdots & \vdots & \vdots & & \vdots \\ 0 & 0 & 0 & a_{n 4} & \cdots & a_{n n} \end{array}\right)$

依此类推，经过$n-1$次豪斯霍尔德变换，可以将$\boldsymbol{A}$化为上三角矩阵

$P_{n-1} \cdots P_{2} P_{1} A=R$

令

$Q=\left(P_{n-1} \cdots P_{2} P_{1}\right)^{-1}=P_{1}^{-1} P_{2}^{-1} \cdots P_{n-1}^{-1}=P_{1} P_{2} P_{n-1}$

由于$P_{0}, i=1, \cdots, n-1$都是正交矩阵，因此$Q$也是一个正交矩阵，这就是$\mathrm{QR}$分解的结果

$\mathrm{QR}$分解可以由Python中linalg的qr函数实现，函数的输入为被分解矩阵$A$，输出为正交矩阵$Q$和上三角矩阵$R$

下面用例子进行说明，首先考虑方阵，对于如下的方阵

$\boldsymbol{A}=\left(\begin{array}{lll} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{array}\right)$

其$\mathrm{QR}$分解的代码如下

import numpy as np

A = np.array([[1,2,3],[4,5,6],[7,8,9]])
Q, R = np.linalg.qr(A)
print(Q)
print(R)

程序运行结果如下

[[-0.12309149  0.90453403    0.40824829],
 [-0.49236596  0.30151134    -0.81649658],
 [-0.86164044  -0.301511340  0.40824829]]

[[-8.12403840e+00  -9.60113630e+00  -1.10782342e+01],
 [0.00000000e+00   9.04534034e-01   1.80906807e+00],
 [0.00000000e+00   0.00000000e+00   -8.88178420e-16]]

可以验证这两个矩阵的乘积就是原始矩阵$\boldsymbol{A}$，接下来考虑不是方阵的情况，对于如下的矩阵

$\boldsymbol{A}=\left(\begin{array}{lll} 1 & 2 & 3 \\ 4 & 5 & 6 \end{array}\right)$

其$\mathrm{QR}$分解的代码如下

import numpy as np

A = np.array([[1,2,3],[4,5,6]])
Q, R = np.linalg.qr(A)
print(Q)
print(R)

程序运行结果如下

[[-0.24253563-0.9701425]
 [-0.97014250 .24253563]]

[[-4.12310563-5.33578375-6.54846188]
 [0,-0.72760688-1.45521375]]

特征值分解

定义

特征值分解(Eigen Decomposition)也称为谱分解(Spectral Decomposition)，是矩阵相似对角化的另一种表述

对于$n$阶矩阵$\boldsymbol{A}$，如果它有$n$个线性无关的特征向量，则可将其分解为如下3个矩阵的乘积

$\boldsymbol{A}=\boldsymbol{Q} \Lambda \boldsymbol{Q}^{-1}$

其中$\Lambda$为对角矩阵，矩阵$\Lambda$的对角线元素为矩阵$A$的特征值

$\Lambda=\left(\begin{array}{lll} \lambda_{1} & & \\ & \ddots & \\ & & \lambda_{n} \end{array}\right)$

$Q$为$n$阶矩阵，它的列为$A$的特征向量，与对角矩阵中特征值的排列顺序一致

$\boldsymbol{Q}=\left(\begin{array}{lll} x_{1} & \cdots & \boldsymbol{x}_{n} \end{array}\right)$

一个$n$阶矩阵可以进行特征值分解的充分必要条件是它有$n$个线性无关的特征向量，通常情况下，这些特征向量$x_{i}$都是单位化的

用于计算逆矩阵

特征值分解可以用于计算逆矩阵，如果矩阵$\boldsymbol{A}$可以进行特征值分解，且其所有特征值都非0，则

$A=Q \Lambda Q^{-1}$

其逆矩阵为

$\boldsymbol{A}^{-1}=\left(\boldsymbol{Q} \boldsymbol{A} \boldsymbol{Q}^{-1}\right)^{-1}=\boldsymbol{Q} \boldsymbol{\Lambda}^{-1} \boldsymbol{Q}^{-1}$

对角矩阵的逆矩阵容易计算，是主对角线所有元素的倒数

特征值分解还可用于计算矩阵的多项式或者幂，对于如下多项式

$f(x)=a_{n} x^{n}+a_{n-1} x^{n-1}+\cdots+a_{1} x$

如果矩阵$\boldsymbol{A}$可以进行特征值分解，且

$\boldsymbol{A}=\boldsymbol{Q A} \boldsymbol{Q}^{-1}$

则有

$\begin{aligned} f(\boldsymbol{A}) & =f\left(\boldsymbol{Q \Lambda} \boldsymbol{Q}^{-1}\right)=a_{1} \boldsymbol{Q \Lambda} Q^{-1}+a_{2} \boldsymbol{Q \Lambda} Q^{-1} Q \Lambda Q^{-1}+\cdots=a_{1} \boldsymbol{Q} \boldsymbol{\Lambda} Q^{-1}+a_{2} \boldsymbol{Q} \boldsymbol{\Lambda}^{2} Q^{-1}+\cdots \\ & =\boldsymbol{Q}\left(a_{1} \boldsymbol{\Lambda}+a_{2} \Lambda^{2}+\cdots\right) Q^{-1}=Q f(\boldsymbol{\Lambda}) Q^{-1} \end{aligned}$

对角矩阵的幂仍然是对角矩阵，是主对角线元素分别求幂，因此有

$f(\boldsymbol{\Lambda})_{i i}=f\left(\Lambda_{i i}\right)$

借助于特征值分解，可以高效地计算出$f(A)$，特别地，有

$A^{n}=Q A^{n} Q^{-1}$

如果$A$是实对称矩阵，可对其特征向量进行正交化，特征值分解为

$\boldsymbol{A}=Q \Lambda Q^{\mathrm{T}}$

其中$Q$为正交矩阵，它的列是$A$的正交化特征向量，$A$同样为$A$的所有特征值构成的对角矩阵

特征值分解可以借助于$\mathrm{QR}$箕法实现，机器学习中常用的矩阵如协方差矩阵等都是实对称矩阵，因此都可以进行特征值分解

特征值分解可以由Python中linalg的eig函数实现，函数的输入为被分解矩阵$A$，输出为所有特征值，以及这些特征值对应的单位化特征向量

import numpy as np

A = np.array([[1,2,3],[4,5,6],[7,8,9]])
V, U = np.linalg.eig(A)
print(U)
print(V)

程序结果如下

[[-0.23197069-0.785830240 .40824829]
 [-0.52532209-0.08675134-0.81649658]
 [-0.81867350 .612327560 .40824829]]

[1.61168440e+01   -1.11684397e+00  -1.30367773e-15]

这里的V所有特征值形成的向量，U的列是单位化的特征向量

奇异值分解

特征值分解只适用于方阵，且要求方阵有$n$个线性无关的特征向量

奇异值分解(Singular Value Decomposition, SVD)是对它的推广，对于任意的矩阵均可用特征值与特征向量进行分解

其思路是对$A A^{\mathrm{T}}$和$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}$进行特征值分解，对于任意矩阵$\boldsymbol{A}$，这两个矩阵都是对称半正定矩阵，一定能进行特征值分解

并且这两个矩阵的特征值都是非负的，后面将会证明它们有相同的非0特征值

假设$A \in \mathbb{R}^{m \times n}$，其中$m \geqslant n$，则有

$\boldsymbol{U}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{V}=\mathbf{\Sigma}$

其中$\boldsymbol{U}$为$m$阶正交矩阵，其列称为矩阵$\boldsymbol{A}$的左奇异向量，也是$\boldsymbol{A} \boldsymbol{A}^{\mathrm{T}}$的特征向量，$\boldsymbol{\Sigma}$为如下形式的$m \times n$矩阵

$\boldsymbol{\Sigma}=\left(\begin{array}{cccc} \sigma_{1} & 0 & \cdots & 0 \\ 0 & \sigma_{2} & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & \cdots & \sigma_{n} \\ 0 & 0 & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & \cdots & \cdots \end{array}\right)=\left(\begin{array}{c} \boldsymbol{\Sigma}_{n} \\ \mathbf{0}_{(m-n) \times n} \end{array}\right)$

其尺寸与$\boldsymbol{A}$相同，在这里$\boldsymbol{\Sigma}_{n}$是$n$阶对角矩阵且主对角线元素按照其值大小降序排列

$\boldsymbol{\Sigma}_{n}=\operatorname{diag}\left(\sigma_{1}, \cdots, \sigma_{n}\right), \sigma_{1} \geqslant \sigma_{2} \geqslant \cdots \geqslant \sigma_{n} \geqslant 0$

$\sigma_{i}$称为$\boldsymbol{A}$的奇异值，是$\boldsymbol{A} \boldsymbol{A}^{\mathrm{T}}$特征值的非负平方根，也是$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}$特征值的非负平方根

$\boldsymbol{V}$为$n$阶正交矩阵，其行称为矩阵$\boldsymbol{A}$的右奇异向量，也是$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}$的特征向量

式1两边左乘$\boldsymbol{U}$，右乘$\boldsymbol{V}^{\mathrm{T}}$，由于$\boldsymbol{U}$、$\boldsymbol{V}$都是正交矩阵，因此有

$\boldsymbol{A}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{\boldsymbol { V } ^ { \mathrm { T } }}$

上式称为矩阵的奇异值分解，对于$m \leqslant n$的情况，有类似的结果，此时

$\boldsymbol{\Sigma}=\left(\begin{array}{ccccccc} \sigma_{1} & 0 & \cdots & 0 & 0 & \cdots & \cdots \\ 0 & \sigma_{2} & \cdots & 0 & 0 & \cdots & \cdots \\ \cdots & \cdots & \cdots & \cdots & 0 & \cdots & \cdots \\ 0 & 0 & \cdots & \sigma_{m} & 0 & \cdots & \cdots \end{array}\right)=\left(\boldsymbol{\Sigma}_{m} \mathbf{0}_{m \times(n-m)}\right)$

下面证明$\boldsymbol{A} A^{\mathrm{T}}$与$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}$有相同的非0特征值，假设$\lambda \neq 0$是$A A^{\mathrm{T}}$的特征值,$\boldsymbol{x}$是对应的特征向量，则有

$\boldsymbol{A} \boldsymbol{A}^{\mathrm{T}} \boldsymbol{x}=\lambda \boldsymbol{x}$

上式两边同时左乘$\boldsymbol{A}^{\mathrm{T}}$可以得到

$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{A}^{\mathrm{T}} \boldsymbol{x}=\boldsymbol{A}^{\mathrm{T}} \lambda \boldsymbol{x}$

即

$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}\left(\boldsymbol{A}^{\mathrm{T}} \boldsymbol{x}\right)=\lambda\left(\boldsymbol{A}^{\mathrm{T}} \boldsymbol{x}\right)$

下面证明$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{x} \neq \mathbf{0}$，式 (2.65) 两边同时左乘$\boldsymbol{x}^{\mathrm{T}}$, 由于$\lambda \neq 0, \boldsymbol{x} \neq \mathbf{0}$

$\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{A}^{\mathrm{T}} \boldsymbol{x}=\left(\boldsymbol{A}^{\mathrm{T}} \boldsymbol{x}\right)^{\mathrm{T}} \boldsymbol{A}^{\mathrm{T}} \boldsymbol{x}=\lambda \boldsymbol{x}^{\mathrm{T}} \boldsymbol{x}>0$

因此$A^{\mathrm{T}} x \neq 0$，$\lambda$是$A^{\mathrm{T}} A$的特征值，$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{x}$是对应的特征向量

同样，如果$\lambda \neq 0$是$A^{\mathrm{T}} A$的特征值,$\boldsymbol{x}$是对应的特征向量，则有

$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}=\lambda \boldsymbol{x}$

上式两边同时左乘$\boldsymbol{A}$可以得到

$\boldsymbol{A} \boldsymbol{A}^{\mathrm{T}} \boldsymbol{A x}=\boldsymbol{A} \lambda \boldsymbol{x}$

即

$\boldsymbol{A} \boldsymbol{A}^{\mathrm{T}}(\boldsymbol{A} \boldsymbol{x})=\lambda(\boldsymbol{A} \boldsymbol{x})$

下面证明$A x \neq 0$，上上上式两边同时左乘$x^{\mathrm{T}}$，由于$\lambda \neq 0, x \neq 0$

$\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}=(\boldsymbol{A} \boldsymbol{x})^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}=\boldsymbol{\lambda} \boldsymbol{x}^{\mathrm{T}} \boldsymbol{x}>0$

因此$A x \neq 0$，$\lambda$是$A A^{\mathrm{T}}$的特征值，$A \boldsymbol{x}$是对应的特征向量

需要注意的是，$\boldsymbol{A A ^ { \mathrm { T } }}$的0特征值不一定是$A^{\mathrm{T}} \boldsymbol{A}$的0特征值，下面举例说明，对于如下的矩阵

$\boldsymbol{A}=\left(\begin{array}{ll} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{array}\right)$

有

$\boldsymbol{A} \boldsymbol{A}^{\mathrm{T}}=\left(\begin{array}{ll} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{array}\right)\left(\begin{array}{lll} 1 & 0 & 0 \\ 0 & 1 & 0 \end{array}\right)=\left(\begin{array}{lll} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \end{array}\right)$

$A A^{\mathrm{T}}$的特征值为 $\lambda_{1}=1, \lambda_{2}=1, \lambda_{3}=0$

$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}=\left(\begin{array}{lll} 1 & 0 & 0 \\ 0 & 1 & 0 \end{array}\right)\left(\begin{array}{ll} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{array}\right)=\left(\begin{array}{ll} 1 & 0 \\ 0 & 1 \end{array}\right)$

可知 $\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}$ 特征值为 $\lambda_{1}=1, \lambda_{2}=1$ ，0是 $\boldsymbol{A} \boldsymbol{A}^{\mathrm{T}}$ 的特征值但不是 $\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}$ 的特征值

下面来看奇异值分解的一个例子。对于如下的矩阵

$\boldsymbol{A}=\left(\begin{array}{cc} -1 & 3 \\ 3 & 1 \\ 1 & 1 \end{array}\right)$

有

$\boldsymbol{A} \boldsymbol{A}^{\mathrm{T}}=\left(\begin{array}{ccc} 10 & 0 & 2 \\ 0 & 10 & 4 \\ 2 & 4 & 2 \end{array}\right)$

以及

$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}=\left(\begin{array}{cc} 11 & 1 \\ 1 & 11 \end{array}\right)$

这里 $A A^{\mathrm{T}}$ 的特征值为 $\lambda_{1}=12, \lambda_{2}=10, \lambda_{3}=0$ ， $\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}$ 的特征值为 $\lambda_{1}=12, \lambda_{2}=10$

因此$\boldsymbol{A}$的非0奇异值为 $\sigma_{1}=\sqrt{12}$ 、 $\sigma_{2}=\sqrt{10}$

计算$\boldsymbol{A} \boldsymbol{A}^{\mathrm{T}}$与$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}$的特征向量并进行单位化，最后得到奇异值分解结果为

$\boldsymbol{U}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{V}=\left(\begin{array}{ccc} \frac{1}{\sqrt{6}} & \frac{2}{\sqrt{6}} & \frac{1}{\sqrt{6}} \\ \frac{2}{\sqrt{5}} & -\frac{1}{\sqrt{5}} & 0 \\ \frac{1}{\sqrt{30}} & \frac{2}{\sqrt{30}} & -\frac{5}{\sqrt{30}} \end{array}\right)^{\mathrm{T}}\left(\begin{array}{cc} -1 & 3 \\ 3 & 1 \\ 1 & 1 \end{array}\right)\left(\begin{array}{cc} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \end{array}\right)=\left(\begin{array}{cc} \sqrt{12} & 0 \\ 0 & \sqrt{10} \\ 0 & 0 \end{array}\right)$

如果$m \geqslant n$

$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}=\left(\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{\mathrm{T}}\right)^{\mathrm{T}} \boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{\mathrm{T}}=\boldsymbol{V} \boldsymbol{\Sigma}^{\mathrm{T}} \boldsymbol{U}^{\mathrm{T}} \boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{\mathrm{T}}=\boldsymbol{V} \boldsymbol{\Sigma}^{\mathrm{T}} \boldsymbol{\Sigma} \boldsymbol{V}^{\mathrm{T}}$

即

$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}=\boldsymbol{V} \boldsymbol{\Sigma}^{\mathrm{T}} \boldsymbol{\Sigma} \boldsymbol{V}^{\mathrm{T}}$

在这里

$\boldsymbol{\Sigma}^{\mathrm{T}} \boldsymbol{\Sigma}=\left(\begin{array}{c} \boldsymbol{\Sigma}_{n} \\ \mathbf{0}_{(m-n) \times n} \end{array}\right)^{\mathrm{T}}\left(\begin{array}{c} \boldsymbol{\Sigma}_{n} \\ \mathbf{0}_{(m-n) \times n} \end{array}\right)=\left(\boldsymbol{\Sigma}_{n} \mathbf{0}_{n \times(m-n)}\right)\left(\begin{array}{c} \boldsymbol{\Sigma}_{n} \\ \mathbf{0}_{(m-n) \times n} \end{array}\right)=\boldsymbol{\Sigma}_{n}^{2}$

是$n$阶对角阵，上式就是$A^{\mathrm{T}} \boldsymbol{A}$的特征值分解

类似地有

$\boldsymbol{A} \boldsymbol{A}^{\mathrm{T}}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{\mathrm{T}}\left(\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{\mathrm{T}}\right)^{\mathrm{T}}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{\mathrm{T}} \boldsymbol{V} \boldsymbol{\Sigma}^{\mathrm{T}} \boldsymbol{U}^{\mathrm{T}}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{\Sigma}^{\mathrm{T}} \boldsymbol{U}^{\mathrm{T}}$

即

$\boldsymbol{A} \boldsymbol{A}^{\mathrm{T}}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{\Sigma}^{\mathrm{T}} \boldsymbol{U}^{\mathrm{T}}$

在这里

$\begin{aligned} \boldsymbol{\Sigma} \boldsymbol{\Sigma}^{\mathrm{T}} & =\left(\begin{array}{c} \boldsymbol{\Sigma}_{n} \\ \mathbf{0}_{(m-n) \times n} \end{array}\right)\left(\begin{array}{c} \boldsymbol{\Sigma}_{n} \\ \mathbf{0}_{(m-n) \times n} \end{array}\right)^{\mathrm{T}}=\left(\begin{array}{c} \boldsymbol{\Sigma}_{n} \\ \mathbf{0}_{(m-n) \times n} \end{array}\right)\left(\begin{array}{cc} \boldsymbol{\Sigma}_{n} & \mathbf{0}_{n \times(m-n)} \end{array}\right) \\ & =\left(\begin{array}{cc} \boldsymbol{\Sigma}_{n}^{2} & \boldsymbol{\Sigma}_{n} \times \boldsymbol{0}_{n \times(m-n)} \\ \mathbf{0}_{(m-n) \times n} \times \boldsymbol{\Sigma}_{n} & \mathbf{0}_{(m-n) \times n} \times \mathbf{0}_{n \times(m-n)} \end{array}\right)=\left(\begin{array}{cc} \boldsymbol{\Sigma}_{n}^{2} & \boldsymbol{0}_{n \times(m-n)} \\ \mathbf{0}_{(m-n) \times n} & \mathbf{0}_{(m-n) \times(m-n)} \end{array}\right) \end{aligned}$

是$m$阶对角阵，上上式就是$A A^{\mathrm{T}}$的特征值分解，对于$m \leqslant n$有相同的结论

如果$A$是对称矩阵，则$A^{\mathrm{T}} A=A A^{\mathrm{T}}=A \boldsymbol{A}$，因此$A^{\mathrm{T}} A$和$\boldsymbol{A} \boldsymbol{A}^{\mathrm{T}}$的特征值分解是相同的，这意味着$U$和$V$相同

假设$\lambda$是$A$的特征值，根据特征值的性质，$\lambda^{2}$是$A^{\mathrm{T}} \boldsymbol{A}$与$\boldsymbol{A A ^ { \mathrm { T } }}$的特征值，因此$A$的奇异值为其特征值的绝对值

$\sigma=\sqrt{\lambda^{2}}=|\lambda|$

Python中linalg的svd函数实现了奇异值分解，函数的输入值为被分解矩阵$A$，输出为正交矩阵$U$和$V^{\mathrm{T}}$，以及非0奇异值$\sigma_{i}$

from numpy import *

data = [[1,2,3],[4,5,6]]
u, sigma, vt = linalg.svd(data)

print(u)
print(sigma)
print(vt)

输出结果如下

[[-0.3863177   -0.92236578]
 [-0.92236578   0.3863177]
 [9.508032      0.77286964]] 
 
[[-0.42866713   -0.56630692   -0.7039467]
 [0.80596391    0.11238241    -0.58119908]
 [0.40824829   -0.81649658    0.40824829]]