在推导公式和计算中,常常能碰到矩阵乘以其矩阵转置,在此做个总结。

1.假设矩阵A是一个

m

n

m*n

mn 矩阵,那么

A

A

T

A*A^T

AAT 得到一个

m

m

m*m

mm 矩阵,

A

T

A

A^T*A

ATA 得到一个

n

n

n*n

nn 的矩阵,这样我们就能得到一个方矩阵。
看一个例子:

X

θ

=

H

X \theta =H

Xθ=H 求解

θ

\theta

θ.

X

T

X

θ

=

X

T

H

X^TX\theta =X^TH

XTXθ=XTH 这个矩阵X我们不能确定是否是方矩阵,所以我们在其左侧同时乘以X矩阵的转置,这样 就在

θ

\theta

θ 的左侧得到一个方矩阵。

(

X

T

X

)

1

X

T

X

θ

=

(

X

T

X

)

1

X

T

H

(X^TX)^{-1}X^TX\theta =(X^TX)^{-1}X^TH

(XTX)1XTXθ=(XTX)1XTH 再在等式的两边乘以

X

T

X

X^TX

XTX的逆,就变成了单位矩阵

I

I

I

θ

\theta

θ相乘,这样我们就得到了

θ

\theta

θ的解:

θ

=

(

X

T

X

)

1

X

T

H

\theta=(X^TX)^{-1}X^TH

θ=(XTX)1XTH

2.对称矩阵
如果方阵A满足

A

T

=

A

A^T=A

AT=A,就称A为对称矩阵。
假设

A

=

X

T

X

A=X^TX

A=XTX,A的转置

A

T

=

(

X

T

X

)

T

=

X

T

X

=

A

A^T=(X^TX)^T=X^TX=A

AT=(XTX)T=XTX=A,所以我们可以说

(

X

T

X

)

(X^TX)

(XTX)是一个对称矩阵。对称矩阵的特征向量两两正交。 1

3.奇异值分解(SVD)
我们可以用与A相关的特征分解来解释A的奇异值分解。A的左奇异向量是

A

A

T

AA^T

AAT的特征向量,A的右奇异向量是

A

T

A

A^TA

ATA的特征向量,A的非零奇异值是

A

T

A

A^TA

ATA特征值的平方根,同时也是

A

A

T

AA^T

AAT特征值的平方根。 2

Reference:


  1. https://blog.csdn.net/BingeCuiLab/article/details/47209037 ↩︎

  2. Goodfellow I, Bengio Y, Courville A, et al. Deep learning[M]. Cambridge: MIT press, 2016. ↩︎


版权声明:本文为Mao_Jonah原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/Mao_Jonah/article/details/82118878