矩阵的秩 (rank)

符号

r

(

A

)

,

r

k

(

A

)

,

 

o

r

 

r

a

n

k

(

A

)

r(A),rk(A), \ or \ rank(A)

r(A),rk(A), or rank(A)
定义:在线性代数中,一个矩阵A的列秩是A的线性独立的纵列的极大数目。类似地,行秩是A的线性无关的横行的极大数目。即如果把矩阵看成一个个行向量或者列向量,秩就是这些行向量或者列向量的秩,也就是极大无关组中所含向量的个数
MATLAB求秩函数: rank()


矩阵内积 (Inner Product of Matrices)

符号

.

,

.

\langle., .\rangle

.,.
目的:度量长度。
定义:列向量

a

\mathbf{a}

a与行向量

b

\mathbf{b}

b的内积是指:组成

a

\mathbf{a}

a的第一个元素与组成

b

\mathbf{b}

b的第一个元素的乘积,依次,m个这样的乘积的加和。例如,

<

a

,

b

>

=

(

a

1

a

2

)

(

b

1

b

2

)

=

a

1

b

1

+

a

2

b

2

<\mathbf{a},\mathbf{b}>= \left(\begin{array}{c} a_{1} \\ a_{2} \end{array}\right) \left(\begin{array}{ll} b_{1} & b_{2} \end{array}\right) =a_{1} b_{1} + a_{2} b_{2}

<a,b>=(a1a2)(b1b2)=a1b1+a2b2
矩阵

A

\mathbf{A}

A与矩阵

B

\mathbf{B}

B的内积是指:组成

A

\mathbf{A}

A的第一个向量与组成

B

\mathbf{B}

B的第一个向量的内积,依次,m个这样的内积的加和。

<

A

,

B

>

=

i

=

1

n

j

=

1

n

a

i

j

b

i

j

<\mathbf{A},\mathbf{B}>=\sum^n_{i=1}\sum^n_{j=1}a_{ij}*b_{ij}

<A,B>=i=1nj=1naijbij
例如

<

A

,

B

>

=

(

a

11

a

12

a

21

a

22

)

(

b

11

b

12

b

21

b

22

)

=

(

a

11

+

b

11

a

12

+

b

12

a

21

+

b

21

a

22

+

b

22

)

<\mathbf{A},\mathbf{B}>= \left(\begin{array}{c} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array}\right) \left(\begin{array}{ll} b_{11} & b_{12} \\ b_{21} & b_{22} \end{array}\right) =\left(\begin{array}{ll} a_{11}+b_{11} & a_{12}+b_{12} \\ a_{21}+b_{21} & a_{22}+b_{22} \end{array}\right)

<A,B>=(a11a21a12a22)(b11b21b12b22)=(a11+b11a21+b21a12+b12a22+b22)
另一种定义: 令

V

V

V 是定义在场

F

\mathbf{F}

F (

F

=

R

 

o

r

 

C

\mathbf{F} = \mathbf{R} \ or \ \mathbf{C}

F=R or C)上的向量空间。 如果对于任意

x

,

y

,

z

V

x, y, z \in V

x,y,zV

c

F

c\in \mathbf{F}

cF,函数

<

,

>

:

V

×

V

F

\left< \cdot ,\cdot \right>:V\times V\to \mathbf{F}

,:V×VF满足下列条件,则它是一个内积(inner product)。

(

1

)

   

x

,

x

0

,

N

o

n

n

e

g

a

t

i

v

i

t

y

(

1

a

)

 

x

,

x

=

0

,

i

f

 

a

n

d

 

o

n

l

y

 

i

f

 

x

=

0

 

P

o

s

i

t

i

v

i

t

y

(

2

)

   

x

+

y

,

z

=

x

,

z

+

y

,

z

,

A

d

d

i

t

i

v

i

t

y

(

3

)

   

<

c

x

,

y

>

=

c

<

x

,

y

>

,

H

o

m

o

g

e

n

e

i

t

y

(

4

)

   

<

x

,

y

>

<

y

,

x

>

,

H

e

r

m

i

t

i

a

n

 

P

r

o

p

e

r

t

y

\begin{aligned} &(1) \ \ \ ⟨x,x⟩ \ge 0 , & \mathrm{Nonnegativity}(非负) \\ &(1a) \ ⟨x,x⟩=0, &\mathrm{if \ and \ only \ if \ x=0 \ ​Positivity}(永正) \\ &(2)\ \ \ ⟨x+y,z⟩=⟨x,z⟩+⟨y,z⟩, &\mathrm{Additivity}(加法) \\ &(3)\ \ \ <cx,y>= c<x,y>, &\mathrm{Homogeneity}(同质) \\ &(4)\ \ \ <x,y>≤\overline{<y,x>}, &\mathrm{Hermitian \ Property}(共轭对称)\end{aligned}​

(1)   x,x0,(1a) x,x=0,(2)   x+y,z=x,z+y,z,(3)   <cx,y>=c<x,y>,(4)   <x,y><y,x>,Nonnegativityif and only if x=0 PositivityAdditivityHomogeneityHermitian Property 只满足(1), (2), (3), (4)而不满足(1a)的称为半内积(semi-inner product)。

Cauchy-Shwarz inequality

定理 (Cauchy-Shwarz inequality).

<

,

>

\left< \cdot ,\cdot \right>

,是定义在向量空间

V

V

V 上的内积,则对于任意

x

,

y

V

x,y\in V

x,yV

<

x

,

y

>

2

<

x

,

x

>

<

y

,

y

>

{\left |\left< x ,y \right> \right|}^2 \le \left< x ,x \right>\left< y ,y \right> \quad

x,y2x,xy,y
当且仅当(if and only if) x 和 y 线性相关(linearly dependent),不等式取等号。

标量形式表示为

(

i

=

1

n

x

i

y

i

)

2

(

i

=

1

n

x

i

2

)

(

i

=

1

n

y

i

2

)

(\sum_{i=1}^{n}x_iy_i)^2 \le (\sum_{i=1}^{n}x_i^2 )(\sum_{i=1}^{n}y_i^2)

(i=1nxiyi)2(i=1nxi2)(i=1nyi2)

Proof. 令

x

,

y

V

x,y\in V

x,yV,若

x

=

y

=

0

x=y=0

x=y=0,则不等式显然成立,所以假设其中一个是非零向量,不失一般性,假设

y

0

y\ne 0

y=0,令

v

=

<

y

,

y

>

x

<

x

,

y

>

y

v=\left< y ,y \right>x – \left< x ,y \right>y

v=y,yxx,yy,有:

0

<

v

,

v

>

=

<

<

y

,

y

>

x

<

x

,

y

>

y

,

<

y

,

y

>

x

<

x

,

y

>

y

>

=

<

y

,

y

>

2

<

x

,

x

>

<

y

,

y

>

<

x

,

y

>

<

x

,

y

>

<

x

,

y

>

<

y

,

x

>

<

y

,

y

>

+

<

y

,

y

>

<

x

,

y

>

<

x

,

y

>

=

<

y

,

y

>

2

<

x

,

x

>

<

y

,

y

>

<

x

,

y

>

2

=

<

y

,

y

>

(

<

x

,

x

>

<

y

,

y

>

<

x

,

y

>

2

)

\begin{aligned} 0\le \left< v,v \right>&=\left< \left< y ,y \right>x – \left< x ,y \right>y ,\left< y ,y \right>x – \left< x ,y \right>y \right> \\ &=\left< y ,y \right>^2 \left< x,x \right> -\left< y,y \right>\overline{ \left< x,y \right>}\left< x,y \right>-\left< x,y \right>\left< y,x \right> \left< y,y \right> + \left< y,y \right>\overline{ \left< x,y \right>}\left< x,y \right> \\ &=\left< y ,y \right>^2\left< x,x \right> – \left< y ,y \right> {\left |\left< x,y \right> \right|}^2 \\ &=\left< y ,y \right>(\left< x,x \right>\left< y ,y \right>-{\left |\left< x,y \right> \right|}^2)\end{aligned}​

0v,v=y,yxx,yy,y,yxx,yy=y,y2x,xy,yx,yx,yx,yy,xy,y+y,yx,yx,y=y,y2x,xy,yx,y2=y,y(x,xy,yx,y2)
因为

y

0

y\ne 0

y=0,即

<

y

,

y

>

>

0

\left< y ,y \right> > 0

y,y>0,则推出

<

x

,

x

>

<

y

,

y

>

<

x

,

y

>

2

0

\left< x,x \right>\left< y ,y \right>-{\left |\left< x,y \right> \right|}^2 \ge 0

x,xy,yx,y20 ,只有当

v

=

0

v=0

v=0 的时候,等式成立,即

v

=

<

y

,

y

>

x

<

x

,

y

>

y

=

0

v=\left< y ,y \right>x – \left< x ,y \right>y=0

v=y,yxx,yy=0,也就是说

x

x

x

y

y

y线性依赖。

推论 1.5. 如果 $\left< \cdot ,\cdot \right>

是定义在实数或者复数域向量空间

V$ 上的内积,则函数

:

V

[

0

,

)

\|\cdot\|:V\to [0,\infty)

:V[0,)

x

=

<

x

,

x

>

1

/

2

\|x\|= \left< x,x \right>^{1/2}

x=x,x1/2是向量空间

V

V

V 上的一个范式。这样的范式(norm)被称为从内积获得(derived from an inner product)。


哈达玛积 (Hadamard Product )

符号:

\circ


LeTex : \circ
定义:哈达玛积 ( Hadamard product ) 是矩阵的一类运算,若

A

=

(

a

i

j

)

B

=

(

b

i

j

)

\boldsymbol{A}=(a_{ij})和\boldsymbol{B}=(b_{ij})

A=(aij)B=(bij)是两个同阶矩阵,若

c

i

j

=

a

i

j

×

b

i

j

c_{ij}=a_{ij}×b_{ij}

cij=aij×bij,则称矩阵

C

=

(

c

i

j

)

\boldsymbol{C}=(c_{ij})

C=(cij)

A

\boldsymbol{A}

A

B

\boldsymbol{B}

B的哈达玛积,记为

A

 

B

\boldsymbol{A} \ \circ \boldsymbol{B}

A B,具体为:

[

a

11

b

11

a

12

b

12

a

1

n

b

1

n

a

21

b

21

a

22

b

22

a

2

n

b

2

n

a

m

1

b

m

1

a

m

2

b

m

2

a

m

n

b

m

n

]

\left[\begin{array}{cccc} a_{11} b_{11} & a_{12} b_{12} & \cdots & a_{1 n} b_{1 n} \\ a_{21} b_{21} & a_{22} b_{22} & \cdots & a_{2 n} b_{2 n} \\ \vdots & \vdots & & \vdots \\ a_{m 1} b_{m 1} & a_{m 2} b_{m 2} & \cdots & a_{m n} b_{m n} \end{array}\right]

a11b11a21b21am1bm1a12b12a22b22am2bm2a1nb1na2nb2namnbmn


克罗内克积(Kronecker Product )

符号

\otimes


LeTex: \otimes
定义:克罗内克积是两个任意大小的矩阵间的运算,它是张量积的特殊形式。给定

A

\boldsymbol{A}

A

B

\boldsymbol{B}

B,则

A

\boldsymbol{A}

A

B

\boldsymbol{B}

B的克罗内克积是一个在空间

R

m

p

×

n

q

\mathbb{R}^{m p \times n q}

Rmp×nq的分块矩阵:

A

B

=

[

a

11

B

a

1

n

B

a

m

1

B

a

m

n

B

]

\boldsymbol{A} \otimes \boldsymbol{B}=\left[\begin{array}{ccc} a_{11} \boldsymbol{B} & \cdots & a_{1 n} \boldsymbol{B} \\ \vdots & \ddots & \vdots \\ a_{m 1} \boldsymbol{B} & \cdots & a_{m n} \boldsymbol{B} \end{array}\right]

AB=a11Bam1Ba1nBamnB


向量的范式

1. 向量范式的定义

定义:令

V

V

V 是定义在场

F

\mathbf{F}

F (

F

=

R

\mathbf{F} = \mathbf{R}

F=R 或者

C

\mathbf{C}

C,即实数域或者是复数域)上的向量空间。 如果对于任意的

x

,

y

V

x , y \in V

x,yV

c

F

c\in \mathbf{F}

cF 都满足下面几个条件,则称函数

:

V

R

\|\cdot\|:V\to \mathbf{R}

:VR 是一个范式 (有时被称为向量范式vector norm)。

(

1

)

   

x

0

,

N

o

n

n

e

g

a

t

i

v

i

t

y

(

1

a

)

 

x

=

0

,

i

f

 

a

n

d

 

o

n

l

y

 

i

f

 

x

=

0

 

P

o

s

i

t

i

v

i

t

y

(

2

)

   

c

x

=

c

x

,

H

o

m

o

g

e

n

e

i

t

y

(

3

)

   

x

+

y

x

+

y

,

T

r

i

a

n

g

l

e

 

I

n

e

q

u

a

l

i

t

y

\begin{aligned} &(1) \ \ \ ∥x∥≥0, \quad &\mathrm{Nonnegativity}(非负)\\ &(1a) \ ∥x∥=0, \quad &\mathrm{if \ and \ only \ if \ x=0 \ ​Positivity}(永正)\\ &(2)\ \ \ ∥cx∥= | c | \|x\|, &\mathrm{Homogeneity}(同质)\\ &(3)\ \ \ ∥x+y∥≤\|x\|+\|y\|, &\mathrm{Triangle \ Inequality}(\mathbf{三角不等})\end{aligned}​

(1)   x0,(1a) x=0,(2)   cx=cx,(3)   x+yx+y,Nonnegativityif and only if x=0 PositivityHomogeneityTriangle Inequality (2) Positivity和 (3) Homogeneity保证了对于任意非零向量

x

x

x,可以正则化到单位向量

u

=

x

x

u=\frac{x}{\|x\|}

u=xx​。

只满足(1),(2),(3)而不满足(1a)的范式称为半范式(seminorm),(1a)保证了只有零向量的范式才是0,非零向量的范式都大于0,而一个非零向量的半范式可以是0。
引理 1.2.

\|\cdot\|

是定义在实数域或者复数域向量空间

V

V

V 上的半范式, 则对于任意

x

,

y

V

x, y\in V

x,yV,有

x

y

x

y

| |x| − |y|| \le |x − y|

xyxy

Proof. 即证明

±

(

x

y

)

x

y

\pm (\|x\| − \|y\|) \le \|x − y\|

±(xy)xy

(

1

)

 

x

=

x

y

+

y

x

y

+

y

x

y

x

y

(

2

)

 

y

=

y

x

+

x

y

x

+

x

=

x

y

+

x

x

y

y

x

\begin{aligned} (1)& \ \|x\| =\|x-y+y\| \le \|x-y\|+\|y\| \\ &\Rightarrow \|x-y\| \ge \|x\| – \|y\| \\ (2) & \ \|y\| =\|y-x+x\| \le \|y-x\|+\|x\| = \|x-y\|+\|x\|\\ &\Rightarrow \|x-y\| \ge \|y\| – \|x\| \\ \end{aligned}​

(1)(2) x=xy+yxy+yxyxy y=yx+xyx+x=xy+xxyyx

2.

L

1

L_1

L1范式、L2范式、Infinity范式

1).

L

1

L_1

L1​-morm

C

n

\mathbf{C}^n

Cn上的和范式(sum norm),也叫

L

1

L_1

L1-范式(

L

1

L_1

L1-norm),定义如下:

x

1

=

x

1

+

+

x

n

\|x\|_1=|x_1|+\cdots+|x_n|

x1=x1++xn 其通常也被称为曼哈顿范式(Manhattan norm)。
例如:以二维向量

v

=

(

v

1

,

v

2

)

\mathbf{v}=(v_1, v_2)

v=(v1,v2)举例,范式的值恰好为1的图像如下,其中横轴代表

v

1

v_1

v1,纵轴代表

v

2

v_2

v2:

L

1

L_1

L1范式,即

v

1

=

v

1

+

v

2

=

1

\|v\|_1=|v_1|+|v_2|=1

v1=v1+v2=1

2).

L

2

L_2

L2​-morm

一个向量

x

=

[

x

1

,

.

.

.

,

x

n

]

T

C

n

x=[x_1,…,x_n]^T\in \mathbf{C}^n

x=[x1,...,xn]TCn的欧几里得范式(Euclidean norm),也叫

L

2

L_2

L2范式(

L

2

L_2

L2-norm),定义如下:

x

2

=

(

x

1

2

+

+

x

n

2

)

1

/

2

\|x\|_2=(|x_1|^2+\cdots+|x_n|^2)^{1/2}

x2=(x12++xn2)1/2 经常使用

x

y

2

\|x-y\|_2

xy2​来衡量两个点

x

,

y

C

n

x,y\in \mathbf{C}^n

x,yCn的欧几里得距离(Euclidean distance)。

例如:

L

2

L_2

L2范式,即

v

2

=

v

1

2

+

v

2

2

=

1

\|v\|_2=\sqrt{|v_1|^2+|v_2|^2}=1

v2=v12+v22
=
1

3).

L

L_\infty

L​-morm

C

n

C^n

Cn上的max norm(

l

l_\infty

l -norm)为:

x

=

max

{

x

1

,


,

x

n

}

\|x\|_\infty= \max \{|x_1|,\cdots,|x_n| \}

x=max{x1,,xn} 一般的,

C

n

\mathbf{C}^n

Cn 上的

l

p

l_p

lp-norm定义为:

x

p

=

(

x

1

p

+

+

x

n

p

)

1

/

p

,

p

1

\|x\|_p=(|x_1|^p+\cdots+|x_n|^p)^{1/p},\quad p\ge 1

xp=(x1p++xnp)1/p,p1
例如:Infinity范式,即

v

=

max

{

v

1

,

v

2

}

=

1

\|v\|_\infty= \max \{|v_1|,|v_2| \}=1

v=max{v1,v2}=1


矩阵范式

Frobenius 范数

A

F

=

t

r

(

A

T

A

)

=

(

i

=

1

m

j

=

1

m

a

i

j

2

)

1

/

2

,

\Vert \mathbf{A} \Vert_F=\sqrt{\mathrm{tr}( \mathbf{A}^{\mathrm{T}} \mathbf{A} )}=(\sum_{i=1}^{m}\sum_{j=1}^{m}|a_{ij}|^2)^{1/2},

AF=tr(ATA)
=
(i=1mj=1maij2)1/2,
该定义可以看作向量的 Euclidean 范数对按照矩阵各行排列的“长向量”的推广。

谱范数:

A

F

=

λ

max

,

\Vert \mathbf{A} \Vert_F=\sqrt{ \lambda_{\max} },

AF=λmax
,

λ

max

\lambda_{\max}

λmax 是矩阵

(

A

T

A

)

(\mathbf{A^{\mathrm{T}}A})

(ATA)的最大特征值. 注意:如果

A

\mathbf{A}

A是对称方阵,

A

=

max

(

λ

i

(

A

)

)

\|\mathbf{A}\|=\max (|\lambda_i(\mathbf{A})|)

A=max(λi(A)),其中

λ

i

(

A

)

\lambda_i(\mathbf{A})

λi(A)

A

\mathbf{A}

A所有的特征值。


黑塞矩阵(Hessian Matrix)

定义

黑塞矩阵是一个多元函数的二阶偏导数构成的方阵**,描述了函数的局部曲率

作用

黑塞矩阵常用于牛顿法解决优化问题,利用黑塞矩阵可判定多元函数的极值问题,边缘检测、消除边缘响应等方面的应用,抽取图像特征。大多数目标函数往往很复杂,为了使问题简化,常将目标函数在某点邻域展开成泰勒多项式逼近原函数,此时函数在某点泰勒展开式的矩阵形式中会涉及到黑塞矩阵

函数的黑塞矩阵

一元函数的泰勒展开式

若一元函数

f

(

x

)

f(x)

f(x)

x

(

0

)

x^{(0)}

x(0)点的某个邻域内具有

(

n

+

1

)

(n+1)

(n+1)阶导数,则在

x

(

0

)

x^{(0)}

x(0)点处的泰勒展开式为:

f

(

x

)

=

f

(

x

(

0

)

)

+

1

2

f

(

x

(

0

)

)

Δ

x

+

f

(

x

(

0

)

)

(

Δ

x

)

2

+

.

.

.

=

f

(

x

)

0

!

+

f

(

x

)

1

!

(

x

x

(

0

)

)

+

f

(

x

)

2

!

(

x

x

(

0

)

)

2

+

.

.

.

+

f

(

n

)

(

x

)

n

!

(

x

x

(

0

)

)

n

+

R

n

(

x

)

\begin{aligned} f(x) &=f(x^{(0)})+\frac{1}{2}f^{‘}(x^{(0)})\Delta x+f^{”}(x^{(0)})(\Delta x)^2 + …, \\ &= \frac{f(x)}{0!} + \frac{f^{‘}(x)}{1!}(x – x^{(0)}) + \frac{f^{”}(x)}{2!}(x – x^{(0)})^2 + …+\frac{f^{(n)}(x)}{n!}(x – x^{(0)})^n +R_n(x) \end{aligned}

f(x)=f(x(0))+21f(x(0))Δx+f(x(0))(Δx)2+...=0!f(x)+1!f(x)(xx(0))+2!f(x)(xx(0))2+...+n!f(n)(x)(xx(0))n+Rn(x) 其中

Δ

x

=

x

x

(

0

)

,

\Delta x = x – x^{(0)},

Δx=xx(0),

Δ

x

2

=

(

x

x

(

0

)

)

2

,

R

n

(

x

)

=

f

(

n

+

1

)

(

θ

)

(

n

+

1

)

!

(

x

x

(

0

)

)

(

n

+

1

)

\Delta x^2 = \left(x – x^{(0)} \right)^2, R_n(x)=\frac{f^{(n+1)}(\theta)}{(n+1)!}(x – x^{(0)})^{(n+1)}

Δx2=(xx(0))2,Rn(x)=(n+1)!f(n+1)(θ)(xx(0))(n+1),

 

θ

~\theta

 θ

x

x

x

x

(

0

)

x^{(0)}

x(0)之间的某个值.

二元函数的黑塞矩阵

二元函数

f

(

x

1

,

x

2

)

f(x_1,x_2)

f(x1,x2)

X

0

(

x

1

(

0

)

,

x

2

(

0

)

)

X_0(x_1^{(0)},x_2^{(0)})

X0(x1(0),x2(0))点处的泰勒展开式为:

f

(

X

)

=

f

(

X

(

0

)

)

+

[

f

(

X

(

0

)

)

x

1

Δ

x

1

+

f

(

X

(

0

)

)

x

2

Δ

x

2

]

+

   

1

2

[

2

f

(

X

(

0

)

)

2

x

1

(

Δ

x

1

)

2

+

2

f

(

X

(

0

)

)

2

x

2

(

Δ

x

2

)

2

+

2

f

(

X

(

0

)

)

x

1

x

2

(

Δ

x

1

Δ

x

2

)

]

+

.

.

.

\begin{aligned} f(X) &= f(X^{(0)})+ \left[ \frac{\partial f (X^{(0)})}{\partial x_1} \Delta x_1 + \frac{\partial f (X^{(0)})}{\partial x_2} \Delta x_2 \right]+ \\ &~~~\frac{1}{2} \left[ \frac{\partial^2 f^{”}(X^{(0)})}{\partial^2 x_1 } (\Delta x_1)^2 + \frac{\partial^2 f^{”}(X^{(0)})}{\partial^2 x_2 } (\Delta x_2)^2 + \frac{\partial^2 f^{”}(X^{(0)})}{\partial x_1 \partial x_2} (\Delta x_1 \Delta x_2) \right] + …, \end{aligned}

f(X)=f(X(0))+[x1f(X(0))Δx1+x2f(X(0))Δx2]+   21[2x12f(X(0))(Δx1)2+2x22f(X(0))(Δx2)2+x1x22f(X(0))(Δx1Δx2)]+... 其中

Δ

x

1

=

x

1

x

1

(

0

)

,

\Delta x_1 = x1-x_1^{(0)},

Δx1=x1x1(0),

Δ

x

2

=

x

2

x

2

(

0

)

.

\Delta x_2 = x2-x_2^{(0)}.

Δx2=x2x2(0).

将上述展开式写为矩阵形式:

f

(

X

)

=

f

(

X

(

0

)

)

+

(

f

x

1

Δ

x

1

+

f

x

2

Δ

x

2

)

X

(

0

)

(

Δ

x

1

Δ

x

2

)

+

1

2

(

Δ

x

1

,

Δ

x

2

)

(

2

f

x

1

2

2

f

x

1

x

2

2

f

x

2

x

1

2

f

x

2

2

)

X

(

0

)

(

Δ

x

1

Δ

x

2

)

+

.

.

.

=

f

(

X

(

0

)

)

+

f

(

X

(

0

)

)

T

Δ

X

+

1

2

Δ

X

T

G

(

X

(

0

)

)

Δ

X

+

.

.

.

,

\begin{aligned} f(X) &= f(X^{(0)})+ \left. \left( \frac{\partial f}{\partial x_1} \Delta x_1 + \frac{\partial f}{\partial x_2} \Delta x_2 \right) \right|_{X^{(0)}} \left( \begin{aligned} \Delta x_1 \\ \Delta x_2 \end{aligned} \right)+ \left.\frac{1}{2} \left( \Delta x_{1}, \Delta x_{2}\right) \left(\begin{array}{cc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} \end{array} \right) \right|_{X^{(0)}} \left(\begin{array}{c} \Delta x_{1} \\ \Delta x_{2} \end{array}\right) + …,\\ &=f(X^{(0)}) + \nabla f(X^{(0)})^T \Delta X + \frac{1}{2} \Delta X^T G(X^{(0)}) \Delta X + …, \end{aligned}

f(X)=f(X(0))+(x1fΔx1+x2fΔx2)X(0)(Δx1Δx2)+21(Δx1,Δx2)(x122fx2x12fx1x22fx222f)X(0)(Δx1Δx2)+...=f(X(0))+f(X(0))TΔX+21ΔXTG(X(0))ΔX+..., 其中

G

(

X

(

0

)

)

=

(

2

f

x

1

2

2

f

x

1

x

2

2

f

x

2

x

1

2

f

x

2

2

)

X

(

0

)

,

G(X^{(0)}) = \left.\left(\begin{array}{cc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} \end{array} \right) \right|_{X^{(0)}},

G(X(0))=(x122fx2x12fx1x22fx222f)X(0),

Δ

X

=

(

Δ

x

1

Δ

x

2

)

\Delta X = \left( \begin{aligned} \Delta x_1 \\ \Delta x_2 \end{aligned} \right)

ΔX=(Δx1Δx2)

G

(

X

(

0

)

)

G(X^{(0)})

G(X(0))

f

(

x

1

,

x

2

)

f(x_1,x_2)

f(x1,x2)

X

(

0

)

X^{(0)}

X(0)点处的黑塞矩阵(Hessian Matrix),它是由函数

f

(

X

)

f(X)

f(X)

X

(

0

)

X^{(0)}

X(0)点处的二阶偏导数所组成的方阵.

多元函数的黑塞矩阵

将二元函数的泰勒展开式推广到多元函数,则

f

(

x

1

,

x

2

,

.

.

.

,

x

n

)

f(x_1,x_2,…,x_n)

f(x1,x2,...,xn)

X

(

0

)

X^{(0)}

X(0)点处的泰勒展开式的矩阵形式为:

f

(

X

)

=

f

(

X

(

0

)

)

+

f

(

X

(

0

)

)

T

Δ

X

+

1

2

Δ

X

T

G

(

X

(

0

)

)

Δ

X

+

.

.

.

,

f(X)=f(X^{(0)}) + \nabla f(X^{(0)})^T \Delta X + \frac{1}{2} \Delta X^T G(X^{(0)}) \Delta X + …,

f(X)=f(X(0))+f(X(0))TΔX+21ΔXTG(X(0))ΔX+..., 其中:
(1).

f

(

X

(

0

)

)

=

[

f

x

1

,

f

x

2

,

.

.

.

,

f

x

n

,

]

X

(

0

)

T

\nabla f(X^{(0)})= \left.\left[ \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2},…, \frac{\partial f}{\partial x_n}, \right] \right|_{X^{(0)}} ^T

f(X(0))=[x1f,x2f,...,xnf,]X(0)T,它是

f

(

X

)

f(X)

f(X)

X

(

0

)

X^{(0)}

X(0)点处的梯度.

(2).

G

(

X

(

0

)

)

=

[

2

f

x

1

2

2

f

x

1

x

2

2

f

x

1

x

n

2

f

x

2

x

1

2

f

x

2

2

2

f

x

2

x

n

2

f

x

n

x

1

2

f

x

n

x

2

2

f

x

n

2

]

X

(

0

)

G\left(X^{(0)}\right)=\left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{array}\right]_{X^{(0)}}

G(X(0))=x122fx2x12fxnx12fx1x22fx222fxnx22fx1xn2fx2xn2fxn22fX(0), 它是

f

(

X

)

f(X)

f(X)

X

(

0

)

X^{(0)}

X(0)点处的Hessian Matrix,是由目标函数f在点

X

X

X处的二阶偏导数组成的

(

n

×

n

)

(n \times n)

(n×n)对称矩阵.

利用黑塞矩阵判定多元函数的极值

设n多元实函数

f

(

x

1

,

x

2

,

.

.

.

,

x

n

)

f(x_1,x_2,…,x_n)

f(x1,x2,...,xn)在点

M

0

(

a

1

,

a

2

,

.

.

.

,

a

n

)

M_0(a_1,a_2,…,a_n)

M0(a1,a2,...,an)的邻域内有二阶连续偏导,若有:

f

x

j

(

a

1

,

a

2

,

.

.

.

,

a

n

)

,

j

=

1

,

2

,

.

.

.

,

n

\left.\frac{\partial f}{\partial x_j}\right|_{(a_1,a_2,…,a_n)}, j=1,2,…,n

xjf(a1,a2,...,an),j=1,2,...,n 其中Hessian Matrix

A

=

[

2

f

x

1

2

2

f

x

1

x

2

2

f

x

1

x

n

2

f

x

2

x

1

2

f

x

2

2

2

f

x

2

x

n

2

f

x

n

x

1

2

f

x

n

x

2

2

f

x

n

2

]

A = \left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{array}\right]

A=x122fx2x12fxnx12fx1x22fx222fxnx22fx1xn2fx2xn2fxn22f
则有以下结论:
(1)当

A

A

A正定矩阵时,

f

f

f

M

0

(

a

1

,

a

2

,

.

.

.

,

a

n

)

M_0(a_1,a_2,…,a_n)

M0(a1,a2,...,an)处是极小值
(2)当

A

A

A负定矩阵时,

f

f

f

M

0

(

a

1

,

a

2

,

.

.

.

,

a

n

)

M_0(a_1,a_2,…,a_n)

M0(a1,a2,...,an)处是极大值
(3)当

A

A

A不定矩阵时,

M

0

(

a

1

,

a

2

,

.

.

.

,

a

n

)

M_0(a_1,a_2,…,a_n)

M0(a1,a2,...,an)不是极值点
(4)当

A

A

A半正定矩阵半负定矩阵时,

M

0

(

a

1

,

a

2

,

.

.

.

,

a

n

)

M_0(a_1,a_2,…,a_n)

M0(a1,a2,...,an)是“可疑极值点,尚需要利用其他方法来判定。

例子

求三元函数

f

(

x

,

y

,

z

)

=

x

2

+

y

2

+

z

2

+

2

x

+

4

y

6

z

f(x,y,z)=x^2+y^2+z^2+2x+4y-6z

f(x,y,z)=x2+y2+z2+2x+4y6z的极值。

解:

f

x

=

2

x

+

2

=

0

,

f

x

=

2

y

+

4

y

=

0

,

f

x

=

2

z

6

=

0

\because \frac{\partial f}{\partial x}=2x+2=0,\frac{\partial f}{\partial x}=2y+4y=0, \frac{\partial f}{\partial x}=2z-6=0

xf=2x+2=0,xf=2y+4y=0,xf=2z6=0

\therefore

函数

f

f

f的驻点是

(

1

,

2

,

3

)

(-1,-2,3)

(1,2,3)

\because

A

=

[

2

f

x

2

2

f

x

y

2

f

x

1

z

2

f

y

x

2

f

y

2

2

f

y

z

2

f

z

x

2

f

z

y

2

f

z

2

]

=

[

2

0

0

0

2

0

0

0

2

]

A=\left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x^{2}} & \frac{\partial^{2} f}{\partial x \partial y} & \frac{\partial^{2} f}{\partial x_{1} \partial z } \\ \frac{\partial^{2} f}{\partial y \partial x } & \frac{\partial^{2} f}{\partial y^{2}} & \frac{\partial^{2} f}{\partial y \partial z } \\ \frac{\partial^{2} f}{\partial z \partial x } & \frac{\partial^{2} f}{\partial z \partial y } & \frac{\partial^{2} f}{\partial z^{2}} \end{array}\right] = \left[\begin{array}{cccc} 2 & 0 & 0 \\ 0 & 2 &0 \\ 0 &0& 2 \end{array}\right]

A=x22fyx2fzx2fxy2fy22fzy2fx1z2fyz2fz22f=200020002

\therefore

A

A

A是正定矩阵,故

(

1

,

2

,

3

)

(-1,-2,3)

(1,2,3)是极小值点,且极小值为

f

(

1

,

2

,

3

)

=

14.

f(-1,-2,3) = -14.

f(1,2,3)=14.