在信号处理的公式推导中难免会遇到复数矩阵的求导问题,我自己也在 beamforming 相关的工作中两度接触复数矩阵求导,但过一段时间之后就很容易忘掉求导的一些规则,以致于想要再次尝试时不得不重新学习一遍。
所以,写下这篇文章的目的也就是记录下复数矩阵求导所需要的一些关键知识,以便忘掉之后能快速上手。
本文主要根据文献 [R1] 中给出的复数导数定义和推导方式来进行梳理,并对文章内容进行了适当地补充和调整。
文献 [R1] 中介绍的复偏导定义实际上有一个更广为人知的名称,即 Wirtinger derivatives(详见 [R2] ),但不知为何 [R1] 没有引用任何相关文献和提及这一名称。
复标量函数关于复标量/复向量的偏导数
基本定义
首先从最简单的情况——复标量的偏导数开始。
定理一
令 g : C × C ↦ C g: \mathbb{C} \times \mathbb{C} \mapsto \mathbb{C} g : C × C ↦ C 是复数 z z z 及其共轭 z ∗ z^* z ∗ 的一个函数,并且 g g g 分别关于 z z z 和 z ∗ z^* z ∗ 都是独立的解析函数。令 f : R × R ↦ C f: \mathbb{R} \times \mathbb{R} \mapsto \mathbb{C} f : R × R ↦ C 是关于实变量 x x x 和 y y y 的函数,且满足 g ( z , z ∗ ) = f ( x , y ) g(z, z^*) = f(x,y) g ( z , z ∗ ) = f ( x , y ) ,其中 z = x + i y z=x+iy z = x + i y 。那么:
偏导数 ∂ g / ∂ z \partial g / \partial z ∂ g / ∂ z (将 g g g 函数中的 z ∗ z^* z ∗ 看作常数)等价于 1 2 ( ∂ f ∂ x − i ∂ f ∂ y ) \dfrac{1}{2}\left(\dfrac{\partial f}{\partial x} - i \dfrac{\partial f}{\partial y}\right) 2 1 ( ∂ x ∂ f − i ∂ y ∂ f ) 。
类似地,∂ g / ∂ z ∗ \partial g / \partial z^* ∂ g / ∂ z ∗ 等价于 1 2 ( ∂ f ∂ x + i ∂ f ∂ y ) \dfrac{1}{2}\left(\dfrac{\partial f}{\partial x} + i \dfrac{\partial f}{\partial y}\right) 2 1 ( ∂ x ∂ f + i ∂ y ∂ f ) 。
〖展开以查看证明〗
首先考虑一个更一般的情况,令 g : C × C ↦ C g: \mathbb{C} \times \mathbb{C} \mapsto \mathbb{C} g : C × C ↦ C 是两个复变量 z 1 z_1 z 1 和 z 2 z_2 z 2 的函数,其中 z 1 z_1 z 1 和 z 2 z_2 z 2 分别都是两个实变量 x x x 和 y y y 的函数 ( R × R ↦ C ) (\mathbb{R} \times \mathbb{R} \mapsto \mathbb{C}) ( R × R ↦ C ) :
z 1 = x + k y z 2 = x − k y } ( 1 ) \quad\left.\begin{aligned}z_1 &= x+ky\\z_2 &= x-ky\end{aligned}\ \right\} \hspace{15em}(1) z 1 z 2 = x + k y = x − k y } ( 1 )
x , y ∈ R \quad x, y \in \mathbb{R} x , y ∈ R
z 1 , z 2 , k ∈ C k ≠ 0 \quad z_1, z_2, k \in \mathbb{C} \qquad\qquad k \neq 0 z 1 , z 2 , k ∈ C k = 0
其中 k k k 是任意非零的复常数。
如果 g g g 分别关于 z 1 z_1 z 1 和 z 2 z_2 z 2 都是独立的解析函数,我们可以定义两个解析函数g 1 a g_{1a} g 1 a 和 g 2 b ( C ↦ C ) g_{2b} (\mathbb{C} \mapsto \mathbb{C}) g 2 b ( C ↦ C ) 使得 g 1 a ( z ) = g ( z , a ) g_{1a}(z) = g(z, a) g 1 a ( z ) = g ( z , a ) 以及 g 2 b ( z ) = g ( b , z ) g_{2b}(z) = g(b, z) g 2 b ( z ) = g ( b , z ) 对所有 a , b ∈ C a, b \in \mathbb{C} a , b ∈ C 成立。
如此,我们可以用普通复微分的形式来定义 g g g 的偏导数,从而说明偏导数是存在的:
∂ g ∂ z 1 ( z 1 , z 2 ) = d g 1 z 2 d z 1 ( z 1 ) \quad\dfrac{\partial g}{\partial z_1}(z_1, z_2) = \dfrac{\operatorname{d}\!g_{1 z_2}}{\operatorname{d}\!z_1}(z_1) ∂ z 1 ∂ g ( z 1 , z 2 ) = d z 1 d g 1 z 2 ( z 1 )
∂ g ∂ z 2 ( z 1 , z 2 ) = d g 2 z 1 d z 2 ( z 2 ) \quad\dfrac{\partial g}{\partial z_2}(z_1, z_2) = \dfrac{\operatorname{d}\!g_{2 z_1}}{\operatorname{d}\!z_2}(z_2) ∂ z 2 ∂ g ( z 1 , z 2 ) = d z 2 d g 2 z 1 ( z 2 )
又根据条件
g ( z 1 , z 2 ) = f ( x , y ) ( 2 ) \quad g(z_1, z_2) = f(x, y) \hspace{13.5em}(2) g ( z 1 , z 2 ) = f ( x , y ) ( 2 )
分别对 x x x 和 y y y 取偏导,并利用链式法则,可以得到
∂ g ∂ z 1 ∂ z 1 ∂ x + ∂ g ∂ z 2 ∂ z 2 ∂ x = ∂ f ∂ x ∂ g ∂ z 1 ∂ z 1 ∂ y + ∂ g ∂ z 2 ∂ z 2 ∂ y = ∂ f ∂ y } ( 3 ) \quad\left.\begin{aligned}\dfrac{\partial g}{\partial z_1} \dfrac{\partial z_1}{\partial x} + \dfrac{\partial g}{\partial z_2} \dfrac{\partial z_2}{\partial x} &= \dfrac{\partial f}{\partial x}\\\\\dfrac{\partial g}{\partial z_1} \dfrac{\partial z_1}{\partial y} + \dfrac{\partial g}{\partial z_2} \dfrac{\partial z_2}{\partial y} &= \dfrac{\partial f}{\partial y}\end{aligned}\ \right\} \hspace{8.5em}(3) ∂ z 1 ∂ g ∂ x ∂ z 1 + ∂ z 2 ∂ g ∂ x ∂ z 2 ∂ z 1 ∂ g ∂ y ∂ z 1 + ∂ z 2 ∂ g ∂ y ∂ z 2 = ∂ x ∂ f = ∂ y ∂ f ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎫ ( 3 )
从公式 (1) 中我们可以得到
∂ z 1 ∂ x = ∂ z 2 ∂ x = 1 \quad\dfrac{\partial z_1}{\partial x} = \dfrac{\partial z_2}{\partial x} = 1 ∂ x ∂ z 1 = ∂ x ∂ z 2 = 1
以及
∂ z 1 ∂ y = − ∂ z 2 ∂ y = k \quad\dfrac{\partial z_1}{\partial y} = -\dfrac{\partial z_2}{\partial y} = k ∂ y ∂ z 1 = − ∂ y ∂ z 2 = k
将上述公式替换到公式 (3) 中则有
∂ g ∂ z 1 + ∂ g ∂ z 2 = ∂ f ∂ x k ( ∂ g ∂ z 1 − ∂ g ∂ z 2 ) = ∂ f ∂ y } ( 4 ) \quad\left.\begin{aligned}\dfrac{\partial g}{\partial z_1} + \dfrac{\partial g}{\partial z_2} &= \dfrac{\partial f}{\partial x}\\\\k\left(\dfrac{\partial g}{\partial z_1} - \dfrac{\partial g}{\partial z_2}\right) &= \dfrac{\partial f}{\partial y}\end{aligned}\ \right\} \hspace{10em}(4) ∂ z 1 ∂ g + ∂ z 2 ∂ g k ( ∂ z 1 ∂ g − ∂ z 2 ∂ g ) = ∂ x ∂ f = ∂ y ∂ f ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎫ ( 4 )
移项之后得到
∂ g ∂ z 1 = 1 2 ( ∂ f ∂ x + 1 k ∂ f ∂ y ) ∂ g ∂ z 2 = 1 2 ( ∂ f ∂ x − 1 k ∂ f ∂ y ) } ( 5 ) \quad\left.\begin{aligned}\dfrac{\partial g}{\partial z_1}&= \dfrac{1}{2}\left(\dfrac{\partial f}{\partial x} + \dfrac{1}{k}\dfrac{\partial f}{\partial y}\right)\\\\\dfrac{\partial g}{\partial z_2}&= \dfrac{1}{2}\left(\dfrac{\partial f}{\partial x} - \dfrac{1}{k}\dfrac{\partial f}{\partial y}\right)\end{aligned}\ \right\} \hspace{9.3em}(5) ∂ z 1 ∂ g ∂ z 2 ∂ g = 2 1 ( ∂ x ∂ f + k 1 ∂ y ∂ f ) = 2 1 ( ∂ x ∂ f − k 1 ∂ y ∂ f ) ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎫ ( 5 )
上述推导中除了要求 k k k 是一个非零复常数之外没有对它施加任何条件,因此结论是可以通用的。
现在为了证明定理一,令 k = i k=i k = i (其中 i 2 = − 1 i^2=-1 i 2 = − 1 ),z 1 = z z_1=z z 1 = z ,z 2 = z ∗ z_2=z^* z 2 = z ∗ ,那么我们可以得到以下结果:
如果 g g g 是关于 z z z 和 z ∗ z^* z ∗ 的函数,并且分别对每个变量可微分,其中
z = x + i y \quad z=x+iy z = x + i y
z ∗ = x − i y \quad z^*=x-iy z ∗ = x − i y
以及
g ( z ( x , y ) , z ∗ ( x , y ) ) = f ( x , y ) \quad g\left(z(x, y), z^*(x, y)\right) = f(x, y) g ( z ( x , y ) , z ∗ ( x , y ) ) = f ( x , y )
那么代入公式 (5) 可以发现
∂ g ∂ z = 1 2 ( ∂ f ∂ x − i ∂ f ∂ y ) ∂ g ∂ z ∗ = 1 2 ( ∂ f ∂ x + i ∂ f ∂ y ) } ( 6 ) \quad\left.\begin{aligned}\dfrac{\partial g}{\partial z}&= \dfrac{1}{2}\left(\dfrac{\partial f}{\partial x} - i\dfrac{\partial f}{\partial y}\right)\\\\\dfrac{\partial g}{\partial z^*}&= \dfrac{1}{2}\left(\dfrac{\partial f}{\partial x} + i\dfrac{\partial f}{\partial y}\right)\end{aligned}\ \right\} \hspace{9.7em}(6) ∂ z ∂ g ∂ z ∗ ∂ g = 2 1 ( ∂ x ∂ f − i ∂ y ∂ f ) = 2 1 ( ∂ x ∂ f + i ∂ y ∂ f ) ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎫ ( 6 )
从而定理一得证。
从定理一中我们可以直接得到一组非常重要的等式,即
∂ z ∗ ∂ z = 1 2 [ ∂ x ∂ x − i ∂ ( − i y ) ∂ y ] = 0 ∂ z ∂ z ∗ = 1 2 [ ∂ x ∂ x + i ∂ ( i y ) ∂ y ] = 0 } \quad\left.\begin{aligned}\dfrac{\partial z^*}{\partial z} &= \dfrac{1}{2} \left[\dfrac{\partial x}{\partial x} - i\dfrac{\partial (-iy)}{\partial y}\right] = 0\\\\\dfrac{\partial z}{\partial z^*} &= \dfrac{1}{2} \left[\dfrac{\partial x}{\partial x} + i\dfrac{\partial (iy)}{\partial y}\right] = 0\end{aligned}\ \right\} ∂ z ∂ z ∗ ∂ z ∗ ∂ z = 2 1 [ ∂ x ∂ x − i ∂ y ∂ ( − i y ) ] = 0 = 2 1 [ ∂ x ∂ x + i ∂ y ∂ ( i y ) ] = 0 ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎫
这意味着,在 Wirtinger derivatives 的定义下,复变量 z z z 和 z ∗ z^* z ∗ 可以看作两个不相关的变量,对其中一个求导时,将另一项看作常量即可。
假设有一个关于复变量 z z z 的解析函数 h h h ,我们可以将它写成
h ( z ) = g ( z , z ∗ ) = u ( x , y ) + i v ( x , y ) ( 7 ) \quad h(z) = g(z, z^*) = u(x, y) + iv(x, y) \hspace{5.6em}(7) h ( z ) = g ( z , z ∗ ) = u ( x , y ) + i v ( x , y ) ( 7 )
的形式,这里 g = h g = h g = h 没有显式地与 z ∗ z^* z ∗ 有关,并且我们将 f f f 分成它的实部 u u u 和虚部 v v v ,两者都是 x x x 和 y y y 的实值函数。
因为 g = h g = h g = h 与 z ∗ z^* z ∗ 无关,我们有 ∂ g / ∂ z ∗ = 0 \partial g / \partial z^* = 0 ∂ g / ∂ z ∗ = 0 ,而从证明中的公式 (6) 可以得到 ( ∂ / ∂ x + i ∂ / ∂ y ) ⋅ ( u + i v ) = 0 (\partial / \partial x + i \partial / \partial y) \cdot (u+iv)=0 ( ∂ / ∂ x + i ∂ / ∂ y ) ⋅ ( u + i v ) = 0 ,分别令等式左边的实部和虚部为零,得到
∂ u ∂ x = ∂ v ∂ y ∂ v ∂ x = − ∂ u ∂ y } ( 8 ) \quad\left.\begin{aligned}\dfrac{\partial u}{\partial x} &= \dfrac{\partial v}{\partial y}\\\dfrac{\partial v}{\partial x} &= -\dfrac{\partial u}{\partial y}\end{aligned}\ \right\} \hspace{15em}(8) ∂ x ∂ u ∂ x ∂ v = ∂ y ∂ v = − ∂ y ∂ u ⎭ ⎪ ⎪ ⎬ ⎪ ⎪ ⎫ ( 8 )
可以发现,定理一中其实包含了 Cauchy-Riemann 条件 ,即公式 (8)。
定理一很容易在一些简单的函数上进行验证。如果
g ( z , z ∗ ) = z 2 z ∗ = ( x + i y ) 2 ( x − i y ) = ( x 3 + x y 2 ) + i ( x 2 y + y 3 ) \quad\begin{aligned}g(z, z^*) &= z^2z^*\\&\textcolor{gray}{= (x+iy)^2(x-iy)=(x^3 + xy^2) + i(x^2y + y^3)}\end{aligned} g ( z , z ∗ ) = z 2 z ∗ = ( x + i y ) 2 ( x − i y ) = ( x 3 + x y 2 ) + i ( x 2 y + y 3 )
那么有
u ( x , y ) = x 3 + x y 2 \quad u(x, y) = x^3 + xy^2 u ( x , y ) = x 3 + x y 2
v ( x , y ) = x 2 y + y 3 \quad v(x, y) = x^2y + y^3 v ( x , y ) = x 2 y + y 3
以及
1 2 ( ∂ ∂ x − i ∂ ∂ y ) ( u + i v ) = 2 ( x 2 + y 2 ) = 2 z z ∗ = ∂ g / ∂ z \quad\dfrac{1}{2} \left(\dfrac{\partial}{\partial x} - i\dfrac{\partial}{\partial y}\right) (u+iv) = 2(x^2 + y^2) = 2zz^* \textcolor{violet}{= \partial g / \partial z} 2 1 ( ∂ x ∂ − i ∂ y ∂ ) ( u + i v ) = 2 ( x 2 + y 2 ) = 2 z z ∗ = ∂ g / ∂ z
1 2 ( ∂ ∂ x + i ∂ ∂ y ) ( u + i v ) = x 2 + 2 i x y + y 2 = z 2 = ∂ g / ∂ z ∗ \quad\dfrac{1}{2} \left(\dfrac{\partial}{\partial x} + i\dfrac{\partial}{\partial y}\right) (u+iv) = x^2 + 2ixy + y^2 = z^2 \textcolor{violet}{= \partial g / \partial z^*} 2 1 ( ∂ x ∂ + i ∂ y ∂ ) ( u + i v ) = x 2 + 2 i x y + y 2 = z 2 = ∂ g / ∂ z ∗
同理也很容易验证 ∂ z / ∂ z ∗ = ∂ z ∗ / ∂ z = 0 \partial z / \partial z^* = \partial z^* / \partial z = 0 ∂ z / ∂ z ∗ = ∂ z ∗ / ∂ z = 0 以及 ∂ z / ∂ z = ∂ z ∗ / ∂ z ∗ = 1 \partial z / \partial z = \partial z^* / \partial z^* = 1 ∂ z / ∂ z = ∂ z ∗ / ∂ z ∗ = 1 。
接下来,我们考虑一种常见的情况:
令 f : C ↦ R f: \mathbb{C} \mapsto \mathbb{R} f : C ↦ R 是复变量 z z z (包括其共轭)的实值函数。显然,f f f 同样等价于某个关于实变量 x x x 和 y y y 的实函数(其中 z = x + i y z=x+iy z = x + i y ),但在信号处理中往往将它表示成关于 z z z 和 x ∗ x^* x ∗ 的实值函数会比看作 x x x 和 y y y 的函数更加方便。
由于 f f f (必定包含 z ∗ z^* z ∗ 才能得到实值)看作是单个复变量 z z z 的函数,它不是关于 z z z 的解析函数(因为 z ↦ z ∗ z \mapsto z^* z ↦ z ∗ 不是解析的),但我们假设 f f f 满足 g ( z , z ∗ ) = f ( z ) g(z, z^*) = f(z) g ( z , z ∗ ) = f ( z ) ,其中 g g g 是两个复变量 z z z 和 z ∗ z^* z ∗ 的函数,并且分别是关于它们的独立的解析函数。
那么根据前面的结果,我们可以发现满足下述条件中任意一个的点都能作为 f f f 的驻点(stationary point):
∂ g / ∂ z = 0 \quad\partial g / \partial z = 0 ∂ g / ∂ z = 0
∂ g / ∂ z ∗ = 0 \quad\partial g / \partial z^* = 0 ∂ g / ∂ z ∗ = 0
也就是下一个定理。
定理二
令 f : C ↦ R f: \mathbb{C} \mapsto \mathbb{R} f : C ↦ R 是复变量 z z z 的一个实值函数。令 f ( z ) = g ( z , z ∗ ) f(z) = g(z, z^*) f ( z ) = g ( z , z ∗ ) ,其中 g : C × C ↦ R g: \mathbb{C} \times \mathbb{C} \mapsto \mathbb{R} g : C × C ↦ R 是关于两个复变量的函数,且满足 g ( z , a ) g(z, a) g ( z , a ) 和 g ( b , z ) g(b, z) g ( b , z ) 分别是 z z z 的解析函数(a , b ∈ C a, b \in \mathbb{C} a , b ∈ C )。
那么 f f f 有一个驻点的充分必要条件是 ∂ g / ∂ z = 0 \partial g / \partial z = 0 ∂ g / ∂ z = 0 ,其中在计算 g g g 关于 z z z 的偏导数时将 z ∗ z^* z ∗ 看作常数。
类似地,也可以得到 ∂ g / ∂ z ∗ = 0 \partial g / \partial z^* = 0 ∂ g / ∂ z ∗ = 0 也是一个充分必要条件。
〖展开以查看证明〗
令 g ( z ( x , y ) , z ∗ ( x , y ) ) = u ( x , y ) + i v ( x , y ) g\left(z(x, y), z^*(x, y)\right) = u(x, y) + iv(x, y) g ( z ( x , y ) , z ∗ ( x , y ) ) = u ( x , y ) + i v ( x , y ) ,其中 u u u 和 v v v 都是实变函数(R × R ↦ R \mathbb{R} \times \mathbb{R} \mapsto \mathbb{R} R × R ↦ R )。
如果 g g g 是实值的,那么对所有的 x , y ∈ R x, y \in \mathbb{R} x , y ∈ R 都必须满足 v ( x , y ) = 0 v(x, y) = 0 v ( x , y ) = 0 。根据公式 (6) 我们得到
∂ g ∂ z = 1 2 ( ∂ u ∂ x − i ∂ u ∂ y ) ∂ g ∂ z ∗ = 1 2 ( ∂ u ∂ x + i ∂ u ∂ y ) } ( 9 ) \quad\left.\begin{aligned}\dfrac{\partial g}{\partial z} &= \dfrac{1}{2} \left(\dfrac{\partial u}{\partial x} - i \dfrac{\partial u}{\partial y}\right)\\\\\dfrac{\partial g}{\partial z^*} &= \dfrac{1}{2} \left(\dfrac{\partial u}{\partial x} + i \dfrac{\partial u}{\partial y}\right)\end{aligned}\ \right\} \hspace{9.7em}(9) ∂ z ∂ g ∂ z ∗ ∂ g = 2 1 ( ∂ x ∂ u − i ∂ y ∂ u ) = 2 1 ( ∂ x ∂ u + i ∂ y ∂ u ) ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎫ ( 9 )
可以发现
∂ u ∂ x = ∂ u ∂ y = 0 ⇒ ∂ g ∂ z = 0 ∂ g ∂ z = 0 ⇒ ∂ u ∂ x = ∂ u ∂ y = 0 } ( 10 ) \quad\left.\begin{aligned}\dfrac{\partial u}{\partial x} &= \dfrac{\partial u}{\partial y} = 0 \Rightarrow \dfrac{\partial g}{\partial z} = 0\\\\\dfrac{\partial g}{\partial z} &= 0 \Rightarrow \dfrac{\partial u}{\partial x} = \dfrac{\partial u}{\partial y} = 0\end{aligned}\ \right\} \hspace{8.3em}(10) ∂ x ∂ u ∂ z ∂ g = ∂ y ∂ u = 0 ⇒ ∂ z ∂ g = 0 = 0 ⇒ ∂ x ∂ u = ∂ y ∂ u = 0 ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎫ ( 1 0 )
类似地,
∂ u ∂ x = ∂ u ∂ y = 0 ⇔ ∂ g ∂ z ∗ = 0 ( 11 ) \quad\dfrac{\partial u}{\partial x} = \dfrac{\partial u}{\partial y} = 0 \Leftrightarrow \dfrac{\partial g}{\partial z^*} = 0 \hspace{9.5em}(11) ∂ x ∂ u = ∂ y ∂ u = 0 ⇔ ∂ z ∗ ∂ g = 0 ( 1 1 )
并且 ∂ u / ∂ x = ∂ u / ∂ y = 0 \partial u / \partial x = \partial u / \partial y = 0 ∂ u / ∂ x = ∂ u / ∂ y = 0 是 u u u (进而 g g g )有一个驻点的条件。
从公式 (10) 和 (11) 可以看出,∂ g / ∂ z = 0 \partial g / \partial z = 0 ∂ g / ∂ z = 0 和 ∂ g / ∂ z ∗ = 0 \partial g / \partial z^* = 0 ∂ g / ∂ z ∗ = 0 中的任意一个条件都是 g g g 具有一个驻点的充分必要条件,对 f f f 也同样适用,因而定理二得证。
这个结果也很容易拓展到一个复向量的实值函数的情况。
我们定义 N N N 维列向量 z ∈ C N \boldsymbol{z} \in \mathbb{C}^N z ∈ C N 为
z = ( z 1 , z 2 , ⋯ , z N ) T ( 12 ) \quad\boldsymbol{z} = (z_1, z_2, \cdots, z_N)^\textsf{T} \hspace{11.5em}(12) z = ( z 1 , z 2 , ⋯ , z N ) T ( 1 2 )
其中 z k = x k + i y k ( x k , y k ∈ R , k ∈ { 1 , 2 , ⋯ , N } ) z_k = x_k + iy_k \ \left(x_k, y_k \in \mathbb{R}, \ k \in \{1, 2, \cdots, N\}\right) z k = x k + i y k ( x k , y k ∈ R , k ∈ { 1 , 2 , ⋯ , N } ) 以及 T \textsf{T} T 表示矩阵转置。
我们还定义关于 z \boldsymbol{z} z 的复梯度运算符为
∇ z = ( ∂ / ∂ z 1 , ∂ / ∂ z 2 , ⋯ , ∂ / ∂ z N ) T ( 13 ) \quad\mathbf{\nabla}_{\boldsymbol{z}} = (\partial / \partial z_1, \partial / \partial z_2, \cdots, \partial / \partial z_N)^\textsf{T} \hspace{5.2em}(13) ∇ z = ( ∂ / ∂ z 1 , ∂ / ∂ z 2 , ⋯ , ∂ / ∂ z N ) T ( 1 3 )
其中 ∂ / ∂ z k = ( ∂ / ∂ x k − i ∂ / ∂ y k ) / 2 \partial / \partial z_k = (\partial / \partial x_k - i \partial / \partial y_k) / 2 ∂ / ∂ z k = ( ∂ / ∂ x k − i ∂ / ∂ y k ) / 2 与定理一证明中的公式 (6) 一致。
由此引出下一个定理。
定理三
令 f : C N ↦ R f: \mathbb{C}^N \mapsto \mathbb{R} f : C N ↦ R 是一个关于复向量 z \boldsymbol{z} z 的实值标量函数。令 f ( z ) = g ( z , z ∗ ) f(\boldsymbol{z}) = g(\boldsymbol{z}, \boldsymbol{z}^*) f ( z ) = g ( z , z ∗ ) ,其中 g : C N × C N ↦ R g: \mathbb{C}^N \times \mathbb{C}^N \mapsto \mathbb{R} g : C N × C N ↦ R 是关于两个复向量变量的实值函数,并且 g g g 关于每个 z k \boldsymbol{z}_k z k 和 z k ∗ \boldsymbol{z}_k^* z k ∗ 都是解析函数。
那么 ∇ z g = 0 \mathbf{\nabla}_{\boldsymbol{z}} g = \mathbf{0} ∇ z g = 0 和 ∇ z ∗ g = 0 \mathbf{\nabla}_{\boldsymbol{z}^*} g = \mathbf{0} ∇ z ∗ g = 0 两者中的任意一个都是使得 f f f 有一个驻点的充分必要条件。
〖展开以查看证明〗
我们可以将 f f f 表示成关于 2 N 2N 2 N 个变量 x k , y k x_k, y_k x k , y k 的一个实变函数 u u u ,并且当且仅当 ∂ u / ∂ x k = ∂ u / ∂ y k = 0 \partial u / \partial x_k = \partial u / \partial y_k = 0 ∂ u / ∂ x k = ∂ u / ∂ y k = 0 对所有 k k k 都成立时, u u u (进而 f f f )有一个驻点。
根据公式 (9) 和紧随其后的定理二的证明,上面的条件等价于:当且仅当 ∂ g / ∂ z k = 0 \partial g / \partial z_k = 0 ∂ g / ∂ z k = 0 对所有 k k k 都成立,也就是当且仅当 ∇ z g = 0 \mathbf{\nabla}_{\boldsymbol{z}} g = \mathbf{0} ∇ z g = 0 。
类似地,∇ z ∗ g = 0 \mathbf{\nabla}_{\boldsymbol{z}^*} g = \mathbf{0} ∇ z ∗ g = 0 (即 ∂ g / ∂ z k ∗ = 0 \partial g / \partial z_k^* = 0 ∂ g / ∂ z k ∗ = 0 对所有 k k k 都成立)也是一个充分必要条件。因此定理三得证。
最后我们再考虑复梯度的理解或者含义问题。如果按照定理二对 g g g 进行定义,由 g g g 的一阶 Taylor 展开可以得到:
δ g = ∂ g ∂ z δ z + ∂ g ∂ z ∗ δ z ∗ = 1 2 ( ∂ u ∂ x − i ∂ u ∂ y ) ( δ x + i δ y ) + 1 2 ( ∂ u ∂ x + i ∂ u ∂ y ) ( δ x − i δ y ) = ∂ u ∂ x δ x + ∂ u ∂ y δ y = 2 Re ( ∂ g ∂ z δ z ) ( 14 ) \quad\begin{aligned}\delta g &= \dfrac{\partial g}{\partial z} \delta z + \dfrac{\partial g}{\partial z^*} \delta z^* \\&\textcolor{gray}{= \dfrac{1}{2} \left(\dfrac{\partial u}{\partial x} - i \dfrac{\partial u}{\partial y}\right) (\delta x + i\delta y) +}\\&\hspace{1.4em} \textcolor{gray}{\dfrac{1}{2} \left(\dfrac{\partial u}{\partial x} + i \dfrac{\partial u}{\partial y}\right) (\delta x - i\delta y)} \\&\textcolor{gray}{= \dfrac{\partial u}{\partial x} \delta x + \dfrac{\partial u}{\partial y} \delta y}\\&= 2 \operatorname{Re}\left(\dfrac{\partial g}{\partial z} \delta z\right)\hspace{12.35em}(14)\end{aligned} δ g = ∂ z ∂ g δ z + ∂ z ∗ ∂ g δ z ∗ = 2 1 ( ∂ x ∂ u − i ∂ y ∂ u ) ( δ x + i δ y ) + 2 1 ( ∂ x ∂ u + i ∂ y ∂ u ) ( δ x − i δ y ) = ∂ x ∂ u δ x + ∂ y ∂ u δ y = 2 R e ( ∂ z ∂ g δ z ) ( 1 4 )
如果 g g g 是如定理三中定义的关于复向量的一个实值标量函数,那么
δ g = ∑ k ( ∂ g ∂ z k δ z k + ∂ g ∂ z k ∗ δ z k ∗ ) = ( ∇ z g ) T δ z + ( ∇ z ∗ g ) T δ z ∗ = 2 Re [ ( ∇ z g ) T δ z ] = 2 Re [ ( ∇ z ∗ g ) H δ z ] ( 15 ) \quad\begin{aligned}\delta g &= \sum_k \left(\dfrac{\partial g}{\partial z_k} \delta z_k + \dfrac{\partial g}{\partial z_k^*} \delta z_k^*\right)\\&=(\mathbf{\nabla}_{\boldsymbol{z}} g)^\textsf{T} \delta \boldsymbol{z} + (\mathbf{\nabla}_{\boldsymbol{z}^*} g)^\textsf{T} \delta \boldsymbol{z}^*\\&= 2\operatorname{Re}\left[(\mathbf{\nabla}_{\boldsymbol{z}} g)^\textsf{T} \delta \boldsymbol{z}\right]\\&= 2\operatorname{Re}\left[(\mathbf{\nabla}_{\boldsymbol{z}^*} g)^\textsf{H} \delta \boldsymbol{z}\right] \hspace{10.4em}(15)\end{aligned} δ g = k ∑ ( ∂ z k ∂ g δ z k + ∂ z k ∗ ∂ g δ z k ∗ ) = ( ∇ z g ) T δ z + ( ∇ z ∗ g ) T δ z ∗ = 2 R e [ ( ∇ z g ) T δ z ] = 2 R e [ ( ∇ z ∗ g ) H δ z ] ( 1 5 )
上述推导中我们利用了 ∇ z ∗ g = ( ∇ z g ) ∗ \textcolor{maroon}{\mathbf{\nabla}_{\boldsymbol{z}^*} g = (\mathbf{\nabla}_{\boldsymbol{z}} g)^*} ∇ z ∗ g = ( ∇ z g ) ∗ (因为这些运算符在 g g g 是实值时互为复共轭),T \textsf{T} T 和 H \textsf{H} H 分别表示矩阵转置和复共轭转置。
由于两个 N N N 维向量 a \boldsymbol{a} a 和 b \boldsymbol{b} b 的积 a H b \boldsymbol{a}^\textsf{H} \boldsymbol{b} a H b 满足内积 ( a , b ) (\boldsymbol{a}, \boldsymbol{b}) ( a , b ) 的公理(axioms),我们可以应用 Schwarz 不等式:
∣ ( a , b ) ∣ ≤ ∥ a ∥ ∥ b ∥ \quad |(\boldsymbol{a}, \boldsymbol{b})| \le \|\boldsymbol{a}\| \, \|\boldsymbol{b}\| ∣ ( a , b ) ∣ ≤ ∥ a ∥ ∥ b ∥
其中 ∥ a ∥ \|\boldsymbol{a}\| ∥ a ∥ 是 a \boldsymbol{a} a 的范数或者幅度,在这里有 ∥ a ∥ 2 = ∑ k ∣ a k ∣ 2 \|\boldsymbol{a}\|^2 = \sum_k |a_k|^2 ∥ a ∥ 2 = ∑ k ∣ a k ∣ 2
等号仅当 b = ℓ a \boldsymbol{b} = \ell \boldsymbol{a} b = ℓ a 时成立,其中 ℓ \ell ℓ 是一个标量,并且可能是复数(此时有 ( a , b ) = ℓ ∥ a ∥ 2 (\boldsymbol{a}, \boldsymbol{b}) = \ell \|\boldsymbol{a}\|^2 ( a , b ) = ℓ ∥ a ∥ 2 )。
因此对于给定 ∥ a ∥ \|\boldsymbol{a}\| ∥ a ∥ 和 ∥ b ∥ \|\boldsymbol{b}\| ∥ b ∥ 取值的情况,我们可以推出 Re [ ( a , b ) ] \operatorname{Re}[(\boldsymbol{a}, \boldsymbol{b})] R e [ ( a , b ) ] 的最大值出现在 k k k 是正实数时,即当 a \boldsymbol{a} a 和 b \boldsymbol{b} b (在向量空间 C N \mathbb{C}^N C N 中)同方向时。
如果分别用 ∇ z ∗ g \mathbf{\nabla}_{\boldsymbol{z}^*} g ∇ z ∗ g 替换 a \boldsymbol{a} a 和用 δ z \delta \boldsymbol{z} δ z 替换 b \boldsymbol{b} b ,我们可以看到对于一个给定幅度的 δ z \delta \boldsymbol{z} δ z ,g g g (进而 f f f ,其中 f ( z ) = g ( z , z ∗ ) f(\bold{z}) = g(\boldsymbol{z}, \boldsymbol{z}^*) f ( z ) = g ( z , z ∗ ) )取值的最大变化出现在 δ z \delta \boldsymbol{z} δ z 与 ∇ z ∗ g \mathbf{\nabla}_{\boldsymbol{z}^*} g ∇ z ∗ g 同方向时。由此引出下一个定理。
定理四
给定定理三中定义的 f f f 和 g g g ,梯度 ∇ z ∗ g \mathbf{\nabla}_{\boldsymbol{z}^*} g ∇ z ∗ g 定义了 f f f 随着 z \boldsymbol{z} z 变化的最大速率的方向。对于一个变化的极小量 δ z \delta \boldsymbol{z} δ z ,f f f 值的变化是:
δ f = 2 Re [ ( ∇ z ∗ g ) H δ z ] ( 16 ) \quad\delta f = 2 \operatorname{Re}\left[(\mathbf{\nabla}_{\boldsymbol{z}^*} g)^\textsf{H} \delta \boldsymbol{z}\right] \hspace{10.32em}(16) δ f = 2 R e [ ( ∇ z ∗ g ) H δ z ] ( 1 6 )
常见实值标量函数的复梯度结果
公式 (13) 中定义的关于一个 N N N 维复向量 z \boldsymbol{z} z 的复梯度运算符 ∇ z \mathbf{\nabla}_\boldsymbol{z} ∇ z 会从关于 z \boldsymbol{z} z 的标量函数 f f f 中生成另一个 N N N 维复向量。通常来说,这个标量函数是复函数,当然在信号处理的实际应用中它经常是实函数,如表示成 a H z \boldsymbol{a}^\textsf{H} \boldsymbol{z} a H z 或者 z H R z \boldsymbol{z}^\textsf{H} \mathbf{R} \boldsymbol{z} z H R z 等类似功率的物理量形式,其中 R \mathbf{R} R 通常是 Hermitian 矩阵(即 R = R H \mathbf{R} = \mathbf{R}^\textsf{H} R = R H ),并且 a \boldsymbol{a} a 和 R \mathbf{R} R 是与 z \boldsymbol{z} z 无关的常量。
因此,大部分情况下我们只需要处理 a H z \boldsymbol{a}^\textsf{H}\boldsymbol{z} a H z , z H a \boldsymbol{z}^\textsf{H}\boldsymbol{a} z H a 和 z H R z \boldsymbol{z}^\textsf{H}\mathbf{R}\boldsymbol{z} z H R z 这三种标量函数。
对它们取 ∇ z \mathbf{\nabla}_{\boldsymbol{z}} ∇ z 或者 ∇ z ∗ \mathbf{\nabla}_{\boldsymbol{z}^*} ∇ z ∗ (分别对应 ∂ / ∂ z k \partial / \partial z_k ∂ / ∂ z k 和 ∂ / ∂ z k ∗ \partial / \partial z_k^* ∂ / ∂ z k ∗ ), 利用以下关系:
∂ z k / ∂ z k = 1 \partial z_k / \partial z_k = 1 ∂ z k / ∂ z k = 1 和它的共轭版本
∂ z k / ∂ z k ∗ = 0 \partial z_k / \partial z_k^* = 0 ∂ z k / ∂ z k ∗ = 0 和它的共轭版本
∂ u j / ∂ v k = 0 ( j ≠ k ) \partial u_j / \partial v_k = 0\ (j \neq k) ∂ u j / ∂ v k = 0 ( j = k ) ,其中 u u u 和 v v v 可能是 z \boldsymbol{z} z 和 z ∗ \boldsymbol{z}^* z ∗ 中的任意一个
我们可以得到
∇ = ∇ z ∗ \textcolor{maroon}{\mathbf{\nabla}=\mathbf{\nabla}_{\mathbf{z}^*}} ∇ = ∇ z ∗
∇ = ∇ z \textcolor{maroon}{\mathbf{\nabla}=\mathbf{\nabla}_{\mathbf{z}}} ∇ = ∇ z
∇ ( a H z ) = 0 \mathbf{\nabla} (\boldsymbol{a}^\textsf{H} \boldsymbol{z}) = \mathbf{0} ∇ ( a H z ) = 0
∇ ( a H z ) = a ∗ ( 17 a ) \mathbf{\nabla} (\boldsymbol{a}^\textsf{H} \boldsymbol{z}) = \boldsymbol{a}^* \hspace{12em}(17a) ∇ ( a H z ) = a ∗ ( 1 7 a )
∇ ( z H a ) = a \mathbf{\nabla} (\boldsymbol{z}^\textsf{H} \boldsymbol{a}) = \boldsymbol{a} ∇ ( z H a ) = a
∇ ( z H a ) = 0 ( 17 b ) \mathbf{\nabla} (\boldsymbol{z}^\textsf{H} \boldsymbol{a}) = \mathbf{0} \hspace{12.6em}(17b) ∇ ( z H a ) = 0 ( 1 7 b )
∇ ( z H R z ) = R z \mathbf{\nabla} (\boldsymbol{z}^\textsf{H} \mathbf{R} \boldsymbol{z}) = \mathbf{R}\boldsymbol{z} ∇ ( z H R z ) = R z
∇ ( z H R z ) = R T z ∗ = ( R H z ) ∗ ( 17 c ) \mathbf{\nabla} (\boldsymbol{z}^\textsf{H} \mathbf{R} \boldsymbol{z}) = \mathbf{R}^\textsf{T}\boldsymbol{z}^* = \left(\mathbf{R}^\textsf{H} \boldsymbol{z}\right)^* \hspace{5em}(17c) ∇ ( z H R z ) = R T z ∗ = ( R H z ) ∗ ( 1 7 c )
〖展开以查看证明〗
【公式 (17a) 证明】
令 f ( z ) = g ( z , z ∗ ) = a H z f(\boldsymbol{z}) = g(\boldsymbol{z}, \boldsymbol{z}^*) = \boldsymbol{a}^\textsf{H} \boldsymbol{z} f ( z ) = g ( z , z ∗ ) = a H z 是关于 z \boldsymbol{z} z 的实值函数,a \boldsymbol{a} a 是与 z \boldsymbol{z} z 无关的 N N N 维复向量。
我们进一步将 f f f 写成关于 2 N 2N 2 N 个复变量的实值函数 u ( z 1 , z 1 ∗ , z 2 , z 2 ∗ , ⋯ , z N , z N ∗ ) u(z_1, z_1^*, z_2, z_2^*, \cdots, z_N, z_N^*) u ( z 1 , z 1 ∗ , z 2 , z 2 ∗ , ⋯ , z N , z N ∗ ) (k ∈ { 1 , 2 , ⋯ , N } k \in \{1, 2, \cdots, N\} k ∈ { 1 , 2 , ⋯ , N } )。
那么可以得到
u ( z 1 , z 1 ∗ , z 2 , z 2 ∗ , ⋯ , z N , z N ∗ ) = ∑ k a k ∗ z k \quad u(z_1, z_1^*, z_2, z_2^*, \cdots, z_N, z_N^*) = \sum_k a_k^* z_k u ( z 1 , z 1 ∗ , z 2 , z 2 ∗ , ⋯ , z N , z N ∗ ) = ∑ k a k ∗ z k
∂ u ∂ z k ∗ = ∂ ( a k ∗ z k ) ∂ z k ∗ = 0 ∂ u ∂ z k = ∂ ( a k ∗ z k ) ∂ z k = a k ∗ } ⇒ ∇ z ∗ ( a H z ) = 0 ∇ z ( a H z ) = a ∗ } \quad\left.\begin{aligned}\dfrac{\partial u}{\partial z_k^*} &= \dfrac{\partial (a_k^* z_k)}{\partial z_k^*} = 0\\\\\dfrac{\partial u}{\partial z_k} &= \dfrac{\partial (a_k^* z_k)}{\partial z_k} = a^*_k\end{aligned}\ \right\}\ \Rightarrow\ \left.\begin{aligned}\mathbf{\nabla}_{\boldsymbol{z}^*} (\boldsymbol{a}^\textsf{H} \boldsymbol{z}) &= \mathbf{0}\\\\\mathbf{\nabla}_{\boldsymbol{z}} (\boldsymbol{a}^\textsf{H} \boldsymbol{z}) &= \boldsymbol{a}^*\end{aligned}\ \right\} ∂ z k ∗ ∂ u ∂ z k ∂ u = ∂ z k ∗ ∂ ( a k ∗ z k ) = 0 = ∂ z k ∂ ( a k ∗ z k ) = a k ∗ ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎫ ⇒ ∇ z ∗ ( a H z ) ∇ z ( a H z ) = 0 = a ∗ ⎭ ⎪ ⎬ ⎪ ⎫
【公式 (17b) 证明】
类似地,可以得到
u ( z 1 , z 1 ∗ , z 2 , z 2 ∗ , ⋯ , z N , z N ∗ ) = ∑ k a k z k ∗ \quad u(z_1, z_1^*, z_2, z_2^*, \cdots, z_N, z_N^*) = \sum_k a_k z_k^* u ( z 1 , z 1 ∗ , z 2 , z 2 ∗ , ⋯ , z N , z N ∗ ) = ∑ k a k z k ∗
∂ u ∂ z k ∗ = ∂ ( a k z k ∗ ) ∂ z k ∗ = a k ∂ u ∂ z k = ∂ ( a k z k ∗ ) ∂ z k = 0 } ⇒ ∇ z ∗ ( a H z ) = a ∇ z ( a H z ) = 0 } \quad\left.\begin{aligned}\dfrac{\partial u}{\partial z_k^*} &= \dfrac{\partial (a_k z_k^*)}{\partial z_k^*} = a_k\\\\\dfrac{\partial u}{\partial z_k} &= \dfrac{\partial (a_k z_k^*)}{\partial z_k} = 0\end{aligned}\ \right\}\ \Rightarrow\ \left.\begin{aligned}\mathbf{\nabla}_{\boldsymbol{z}^*} (\boldsymbol{a}^\textsf{H} \boldsymbol{z}) &= \boldsymbol{a}\\\\\mathbf{\nabla}_{\boldsymbol{z}} (\boldsymbol{a}^\textsf{H} \boldsymbol{z}) &= \mathbf{0}\end{aligned}\ \right\} ∂ z k ∗ ∂ u ∂ z k ∂ u = ∂ z k ∗ ∂ ( a k z k ∗ ) = a k = ∂ z k ∂ ( a k z k ∗ ) = 0 ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎫ ⇒ ∇ z ∗ ( a H z ) ∇ z ( a H z ) = a = 0 ⎭ ⎪ ⎬ ⎪ ⎫
【公式 (17c) 证明】
类似地,可以得到
R z = ( ∑ l R 1 l z l , ∑ l R 2 l z l , ⋯ , ∑ l R N l z l ) T \quad \mathbf{R} \boldsymbol{z} = \left(\sum_l R_{1l}z_l, \sum_l R_{2l}z_l, \cdots, \sum_l R_{Nl}z_l\right)^\textsf{T} R z = ( ∑ l R 1 l z l , ∑ l R 2 l z l , ⋯ , ∑ l R N l z l ) T
R H z = ( ∑ k R k 1 ∗ z k , ∑ k R k 2 ∗ z k , ⋯ , ∑ k R k N ∗ z k ) T \quad \mathbf{R}^\textsf{H} \boldsymbol{z} = \left(\sum_k R^*_{k1}z_k, \sum_k R^*_{k2}z_k, \cdots, \sum_k R^*_{kN}z_k\right)^\textsf{T} R H z = ( ∑ k R k 1 ∗ z k , ∑ k R k 2 ∗ z k , ⋯ , ∑ k R k N ∗ z k ) T
u ( z 1 , z 1 ∗ , z 2 , z 2 ∗ , ⋯ , z N , z N ∗ ) = ∑ l ∑ k z k ∗ R k l z l \quad u(z_1, z_1^*, z_2, z_2^*, \cdots, z_N, z_N^*) = \sum_l \sum_k z^*_k R_{kl} z_l u ( z 1 , z 1 ∗ , z 2 , z 2 ∗ , ⋯ , z N , z N ∗ ) = ∑ l ∑ k z k ∗ R k l z l
∂ u ∂ z k ∗ = ∂ ( ∑ l ∑ k z k ∗ R k l z l ) ∂ z k ∗ = ∑ l R k l z l ∂ u ∂ z l = ∂ ( ∑ l ∑ k z k ∗ R k l z l ) ∂ z l = ∑ k z k ∗ R k l } ⇒ ∇ z ∗ ( z H R z ) = R z ∇ z ( z H R z ) = ( R H z ) ∗ } \quad\left.\begin{aligned}\dfrac{\partial u}{\partial z_k^*} &= \dfrac{\partial (\sum_l \sum_k z^*_k R_{kl} z_l)}{\partial z_k^*} = \sum_l R_{kl} z_l\\\\\dfrac{\partial u}{\partial z_l} &= \dfrac{\partial (\sum_l \sum_k z^*_k R_{kl} z_l)}{\partial z_l} = \sum_k z^*_k R_{kl}\end{aligned}\ \right\}\ \Rightarrow\ \left.\begin{aligned}\mathbf{\nabla}_{\boldsymbol{z}^*} (\boldsymbol{z}^\textsf{H} \mathbf{R} \boldsymbol{z}) &= \mathbf{R}\boldsymbol{z}\\\\\mathbf{\nabla}_{\boldsymbol{z}} (\boldsymbol{z}^\textsf{H} \mathbf{R} \boldsymbol{z}) &= \left(\mathbf{R}^\textsf{H} \boldsymbol{z}\right)^*\end{aligned}\ \right\} ∂ z k ∗ ∂ u ∂ z l ∂ u = ∂ z k ∗ ∂ ( ∑ l ∑ k z k ∗ R k l z l ) = l ∑ R k l z l = ∂ z l ∂ ( ∑ l ∑ k z k ∗ R k l z l ) = k ∑ z k ∗ R k l ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎫ ⇒ ∇ z ∗ ( z H R z ) ∇ z ( z H R z ) = R z = ( R H z ) ∗ ⎭ ⎪ ⎪ ⎬ ⎪ ⎪ ⎫
有了上述结果,任意一个相似的标量函数都可以整理成合适的形式,从而能够直接应用上述结论。比如
将公式 (17a) 中的 a \boldsymbol{a} a 替换为 a ∗ \boldsymbol{a}^* a ∗
将公式 (17b) 中的 z \boldsymbol{z} z 与 z ∗ \boldsymbol{z}^* z ∗ 互换
即可得到
∇ = ∇ z ∗ \textcolor{maroon}{\mathbf{\nabla}=\mathbf{\nabla}_{\mathbf{z}^*}} ∇ = ∇ z ∗
∇ = ∇ z \textcolor{maroon}{\mathbf{\nabla}=\mathbf{\nabla}_{\mathbf{z}}} ∇ = ∇ z
∇ ( a T z ) = 0 \mathbf{\nabla} (\boldsymbol{a}^\textsf{T} \boldsymbol{z}) = \mathbf{0} ∇ ( a T z ) = 0
∇ ( a T z ) = a \mathbf{\nabla} (\boldsymbol{a}^\textsf{T} \boldsymbol{z}) = \boldsymbol{a} ∇ ( a T z ) = a
∇ ( z T a ) = 0 \mathbf{\nabla} (\boldsymbol{z}^\textsf{T} \boldsymbol{a}) = \mathbf{0} ∇ ( z T a ) = 0
∇ ( z T a ) = a \mathbf{\nabla} (\boldsymbol{z}^\textsf{T} \boldsymbol{a}) = \boldsymbol{a} ∇ ( z T a ) = a
观察公式 (17a)–(17c),我们能够发现 ∇ z ∗ \mathbf{\nabla}_{\boldsymbol{z}^*} ∇ z ∗ 的结果看起来要比 ∇ z \mathbf{\nabla}_{\boldsymbol{z}} ∇ z 稍微齐整一些。而根据定理三,这两者任意一个都能决定驻点的条件,因此通常采用 ∇ z ∗ \mathbf{\nabla}_{\boldsymbol{z}^*} ∇ z ∗ 就足够了。
在后面的讨论中,除非明确标注了 ∇ z \mathbf{\nabla}_{\boldsymbol{z}} ∇ z ,我们也默认采用 ∇ = ∇ z ∗ \mathbf{\nabla} = \mathbf{\nabla}_{\boldsymbol{z}^*} ∇ = ∇ z ∗ 并省略掉下标 z ∗ \boldsymbol{z}^* z ∗ 。
其实从定理四中我们也能看到,对应 f f f 最大变化速率的方向的是关于 z ∗ \boldsymbol{z}^* z ∗ 的梯度,而不是关于 z \boldsymbol{z} z 的梯度。
*与实梯度运算符的关系
有了上面定义的复梯度运算符,我们就可以将它与以前常用的实数域的梯度运算符进行比较,从而明确两者间的不同。
关于实梯度运算符的计算方式,可以参考文献 [R6] 和 [R7] 。
值得注意的是,如果我们简单地将实梯度运算符的结果中的实变量替换成复变量,它未必会等于复梯度运算符的结果。比如
复梯度运算符
实梯度运算符
∇ z ( z H z ) = z ∗ ( 18 ) \mathbf{\nabla}_{\boldsymbol{z}} (\boldsymbol{z}^\textsf{H} \boldsymbol{z}) = \boldsymbol{z}^* \hspace{7em}(18) ∇ z ( z H z ) = z ∗ ( 1 8 )
∇ x ( x T x ) = 2 x ( 19 ) \mathbf{\nabla}_{\boldsymbol{x}} (\boldsymbol{x}^\textsf{T} \boldsymbol{x}) = 2\boldsymbol{x} \hspace{7em}(19) ∇ x ( x T x ) = 2 x ( 1 9 )
∇ z ( z T z ) = 2 z \mathbf{\nabla}_{\boldsymbol{z}} (\boldsymbol{z}^\textsf{T} \boldsymbol{z}) = 2\boldsymbol{z} ∇ z ( z T z ) = 2 z
-
∇ z ( z H z ∗ ) = 0 \mathbf{\nabla}_{\boldsymbol{z}} (\boldsymbol{z}^\textsf{H} \boldsymbol{z}^*) = \mathbf{0} ∇ z ( z H z ∗ ) = 0
-
复梯度运算符
实梯度运算符
情形 (1): 关于 z \boldsymbol{z} z 的复函数:∇ z ( a T z + z T a ) = ∇ z ( 2 a T z ) = 2 a \mathbf{\nabla}_{\boldsymbol{z}}(\boldsymbol{a}^\textsf{T} \boldsymbol{z} + \boldsymbol{z}^\textsf{T} \boldsymbol{a}) = \mathbf{\nabla}_{\boldsymbol{z}}(2\boldsymbol{a}^\textsf{T} \boldsymbol{z}) = 2\boldsymbol{a} ∇ z ( a T z + z T a ) = ∇ z ( 2 a T z ) = 2 a
∇ x ( a T x + x T a ) = ∇ x ( 2 a T x ) = 2 a \mathbf{\nabla}_{\boldsymbol{x}}(\boldsymbol{a}^\textsf{T} \boldsymbol{x} + \boldsymbol{x}^\textsf{T} \boldsymbol{a}) = \mathbf{\nabla}_{\boldsymbol{x}}(2\boldsymbol{a}^\textsf{T} \boldsymbol{x}) = 2\boldsymbol{a} ∇ x ( a T x + x T a ) = ∇ x ( 2 a T x ) = 2 a
情形 (2): 关于 z \boldsymbol{z} z 和 z ∗ \boldsymbol{z}^* z ∗ 的实函数:∇ z ( a T z + z H a ) = a \mathbf{\nabla}_{\boldsymbol{z}}(\boldsymbol{a}^\textsf{T} \boldsymbol{z} + \boldsymbol{z}^\textsf{H} \boldsymbol{a}) = \boldsymbol{a} ∇ z ( a T z + z H a ) = a
-
情形 (3): 关于 z ∗ \boldsymbol{z}^* z ∗ 的复函数:∇ z ( a T z ∗ + z H a ) = ∇ z ( 2 a T z ∗ ) = 0 \mathbf{\nabla}_{\boldsymbol{z}}(\boldsymbol{a}^\textsf{T} \boldsymbol{z}^* + \boldsymbol{z}^\textsf{H} \boldsymbol{a}) = \mathbf{\nabla}_{\boldsymbol{z}}(2\boldsymbol{a}^\textsf{T} \boldsymbol{z}^*) = \mathbf{0} ∇ z ( a T z ∗ + z H a ) = ∇ z ( 2 a T z ∗ ) = 0
-
复梯度运算符
实梯度运算符
情形 (1): 关于 z \boldsymbol{z} z 的复函数:∇ z ( z T R z ) = ( z T R ) T + R z = ( R T + R ) z = 2 Re ( R ) z ( if R is Hermitian ) \begin{aligned}\mathbf{\nabla}_{\boldsymbol{z}}(\boldsymbol{z}^\textsf{T} \mathbf{R} \boldsymbol{z}) &= (\boldsymbol{z}^\textsf{T} \mathbf{R})^\textsf{T} + \mathbf{R}\boldsymbol{z}\\&=(\mathbf{R}^\textsf{T} + \mathbf{R})\boldsymbol{z}\\&= 2\operatorname{Re}(\mathbf{R})\boldsymbol{z}\ \textcolor{tan}{(\text{if} \ \mathbf{R} \ \text{is Hermitian})}\end{aligned} ∇ z ( z T R z ) = ( z T R ) T + R z = ( R T + R ) z = 2 R e ( R ) z ( if R is Hermitian )
∇ x ( x T A x ) = ( x T A ) T + A x = ( A T + A ) x = 2 A x ( if A is symmetric ) \begin{aligned}\mathbf{\nabla}_{\boldsymbol{x}}(\boldsymbol{x}^\textsf{T} \mathbf{A} \boldsymbol{x}) &= (\boldsymbol{x}^\textsf{T} \mathbf{A})^\textsf{T} + \mathbf{A}\boldsymbol{x} = (\mathbf{A}^{\textsf{T}} + \mathbf{A}) \boldsymbol{x}\\&= 2\mathbf{A}\boldsymbol{x} \ \textcolor{tan}{(\text{if } \mathbf{A} \ \text{is symmetric})}\end{aligned} ∇ x ( x T A x ) = ( x T A ) T + A x = ( A T + A ) x = 2 A x ( if A is symmetric )
情形 (2): 关于 z \boldsymbol{z} z 和 z ∗ \boldsymbol{z}^* z ∗ 的实函数:∇ z ( z H R z ) = ( z H R ) T = R T z ∗ = R ∗ z ∗ ( if R is Hermitian ) \begin{aligned}\mathbf{\nabla}_{\boldsymbol{z}}(\boldsymbol{z}^\textsf{H} \mathbf{R} \boldsymbol{z}) &= (\boldsymbol{z}^\textsf{H} \mathbf{R})^\textsf{T}\\&=\mathbf{R}^\textsf{T}\boldsymbol{z}^*\\&= \mathbf{R}^*\boldsymbol{z}^*\ \textcolor{tan}{(\text{if} \ \mathbf{R} \ \text{is Hermitian})}\end{aligned} ∇ z ( z H R z ) = ( z H R ) T = R T z ∗ = R ∗ z ∗ ( if R is Hermitian )
-
其中 x ∈ R N \boldsymbol{x} \in \mathbb{R}^N x ∈ R N ,∇ x = ( ∂ / ∂ x 1 , ∂ / ∂ x 2 , ⋯ , ∂ / ∂ x N ) T \mathbf{\nabla}_{\boldsymbol{x}} = \left(\partial / \partial x_1, \partial / \partial x_2, \cdots, \partial / \partial x_N\right)^\textsf{T} ∇ x = ( ∂ / ∂ x 1 , ∂ / ∂ x 2 , ⋯ , ∂ / ∂ x N ) T ,a ∈ R N \boldsymbol{a} \in \mathbb{R}^N a ∈ R N ,A ∈ R N × N \mathbf{A} \in \mathbb{R}^{N \times N} A ∈ R N × N ,以及 R ∈ C N × N \mathbf{R} \in \mathbb{C}^{N \times N} R ∈ C N × N 。
从上述结果以及公式 (17c) 可以发现,信号处理文献中常常误认为的
与 ∇ ( x T A x ) = 2 A x \mathbf{\nabla} (\boldsymbol{x}^\textsf{T} \mathbf{A} \boldsymbol{x}) = 2\mathbf{A}\boldsymbol{x} ∇ ( x T A x ) = 2 A x 相对应的复梯度结果是 ∇ ( z H R z ) = 2 R z \mathbf{\nabla}(\boldsymbol{z}^\textsf{H} \mathbf{R} \boldsymbol{z}) = 2\mathbf{R}\boldsymbol{z} ∇ ( z H R z ) = 2 R z
实际上等价于这里定义的 2 ∇ z ∗ 2 \mathbf{\nabla}_{\boldsymbol{z}^*} 2 ∇ z ∗ 。
当然,这里引入的系数 2 并不会导致错误的结果,因为所有的梯度都按照这个系数被放大。
复梯度运算符的基本性质
线性
如果 f f f 和 h h h 都是关于 N N N 维复向量 z \boldsymbol{z} z 的实值函数,α \alpha α 和 β \beta β 是复数常量,则对于所有 k ∈ { 1 , 2 , ⋯ , N } k\in\{1, 2, \cdots, N\} k ∈ { 1 , 2 , ⋯ , N } 下式都成立:
∂ ∂ z k ( α f + β h ) = α ∂ f ∂ z k + β ∂ h ∂ z k \quad\dfrac{\partial}{\partial z_k}(\alpha f + \beta h) = \alpha \dfrac{\partial f}{\partial z_k} + \beta \dfrac{\partial h}{\partial z_k} ∂ z k ∂ ( α f + β h ) = α ∂ z k ∂ f + β ∂ z k ∂ h
如果 f f f 和 h h h 都是关于 N N N 维复向量 z ∗ \boldsymbol{z}^* z ∗ 的实值函数,α \alpha α 和 β \beta β 是复数常量,则对于所有 k ∈ { 1 , 2 , ⋯ , N } k\in\{1, 2, \cdots, N\} k ∈ { 1 , 2 , ⋯ , N } 下式都成立:
∂ ∂ z k ∗ ( α f + β h ) = α ∂ f ∂ z k ∗ + β ∂ h ∂ z k ∗ \quad\dfrac{\partial}{\partial z_k^*}(\alpha f + \beta h) = \alpha \dfrac{\partial f}{\partial z_k^*} + \beta \dfrac{\partial h}{\partial z_k^*} ∂ z k ∗ ∂ ( α f + β h ) = α ∂ z k ∗ ∂ f + β ∂ z k ∗ ∂ h
乘法法则
如果 f f f 和 h h h 都是关于 N N N 维复向量 z \boldsymbol{z} z 的实值函数,则对于所有 k ∈ { 1 , 2 , ⋯ , N } k\in\{1, 2, \cdots, N\} k ∈ { 1 , 2 , ⋯ , N } 下式都成立:
∂ ∂ z k ( f ⋅ h ) = ∂ f ∂ z k ⋅ g + f ⋅ ∂ h ∂ z k \quad\dfrac{\partial}{\partial z_k}(f \cdot h) = \dfrac{\partial f}{\partial z_k} \cdot g + f \cdot \dfrac{\partial h}{\partial z_k} ∂ z k ∂ ( f ⋅ h ) = ∂ z k ∂ f ⋅ g + f ⋅ ∂ z k ∂ h
如果 f f f 和 h h h 都是关于 N N N 维复向量 z ∗ \boldsymbol{z}^* z ∗ 的实值函数,则对于所有 k ∈ { 1 , 2 , ⋯ , N } k\in\{1, 2, \cdots, N\} k ∈ { 1 , 2 , ⋯ , N } 下式都成立:
∂ ∂ z k ∗ ( f ⋅ h ) = ∂ f ∂ z k ∗ ⋅ g + f ⋅ ∂ h ∂ z k ∗ \quad\dfrac{\partial}{\partial z_k^*}(f \cdot h) = \dfrac{\partial f}{\partial z_k^*} \cdot g + f \cdot \dfrac{\partial h}{\partial z_k^*} ∂ z k ∗ ∂ ( f ⋅ h ) = ∂ z k ∗ ∂ f ⋅ g + f ⋅ ∂ z k ∗ ∂ h
链式法则
如果 f f f 和 h h h 都是关于 N N N 维复向量 z \boldsymbol{z} z 的实值函数,则对于所有 k ∈ { 1 , 2 , ⋯ , N } k\in\{1, 2, \cdots, N\} k ∈ { 1 , 2 , ⋯ , N } 下式都成立:
∂ ∂ z k ( f ∘ h ) = ∑ i = 1 N ( ∂ f ∂ z i ∘ h ) ∂ h i ∂ z k + ∑ i = 1 N ( ∂ f ∂ z i ∗ ∘ h ) ∂ h i ∗ ∂ z k \quad\dfrac{\partial}{\partial z_k}(f \circ h) = \sum\limits_{i=1}^N \left(\dfrac{\partial f}{\partial z_i} \circ h\right) \dfrac{\partial h_i}{\partial z_k} + \sum\limits_{i=1}^N \left(\dfrac{\partial f}{\partial z_i^*} \circ h\right) \dfrac{\partial h_i^*}{\partial z_k} ∂ z k ∂ ( f ∘ h ) = i = 1 ∑ N ( ∂ z i ∂ f ∘ h ) ∂ z k ∂ h i + i = 1 ∑ N ( ∂ z i ∗ ∂ f ∘ h ) ∂ z k ∂ h i ∗
如果 h h h 是关于 z \boldsymbol{z} z 的解析函数,那么上式中的第二项变成 0 \mathbf{0} 0 ,上述链式法则也退化成我们所熟知的普通链式法则。
如果 f f f 和 h h h 都是关于 N N N 维复向量 z ∗ \boldsymbol{z}^* z ∗ 的实值函数,则对于所有 k ∈ { 1 , 2 , ⋯ , N } k\in\{1, 2, \cdots, N\} k ∈ { 1 , 2 , ⋯ , N } 下式都成立:
∂ ∂ z k ∗ ( f ∘ h ) = ∑ i = 1 N ( ∂ f ∂ z i ∘ h ) ∂ h i ∂ z k ∗ + ∑ i = 1 N ( ∂ f ∂ z i ∗ ∘ h ) ∂ h i ∗ ∂ z k ∗ \quad\dfrac{\partial}{\partial z_k^*}(f \circ h) = \sum\limits_{i=1}^N \left(\dfrac{\partial f}{\partial z_i} \circ h\right) \dfrac{\partial h_i}{\partial z_k^*} + \sum\limits_{i=1}^N \left(\dfrac{\partial f}{\partial z_i^*} \circ h\right) \dfrac{\partial h_i^*}{\partial z_k^*} ∂ z k ∗ ∂ ( f ∘ h ) = i = 1 ∑ N ( ∂ z i ∂ f ∘ h ) ∂ z k ∗ ∂ h i + i = 1 ∑ N ( ∂ z i ∗ ∂ f ∘ h ) ∂ z k ∗ ∂ h i ∗
如果 h h h 是关于 z ∗ \boldsymbol{z}^* z ∗ 的解析函数,那么上式中的第二项变成 0 \mathbf{0} 0 ,上述链式法则也退化成我们所熟知的普通链式法则。
其中 f ∘ h f \circ h f ∘ h 表示复合函数,即 ( f ∘ h ) ( z ) = f ( h ( z ) ) (f \circ h)(\boldsymbol{z}) = f(h(\boldsymbol{z})) ( f ∘ h ) ( z ) = f ( h ( z ) ) 。
共轭
如果 f f f 是关于 N N N 维复向量 z \boldsymbol{z} z 的实值函数,则对于所有 k ∈ { 1 , 2 , ⋯ , N } k\in\{1, 2, \cdots, N\} k ∈ { 1 , 2 , ⋯ , N } 下式都成立:
( ∂ f ∂ z k ) ∗ = ∂ f ∗ ∂ z k ∗ \quad\left(\dfrac{\partial f}{\partial z_k}\right)^* = \dfrac{\partial f^*}{\partial z_k^*} ( ∂ z k ∂ f ) ∗ = ∂ z k ∗ ∂ f ∗
如果 f f f 是关于 N N N 维复向量 z ∗ \boldsymbol{z}^* z ∗ 的实值函数,则对于所有 k ∈ { 1 , 2 , ⋯ , N } k\in\{1, 2, \cdots, N\} k ∈ { 1 , 2 , ⋯ , N } 下式都成立:
( ∂ f ∂ z k ∗ ) ∗ = ∂ f ∗ ∂ z k \quad\left(\dfrac{\partial f}{\partial z_k^*}\right)^* = \dfrac{\partial f^*}{\partial z_k} ( ∂ z k ∗ ∂ f ) ∗ = ∂ z k ∂ f ∗
复梯度运算符的应用实例
应用一
自适应阵列理论中常常遇到的一个典型问题类型是
在满足以下条件的情况下使得正实数量 w H R w \boldsymbol{w}^\textsf{H} \mathbf{R} \boldsymbol{w} w H R w 最小:
w H c = a ( 20 ) \qquad\boldsymbol{w}^\textsf{H} \boldsymbol{c} = a \hspace{16.2em}(20) w H c = a ( 2 0 )
这里 w H R w \boldsymbol{w}^\textsf{H} \mathbf{R} \boldsymbol{w} w H R w 是阵列输出功率的表达形式,N N N 维复向量 w \boldsymbol{w} w 是对应 N N N 元阵列的滤波器,N × N N \times N N × N 维的 Hermitian 矩阵 R \mathbf{R} R 是阵列信号的协方差矩阵。
公式 (20) 的条件防止了求解过程中找到平凡解 w = 0 \boldsymbol{w}=\mathbf{0} w = 0 ,并且它的含义是为滤波器等于 w = c \boldsymbol{w}=\boldsymbol{c} w = c 时的阵列设置一个固定的幅度增益 a a a 。(通常 c \boldsymbol{c} c 对应于决定阵列指向的导向向量 (steering vector))
通常 a a a 取一个实数常量(如 1 或者 N N N ),但是理论上也可以是复数,这里我们考虑这种一般的情况。
求解这个问题的典型方法就是采用 Lagrange 乘子法和一个合适的损失函数。因为这里我们想要利用前面的定理三 ,我们需要定义一个实值损失函数,即
H ( w , w ∗ ) = w H R w + 2 Re [ λ ( w H c − a ) ] ( 21 ) = w H R w + λ ( w H c − a ) + λ ∗ ( c H w − a ∗ ) \quad\begin{aligned}H(\boldsymbol{w}, \boldsymbol{w}^*) &= \boldsymbol{w}^\textsf{H} \mathbf{R} \boldsymbol{w} + 2\operatorname{Re}\left[\lambda (\boldsymbol{w}^\textsf{H} \boldsymbol{c} - a)\right] \hspace{2.05em}(21)\\&= \boldsymbol{w}^\textsf{H} \mathbf{R} \boldsymbol{w} + \lambda (\boldsymbol{w}^\textsf{H}\boldsymbol{c} - a) + \lambda^* (\boldsymbol{c}^\textsf{H}\boldsymbol{w} - a^*)\end{aligned} H ( w , w ∗ ) = w H R w + 2 R e [ λ ( w H c − a ) ] ( 2 1 ) = w H R w + λ ( w H c − a ) + λ ∗ ( c H w − a ∗ )
上面公式中的系数 2 并不是必要的(只是对 λ \lambda λ 的缩放),这里加上它可以和后续化简时出现的 1/2 抵消掉。
根据定理三,∇ H = 0 \mathbf{\nabla} H = \mathbf{0} ∇ H = 0 对应 H H H 的驻点(这一节中默认 ∇ = ∇ z ∗ \mathbf{\nabla} = \mathbf{\nabla}_{\boldsymbol{z}^*} ∇ = ∇ z ∗ )。对照公式 (17) 中的规则对公式 (21) 求导,可以得到
∇ H = R w + λ c \quad\mathbf{\nabla} H = \mathbf{R}\boldsymbol{w} + \lambda \boldsymbol{c} ∇ H = R w + λ c
假设当 ∇ H = 0 \mathbf{\nabla} H = \mathbf{0} ∇ H = 0 时 w = w 0 \boldsymbol{w} = \boldsymbol{w}_0 w = w 0 ,则有
R w 0 = − λ c ( 22 ) \quad\mathbf{R}\boldsymbol{w}_0 = -\lambda \boldsymbol{c} \hspace{15.55em}(22) R w 0 = − λ c ( 2 2 )
或者(如果 R \mathbf{R} R 可逆)
w 0 = − λ R − 1 c ( 23 ) \quad\boldsymbol{w}_0 = -\lambda \mathbf{R}^{-1} \boldsymbol{c} \hspace{14.5em}(23) w 0 = − λ R − 1 c ( 2 3 )
又因为 w 0 \boldsymbol{w}_0 w 0 满足公式 (20) 给出的条件,我们有
c H w 0 = a ∗ = − λ c H R − 1 c \quad\boldsymbol{c}^\textsf{H}\boldsymbol{w}_0 = a^* = -\lambda \boldsymbol{c}^\textsf{H} \mathbf{R}^{-1} \boldsymbol{c} c H w 0 = a ∗ = − λ c H R − 1 c
或者(因为 c H R − 1 c \boldsymbol{c}^\textsf{H} \mathbf{R}^{-1} \boldsymbol{c} c H R − 1 c 是标量)
λ = − a ∗ / ( c H R − 1 c ) ( 24 ) \quad\lambda = -a^* / (\boldsymbol{c}^\textsf{H} \mathbf{R}^{-1} \boldsymbol{c}) \hspace{12.25em}(24) λ = − a ∗ / ( c H R − 1 c ) ( 2 4 )
从公式 (23) 和 (24) 中我们可以发现,上述优化问题的解是
w 0 = a ∗ R − 1 c c H R − 1 c ( 25 ) \quad\boxed{\boldsymbol{w}_0 = \dfrac{a^* \mathbf{R}^{-1} \boldsymbol{c}}{\boldsymbol{c}^\textsf{H} \mathbf{R}^{-1} \boldsymbol{c}}} \hspace{13.9em}(25) w 0 = c H R − 1 c a ∗ R − 1 c ( 2 5 )
并且 f ( w ) = w H R w f(\boldsymbol{w}) = \boldsymbol{w}^\textsf{H} \mathbf{R} \boldsymbol{w} f ( w ) = w H R w 的最小值是
f ( w 0 ) = w 0 H R w 0 = − λ w 0 H c = − λ a = ∣ a ∣ 2 / ( c H R − 1 c ) ( 26 ) \quad\begin{aligned}f(\boldsymbol{w}_0) &= \boldsymbol{w}_0^\textsf{H} \mathbf{R} \boldsymbol{w}_0 = -\lambda \boldsymbol{w}_0^\textsf{H} \boldsymbol{c} = -\lambda a\\&= |a|^2 / (\boldsymbol{c}^\textsf{H} \mathbf{R}^{-1} \boldsymbol{c})\end{aligned} \hspace{4.8em}(26) f ( w 0 ) = w 0 H R w 0 = − λ w 0 H c = − λ a = ∣ a ∣ 2 / ( c H R − 1 c ) ( 2 6 )
注意到 c H R − 1 c \boldsymbol{c}^\textsf{H} \mathbf{R}^{-1} \boldsymbol{c} c H R − 1 c 其实是实数,因为 Hermitian 矩阵的逆 R − 1 \mathbf{R}^{-1} R − 1 也是 Hermitian 矩阵。f ( w 0 ) f(\boldsymbol{w}_0) f ( w 0 ) 的取值也因为一定是实数。
应用二
第二个例子同样是最小化阵列输出功率 w H R w \boldsymbol{w}^\textsf{H} \mathbf{R} \boldsymbol{w} w H R w ,但约束条件改为
w H w = a ( 27 ) \quad \boldsymbol{w}^\textsf{H} \boldsymbol{w} = a \hspace{16.85em}(27) w H w = a ( 2 7 )
其中 a a a 是一个正实数,它通过约束滤波器的范数来确保不会出现平凡解 w = 0 \boldsymbol{w} = \mathbf{0} w = 0 。
这种情况下,Lagrange 乘子法的损失函数为
H ( w , w ∗ ) = w H R w + λ ( w H w − a ) ( 28 ) \quad H(\boldsymbol{w}, \boldsymbol{w}^*) = \boldsymbol{w}^\textsf{H} \mathbf{R} \boldsymbol{w} + \lambda(\boldsymbol{w}^\textsf{H} \boldsymbol{w} - a) \hspace{4.95em}(28) H ( w , w ∗ ) = w H R w + λ ( w H w − a ) ( 2 8 )
因为约束条件是实数以及 H H H 是实值函数,那么一定有 λ \lambda λ 也是实数。
对公式 (28) 求导,得到
∇ H = R w + λ w ( 29 ) \quad \mathbf{\nabla} H = \mathbf{R} \boldsymbol{w} + \lambda \boldsymbol{w} \hspace{13.3em}(29) ∇ H = R w + λ w ( 2 9 )
如果 w = w 0 \boldsymbol{w} = \boldsymbol{w}_0 w = w 0 是驻点(∇ H = 0 \mathbf{\nabla}H = \mathbf{0} ∇ H = 0 ),那么
R w 0 = − λ w 0 ( 30 ) \quad\boxed{\mathbf{R} \boldsymbol{w}_0 = -\lambda \boldsymbol{w}_0} \hspace{14.05em}(30) R w 0 = − λ w 0 ( 3 0 )
这表明此问题的最优滤波器 w 0 \boldsymbol{w}_0 w 0 是协方差矩阵 R \mathbf{R} R 的一个特征向量。
应用三
最小均方(LMS)滤波器的目标是最小化阵列输出和目标信号(参考信号)之间的均方误差(或者误差信号的功率)。文献 [R8] 将原始的 Widrow-Hoff LMS 算法拓展到复信号时,采用的是分别对实部和虚部计算梯度的方式。这里我们可以用类似前面的方法来更简洁地表示复数梯度。
令第 j j j 个样本点时刻的滤波器为 w j \boldsymbol{w}_j w j ,N N N 元阵列信号在时刻 j j j 为 x j \boldsymbol{x}_j x j ,那么时刻 j j j 的阵列输出可表示为
y j = x j T w j = w j T x j ( 31 ) \quad y_j = \boldsymbol{x}_j^\textsf{T} \boldsymbol{w}_j = \boldsymbol{w}_j^\textsf{T} \boldsymbol{x}_j \hspace{12.2em}(31) y j = x j T w j = w j T x j ( 3 1 )
令目标信号为 d j d_j d j ,那么误差信号可以表示为
e j = d j − y j = d j − x j T w j ( 32 ) \quad e_j = d_j - y_j = d_j - \boldsymbol{x}_j^\textsf{T} \boldsymbol{w}_j \hspace{9.4em}(32) e j = d j − y j = d j − x j T w j ( 3 2 )
文献 [R8] 中称滤波器向量应该优化的方向是与误差功率 e j e j ∗ e_j e_j^* e j e j ∗ 最大瞬时增长速率相反的方向(这就是最速下降法)。因此下一时刻的滤波器向量 w j + 1 \boldsymbol{w}_{j+1} w j + 1 应计算如下:
w j + 1 = w j − μ ∇ ( e j e j ∗ ) ( 33 ) \quad\boldsymbol{w}_{j+1} = \boldsymbol{w}_{j} -\mu \mathbf{\nabla}(e_j e_j^*) \hspace{10.45em}(33) w j + 1 = w j − μ ∇ ( e j e j ∗ ) ( 3 3 )
其中 μ \mu μ 是一个正实数。
根据链式法则,我们有
∇ ( e j e j ∗ ) = e j ∇ e j ∗ + ( ∇ e j ) e j ∗ ( 34 ) \quad\mathbf{\nabla} (e_j e_j^*) = e_j \mathbf{\nabla} e_j^* + (\mathbf{\nabla} e_j) e_j^* \hspace{8em}(34) ∇ ( e j e j ∗ ) = e j ∇ e j ∗ + ( ∇ e j ) e j ∗ ( 3 4 )
结合公式 (32) 和 公式 (17) ,我们可以得到
∇ e j ∗ = ∇ ( d j ∗ − w j H x j ∗ ) = − x j ∗ \quad\mathbf{\nabla} e_j^* = \mathbf{\nabla} \left(d_j^* - \boldsymbol{w}_j^\textsf{H} \boldsymbol{x}_j^*\right) = -\boldsymbol{x}_j^* ∇ e j ∗ = ∇ ( d j ∗ − w j H x j ∗ ) = − x j ∗
以及
∇ e j = 0 \quad\mathbf{\nabla} e_j = \mathbf{0} ∇ e j = 0
再结合公式 (33) 和 (34),我们得到如下关系
w j + 1 = w j + μ e j x j ∗ ( 35 ) \quad\boxed{\boldsymbol{w}_{j+1} = \boldsymbol{w}_j + \mu e_j \boldsymbol{x}_j^*} \hspace{11.45em}(35) w j + 1 = w j + μ e j x j ∗ ( 3 5 )
这一结果与文献 [R8] 中的公式 (16) 一致(除了少了一个对 μ \mu μ 产生缩放的系数 2)。
复标量函数关于复矩阵的偏导数
基本定义
进一步地,我们将上述定义拓展到关于复矩阵的标量函数。
我们定义 N × Q N \times Q N × Q 维矩阵变量 Z ∈ C N × Q \mathbf{Z} \in \mathbb{C}^{N \times Q} Z ∈ C N × Q 为
Z = [ z 1 , 1 z 1 , 2 ⋯ z 1 , Q z 2 , 1 z 2 , 2 ⋯ z 2 , Q ⋮ ⋮ ⋱ ⋮ z N , 1 z N , 2 ⋯ z N , Q ] ( 36 ) \quad\mathbf{Z} = \begin{bmatrix}z_{1,1} & z_{1,2} & \cdots & z_{1,Q}\\z_{2,1} & z_{2,2} & \cdots & z_{2,Q}\\\vdots & \vdots & \ddots & \vdots\\z_{N,1} & z_{N,2} & \cdots & z_{N,Q}\end{bmatrix} \hspace{7.25em}(36) Z = ⎣ ⎢ ⎢ ⎢ ⎡ z 1 , 1 z 2 , 1 ⋮ z N , 1 z 1 , 2 z 2 , 2 ⋮ z N , 2 ⋯ ⋯ ⋱ ⋯ z 1 , Q z 2 , Q ⋮ z N , Q ⎦ ⎥ ⎥ ⎥ ⎤ ( 3 6 )
其中 z k , l = x k , l + i y k , l ( x k , l , y k , l ∈ R , k ∈ { 1 , 2 , ⋯ , N } , l ∈ { 1 , 2 , ⋯ , Q } ) z_{k,l} = x_{k,l} + iy_{k,l} \ \left(x_{k,l}, y_{k,l} \in \mathbb{R}, \ k \in \{1, 2, \cdots, N\}, \ l \in \{1, 2, \cdots, Q\}\right) z k , l = x k , l + i y k , l ( x k , l , y k , l ∈ R , k ∈ { 1 , 2 , ⋯ , N } , l ∈ { 1 , 2 , ⋯ , Q } ) 。Z = X + i Y \mathbf{Z} = \mathbf{X} + i \mathbf{Y} Z = X + i Y ,X , Y ∈ R N × Q \mathbf{X}, \mathbf{Y} \in \mathbb{R}^{N \times Q} X , Y ∈ R N × Q 。
我们还定义关于矩阵 Z \mathbf{Z} Z 的复梯度运算符为
∇ Z = [ ∂ ∂ z 1 , 1 ∂ ∂ z 1 , 2 ⋯ ∂ ∂ z 1 , Q ∂ ∂ z 2 , 1 ∂ ∂ z 2 , 2 ⋯ ∂ ∂ z 2 , Q ⋮ ⋮ ⋱ ⋮ ∂ ∂ z N , 1 ∂ ∂ z N , 2 ⋯ ∂ ∂ z N , Q ] ( 37 ) \quad\mathbf{\nabla}_{\mathbf{Z}} = \begin{bmatrix}\frac{\partial}{\partial z_{1,1}} & \frac{\partial}{\partial z_{1,2}} & \cdots & \frac{\partial}{\partial z_{1,Q}}\\[5pt]\frac{\partial}{\partial z_{2,1}} & \frac{\partial}{\partial z_{2,2}} & \cdots & \frac{\partial}{\partial z_{2,Q}}\\[5pt]\vdots & \vdots & \ddots & \vdots\\[5pt]\frac{\partial}{\partial z_{N,1}} & \frac{\partial}{\partial z_{N,2}} & \cdots & \frac{\partial}{\partial z_{N,Q}}\end{bmatrix} \hspace{5.63em}(37) ∇ Z = ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ ∂ z 1 , 1 ∂ ∂ z 2 , 1 ∂ ⋮ ∂ z N , 1 ∂ ∂ z 1 , 2 ∂ ∂ z 2 , 2 ∂ ⋮ ∂ z N , 2 ∂ ⋯ ⋯ ⋱ ⋯ ∂ z 1 , Q ∂ ∂ z 2 , Q ∂ ⋮ ∂ z N , Q ∂ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤ ( 3 7 )
其中 ∂ / ∂ z k , l = ( ∂ / ∂ x k , l − i ∂ / ∂ y k , l ) / 2 \partial / \partial z_{k,l} = (\partial / \partial x_{k,l} - i \partial / \partial y_{k,l}) / 2 ∂ / ∂ z k , l = ( ∂ / ∂ x k , l − i ∂ / ∂ y k , l ) / 2 与定理一证明中的公式 (6) 一致。
此外,我们也可以按照复微分的定义写出相应的复微分关系式:
d z k , l = d x k , l + i d y k , l \quad \operatorname{d}\!z_{k,l} = \operatorname{d}\!x_{k,l} + i\operatorname{d}\!y_{k,l} d z k , l = d x k , l + i d y k , l
d z k , l ∗ = d x k , l − i d y k , l \quad \operatorname{d}\!z^*_{k,l} = \operatorname{d}\!x_{k,l} - i\operatorname{d}\!y_{k,l} d z k , l ∗ = d x k , l − i d y k , l
d z k , l ∗ = ( d z k , l ) ∗ \quad \operatorname{d}\!z^*_{k,l} = (\operatorname{d}\!z_{k,l})^* d z k , l ∗ = ( d z k , l ) ∗
d f = ∑ k = 1 N ∑ l = 1 Q ∂ f ∂ x k , l d x k , l + ∑ k = 1 N ∑ l = 1 Q ∂ f ∂ y k , l d y k , l = ∑ k = 1 N ∑ l = 1 Q ∂ f ∂ x k , l d z k , l + d z k , l ∗ 2 + ∑ k = 1 N ∑ l = 1 Q ∂ f ∂ y k , l d z k , l − d z k , l ∗ 2 i = ∑ k = 1 N ∑ l = 1 Q 1 2 ( ∂ f ∂ x k , l − i ∂ f ∂ y k , l ) d z k , l + ∑ k = 1 N ∑ l = 1 Q 1 2 ( ∂ f ∂ x k , l + i ∂ f ∂ y k , l ) d z k , l ∗ \quad\begin{aligned}\operatorname{d}\!f &= \sum_{k=1}^N\sum_{l=1}^Q\dfrac{\partial f}{\partial x_{k,l}} \operatorname{d}\!x_{k,l} + \sum_{k=1}^N\sum_{l=1}^Q\dfrac{\partial f}{\partial y_{k,l}} \operatorname{d}\!y_{k,l} \\[15pt]&= \sum_{k=1}^N\sum_{l=1}^Q\dfrac{\partial f}{\partial x_{k,l}} \dfrac{\operatorname{d}\!z_{k,l} + \operatorname{d}\!z^*_{k,l}}{2} + \sum_{k=1}^N\sum_{l=1}^Q\dfrac{\partial f}{\partial y_{k,l}} \dfrac{\operatorname{d}\!z_{k,l} - \operatorname{d}\!z^*_{k,l}}{2i} \\[15pt]&= \sum_{k=1}^N\sum_{l=1}^Q\dfrac{1}{2}\left(\dfrac{\partial f}{\partial x_{k,l}} - i \dfrac{\partial f}{\partial y_{k,l}}\right)\operatorname{d}\!z_{k,l} + \sum_{k=1}^N\sum_{l=1}^Q\dfrac{1}{2}\left(\dfrac{\partial f}{\partial x_{k,l}} + i \dfrac{\partial f}{\partial y_{k,l}}\right)\operatorname{d}\!z^*_{k,l}\end{aligned} d f = k = 1 ∑ N l = 1 ∑ Q ∂ x k , l ∂ f d x k , l + k = 1 ∑ N l = 1 ∑ Q ∂ y k , l ∂ f d y k , l = k = 1 ∑ N l = 1 ∑ Q ∂ x k , l ∂ f 2 d z k , l + d z k , l ∗ + k = 1 ∑ N l = 1 ∑ Q ∂ y k , l ∂ f 2 i d z k , l − d z k , l ∗ = k = 1 ∑ N l = 1 ∑ Q 2 1 ( ∂ x k , l ∂ f − i ∂ y k , l ∂ f ) d z k , l + k = 1 ∑ N l = 1 ∑ Q 2 1 ( ∂ x k , l ∂ f + i ∂ y k , l ∂ f ) d z k , l ∗
对比 d f = ∑ k = 1 N ∑ l = 1 Q ∂ f ∂ z k , l d z k , l + ∑ k = 1 N ∑ l = 1 Q ∂ f ∂ z k , l ∗ d z k , l ∗ \operatorname{d}\!f = \sum\limits_{k=1}^N\sum\limits_{l=1}^Q\dfrac{\partial f}{\partial z_{k,l}} \operatorname{d}\!z_{k,l} + \sum\limits_{k=1}^N\sum\limits_{l=1}^Q
\dfrac{\partial f}{\partial z^*_{k,l}} \operatorname{d}\!z^*_{k,l} d f = k = 1 ∑ N l = 1 ∑ Q ∂ z k , l ∂ f d z k , l + k = 1 ∑ N l = 1 ∑ Q ∂ z k , l ∗ ∂ f d z k , l ∗ 与上式,可以得到
∂ f ∂ z k , l = 1 2 ( ∂ f ∂ x k , l − i ∂ f ∂ y k , l ) ∂ f ∂ z k , l ∗ = 1 2 ( ∂ f ∂ x k , l + i ∂ f ∂ y k , l ) } \quad\left.\begin{aligned}\dfrac{\partial f}{\partial z_{k,l}} &= \dfrac{1}{2}\left(\dfrac{\partial f}{\partial x_{k,l}} - i \dfrac{\partial f}{\partial y_{k,l}}\right)\\\\\dfrac{\partial f}{\partial z^*_{k,l}}&=\dfrac{1}{2}\left(\dfrac{\partial f}{\partial x_{k,l}} + i \dfrac{\partial f}{\partial y_{k,l}}\right)\end{aligned}\ \right\} ∂ z k , l ∂ f ∂ z k , l ∗ ∂ f = 2 1 ( ∂ x k , l ∂ f − i ∂ y k , l ∂ f ) = 2 1 ( ∂ x k , l ∂ f + i ∂ y k , l ∂ f ) ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎫
即定理一 的结论也适用于矩阵变量 Z \mathbf{Z} Z 和 Z ∗ \mathbf{Z}^* Z ∗ 。
将上述关系式写成矩阵形式,则有
d Z = d Re { Z } + i d Im { Z } = d X + i d Y \quad\operatorname{d}\!\mathbf{Z} = \operatorname{d}\operatorname{Re}\{\mathbf{Z}\} + i\operatorname{d}\operatorname{Im}\{\mathbf{Z}\} = \operatorname{d}\!\mathbf{X} + i\operatorname{d}\!\mathbf{Y} d Z = d R e { Z } + i d I m { Z } = d X + i d Y
d Z ∗ = d Re { Z } − i d Im { Z } = d X − i d Y \quad\operatorname{d}\!\mathbf{Z}^* = \operatorname{d}\operatorname{Re}\{\mathbf{Z}\} - i\operatorname{d}\operatorname{Im}\{\mathbf{Z}\} = \operatorname{d}\!\mathbf{X} - i\operatorname{d}\!\mathbf{Y} d Z ∗ = d R e { Z } − i d I m { Z } = d X − i d Y
d Re { Z } = d X = 1 2 ( d Z + i d Z ∗ ) \quad\operatorname{d}\operatorname{Re}\{\mathbf{Z}\} = \operatorname{d}\!\mathbf{X} = \frac{1}{2}(\operatorname{d}\!\mathbf{Z} + i\operatorname{d}\!\mathbf{Z}^*) d R e { Z } = d X = 2 1 ( d Z + i d Z ∗ )
d Im { Z } = d Y = 1 2 ( d Z − i d Z ∗ ) \quad\operatorname{d}\operatorname{Im}\{\mathbf{Z}\} = \operatorname{d}\!\mathbf{Y} = \frac{1}{2}(\operatorname{d}\!\mathbf{Z} - i\operatorname{d}\!\mathbf{Z}^*) d I m { Z } = d Y = 2 1 ( d Z − i d Z ∗ )
复微分的基础性质
根据复矩阵微分的定义,容易证明以下结论:
函数 f f f
微分 d f \operatorname{d}\!f d f
A \mathbf{A} A
0 \mathbf{0} 0
a Z a\mathbf{Z} a Z
a d Z a \operatorname{d}\!\mathbf{Z} a d Z
A Z B \mathbf{A}\mathbf{Z}\mathbf{B} A Z B
A ( d Z ) B \mathbf{A}(\operatorname{d}\!\mathbf{Z})\mathbf{B} A ( d Z ) B
Z 0 + Z 1 \mathbf{Z}_0 + \mathbf{Z}_1 Z 0 + Z 1
d Z 0 + d Z 1 \operatorname{d}\!\mathbf{Z}_0 + \operatorname{d}\!\mathbf{Z}_1 d Z 0 + d Z 1
Tr { Z } \operatorname{Tr}\{\mathbf{Z}\} T r { Z }
Tr { d Z } \operatorname{Tr}\{\operatorname{d}\!\mathbf{Z}\} T r { d Z }
Z 0 Z 1 \mathbf{Z}_0\mathbf{Z}_1 Z 0 Z 1
( d Z 0 ) Z 1 + Z 0 ( d Z 1 ) (\operatorname{d}\!\mathbf{Z}_0)\mathbf{Z}_1 + \mathbf{Z}_0(\operatorname{d}\!\mathbf{Z}_1) ( d Z 0 ) Z 1 + Z 0 ( d Z 1 )
Z 0 ⊗ Z 1 \mathbf{Z}_0 \otimes \mathbf{Z}_1 Z 0 ⊗ Z 1
( d Z 0 ) ⊗ Z 1 + Z 0 ⊗ ( d Z 1 ) (\operatorname{d}\!\mathbf{Z}_0) \otimes \mathbf{Z}_1 + \mathbf{Z}_0 \otimes (\operatorname{d}\!\mathbf{Z}_1) ( d Z 0 ) ⊗ Z 1 + Z 0 ⊗ ( d Z 1 )
Z 0 ⊙ Z 1 \mathbf{Z}_0 \odot \mathbf{Z}_1 Z 0 ⊙ Z 1
( d Z 0 ) ⊙ Z 1 + Z 0 ⊙ ( d Z 1 ) (\operatorname{d}\!\mathbf{Z}_0) \odot \mathbf{Z}_1 + \mathbf{Z}_0 \odot (\operatorname{d}\!\mathbf{Z}_1) ( d Z 0 ) ⊙ Z 1 + Z 0 ⊙ ( d Z 1 )
逐元素函数 σ ( Z ) \sigma(\mathbf{Z}) σ ( Z )
σ ′ ( Z ) ⊙ d Z \sigma^\prime (\mathbf{Z}) \odot \operatorname{d}\!\mathbf{Z} σ ′ ( Z ) ⊙ d Z
Z − 1 \mathbf{Z}^{-1} Z − 1
− Z − 1 ( d Z ) Z − 1 -\mathbf{Z}^{-1} (\operatorname{d}\!\mathbf{Z}) \mathbf{Z}^{-1} − Z − 1 ( d Z ) Z − 1
det ( Z ) \operatorname{det}(\mathbf{Z}) d e t ( Z )
det ( Z ) Tr { Z − 1 d Z } \operatorname{det}(\mathbf{Z}) \operatorname{Tr}\{\mathbf{Z}^{-1} \operatorname{d}\!\mathbf{Z}\}\qquad d e t ( Z ) T r { Z − 1 d Z } (如果 Z \mathbf{Z} Z 可逆)
ln ( det ( Z ) ) \ln(\operatorname{det}(\mathbf{Z})) ln ( d e t ( Z ) )
Tr { Z − 1 d Z } \operatorname{Tr}\{\mathbf{Z}^{-1} \operatorname{d}\!\mathbf{Z}\}\qquad T r { Z − 1 d Z } (如果 Z \mathbf{Z} Z 可逆)
reshape ( Z ) \operatorname{reshape}(\mathbf{Z}) r e s h a p e ( Z )
reshape ( d Z ) \operatorname{reshape}(\operatorname{d}\!\mathbf{Z}) r e s h a p e ( d Z )
Z ∗ \mathbf{Z}^* Z ∗
( d Z ) ∗ (\operatorname{d}\!\mathbf{Z})^* ( d Z ) ∗
Z H \mathbf{Z}^\textsf{H} Z H
( d Z ) H (\operatorname{d}\!\mathbf{Z})^\textsf{H} ( d Z ) H
Z # \mathbf{Z}^\# Z #
det ( Z ) [ Tr { Z − 1 ( d Z ) } Z − 1 − Z − 1 ( d Z ) Z − 1 ] \operatorname{det}(\mathbf{Z}) \left[\operatorname{Tr}\{\mathbf{Z}^{-1} (\operatorname{d}\!\mathbf{Z})\}\mathbf{Z}^{-1} - \mathbf{Z}^{-1}(\operatorname{d}\!\mathbf{Z}) \mathbf{Z}^{-1}\right] d e t ( Z ) [ T r { Z − 1 ( d Z ) } Z − 1 − Z − 1 ( d Z ) Z − 1 ]
Z + \mathbf{Z}^+ Z +
− Z + ( d Z ) Z + + Z + ( Z + ) H ( d Z H ) ( I N × N − Z Z H ) + ( I Q × Q − Z + Z ) ( d Z H ) ( Z + ) H Z + \begin{aligned}&-\mathbf{Z}^+ (\operatorname{d}\!\mathbf{Z}) \mathbf{Z}^+ + \mathbf{Z}^+ (\mathbf{Z}^+)^\textsf{H} (\operatorname{d}\!\mathbf{Z}^\textsf{H}) (\mathbf{I}_{N \times N} - \mathbf{Z}\mathbf{Z}^\textsf{H}) \\[5pt]&+ (\mathbf{I}_{Q \times Q} - \mathbf{Z}^+\mathbf{Z}) (\operatorname{d}\!\mathbf{Z}^\textsf{H}) (\mathbf{Z}^+)^\textsf{H} \mathbf{Z}^+\end{aligned} − Z + ( d Z ) Z + + Z + ( Z + ) H ( d Z H ) ( I N × N − Z Z H ) + ( I Q × Q − Z + Z ) ( d Z H ) ( Z + ) H Z +
e z = exp ( z ) e^z = \exp(z)\qquad e z = exp ( z ) (主分支)
e z d z e^z \operatorname{d}\!z e z d z
ln ( z ) \ln(z)\qquad ln ( z ) (主分支)
1 z d z \dfrac{1}{z} \operatorname{d}\!z z 1 d z
一、常量的微分是零
假设 A ∈ C M × P \mathbf{A} \in \mathbb{C}^{M \times P} A ∈ C M × P 是与 Z ∈ C N × Q \mathbf{Z} \in \mathbb{C}^{N \times Q} Z ∈ C N × Q 和 Z ∗ \mathbf{Z}^* Z ∗ 无关的矩阵常量,则有:
d A = 0 M × P \quad\operatorname{d}\!\mathbf{A} = \mathbf{0}_{M \times P} d A = 0 M × P
二、线性
假设 A ∈ C M × N , B ∈ C Q × P \mathbf{A} \in \mathbb{C}^{M \times N}, \mathbf{B} \in \mathbb{C}^{Q \times P} A ∈ C M × N , B ∈ C Q × P 均和 Z , Z ∗ \mathbf{Z}, \mathbf{Z}^* Z , Z ∗ 无关,则有:
d ( A Z B ) = A ( d Z ) B \quad\operatorname{d}\!(\mathbf{A}\mathbf{Z}\mathbf{B}) = \mathbf{A}(\operatorname{d}\!\mathbf{Z})\mathbf{B} d ( A Z B ) = A ( d Z ) B
假设 Z i ∈ C N × Q \mathbf{Z}_i \in \mathbb{C}^{N \times Q} Z i ∈ C N × Q 是不同的复矩阵变量(i = { 0 , 1 } i=\{0,1\} i = { 0 , 1 } ),则有:
d ( Z 0 + Z 1 ) = d Z 0 + d Z 1 \quad\operatorname{d}\!(\mathbf{Z}_0 + \mathbf{Z}_1) = \operatorname{d}\!\mathbf{Z}_0 + \operatorname{d}\!\mathbf{Z}_1 d ( Z 0 + Z 1 ) = d Z 0 + d Z 1
三、迹和微分的交换律
假设 Z ∈ C N × N \mathbf{Z} \in \mathbb{C}^{N \times N} Z ∈ C N × N ,即 Z \mathbf{Z} Z 是方阵,则有:
d ( Tr { Z } ) = Tr { d Z } \quad\operatorname{d}\!(\operatorname{Tr}\{\mathbf{Z}\}) = \operatorname{Tr}\{\operatorname{d}\!\mathbf{Z}\} d ( T r { Z } ) = T r { d Z }
四、乘法的微分
假设 Z 0 ∈ C M × N \mathbf{Z_0} \in \mathbb{C}^{M \times N} Z 0 ∈ C M × N 和 Z 1 ∈ C N × P \mathbf{Z_1} \in \mathbb{C}^{N \times P} Z 1 ∈ C N × P 是两个矩阵变量,则有
d ( Z 0 Z 1 ) = ( d Z 0 ) Z 1 + Z 0 ( d Z 1 ) \quad\operatorname{d}\!(\mathbf{Z}_0\mathbf{Z}_1) = (\operatorname{d}\!\mathbf{Z}_0)\mathbf{Z}_1 + \mathbf{Z}_0(\operatorname{d}\!\mathbf{Z}_1) d ( Z 0 Z 1 ) = ( d Z 0 ) Z 1 + Z 0 ( d Z 1 )
五、外积的微分
假设 Z 0 ∈ C N × Q \mathbf{Z_0} \in \mathbb{C}^{N \times Q} Z 0 ∈ C N × Q 和 Z 1 ∈ C M × P \mathbf{Z_1} \in \mathbb{C}^{M \times P} Z 1 ∈ C M × P 是两个矩阵变量,则有
d ( Z 0 ⊗ Z 1 ) = ( d Z 0 ) ⊗ Z 1 + Z 0 ⊗ ( d Z 1 ) \quad\operatorname{d}\!(\mathbf{Z}_0 \otimes \mathbf{Z}_1) = (\operatorname{d}\!\mathbf{Z}_0) \otimes \mathbf{Z}_1 + \mathbf{Z}_0 \otimes (\operatorname{d}\!\mathbf{Z}_1) d ( Z 0 ⊗ Z 1 ) = ( d Z 0 ) ⊗ Z 1 + Z 0 ⊗ ( d Z 1 )
其中 ⊗ \otimes ⊗ 表示外积(Kronecker 积 ),Z 0 ⊗ Z 1 ∈ C N M × Q P \mathbf{Z}_0 \otimes \mathbf{Z}_1 \in \mathbb{C}^{NM \times QP} Z 0 ⊗ Z 1 ∈ C N M × Q P 。
六、逐元素乘积的微分
假设 Z i ∈ C N × Q \mathbf{Z}_i \in \mathbb{C}^{N \times Q} Z i ∈ C N × Q 是不同的复矩阵变量(i = { 0 , 1 } i=\{0,1\} i = { 0 , 1 } ),则有:
d ( Z 0 ⊙ Z 1 ) = d Z 0 ⊙ Z 1 + Z 0 ⊙ d Z 1 \quad\operatorname{d}\!(\mathbf{Z}_0 \odot \mathbf{Z}_1) = \operatorname{d}\!\mathbf{Z}_0 \odot \mathbf{Z}_1 + \mathbf{Z}_0 \odot \operatorname{d}\!\mathbf{Z}_1 d ( Z 0 ⊙ Z 1 ) = d Z 0 ⊙ Z 1 + Z 0 ⊙ d Z 1
其中 ⊙ \odot ⊙ 表示逐元素乘积(Hadamard 积 )。
七、逐元素函数的微分
假设 σ \sigma σ 是逐元素函数,即 σ ( Z ) = [ σ ( z k , l ) ] \sigma(\mathbf{Z}) = [\sigma(z_{k,l})] σ ( Z ) = [ σ ( z k , l ) ] 是逐元素标量函数运算,则有:
d ( σ ( Z ) ) = σ ′ ( Z ) d Z \quad\operatorname{d}\!(\sigma(\mathbf{Z})) = \sigma^\prime(\mathbf{Z})\operatorname{d}\!\mathbf{Z} d ( σ ( Z ) ) = σ ′ ( Z ) d Z
其中 σ ′ \sigma^\prime σ ′ 表示函数 σ \sigma σ 的导数。
八、逆矩阵的微分
假设 Z ∈ C N × N \mathbf{Z} \in \mathbb{C}^{N \times N} Z ∈ C N × N 可逆,则有:
d Z − 1 = − Z − 1 ( d Z ) Z − 1 \quad\operatorname{d}\!\mathbf{Z}^{-1} = -\mathbf{Z}^{-1} (\operatorname{d}\!\mathbf{Z}) \mathbf{Z}^{-1} d Z − 1 = − Z − 1 ( d Z ) Z − 1
〖展开以查看证明〗
对下列公式求导:
Z Z − 1 = I N × N \quad\mathbf{Z} \mathbf{Z}^{-1} = \mathbf{I}_{N \times N} Z Z − 1 = I N × N
可以得到:
( d Z ) Z − 1 + Z d Z − 1 = d I N × N = 0 N × N \quad(\operatorname{d}\!\mathbf{Z}) \mathbf{Z}^{-1} + \mathbf{Z}\operatorname{d}\!\mathbf{Z}^{-1} = \operatorname{d}\!\mathbf{I}_{N \times N} = \mathbf{0}_{N \times N} ( d Z ) Z − 1 + Z d Z − 1 = d I N × N = 0 N × N
从而可以推出上述等式。
九、reshape 的微分
令 reshape \operatorname{reshape} r e s h a p e 是任意一个针对矩阵的线性 reshaping 操作,则有:
d reshape ( Z ) = reshape ( d Z ) \quad\operatorname{d}\operatorname{reshape}(\mathbf{Z}) = \operatorname{reshape}(\operatorname{d}\!\mathbf{Z}) d r e s h a p e ( Z ) = r e s h a p e ( d Z )
其中 reshape \operatorname{reshape} r e s h a p e 具有线性性质:
reshape ( A + B ) = reshape ( A ) + reshape ( B ) \quad\operatorname{reshape}(\mathbf{A} + \mathbf{B}) = \operatorname{reshape}(\mathbf{A}) + \operatorname{reshape}(\mathbf{B}) r e s h a p e ( A + B ) = r e s h a p e ( A ) + r e s h a p e ( B )
十、共轭/共轭转置的微分
d Z ∗ = ( d Z ) ∗ \quad\operatorname{d}\!\mathbf{Z}^* = (\operatorname{d}\!\mathbf{Z})^* d Z ∗ = ( d Z ) ∗
d Z H = ( d Z ) H \quad\operatorname{d}\!\mathbf{Z}^\textsf{H} = (\operatorname{d}\!\mathbf{Z})^\textsf{H} d Z H = ( d Z ) H
十一、行列式的微分
假设 Z ∈ C N × N \mathbf{Z} \in \mathbb{C}^{N \times N} Z ∈ C N × N ,则有:
d det ( Z ) = Tr { C T ( Z ) d Z } \quad\operatorname{d} \operatorname{det}(\mathbf{Z}) = \operatorname{Tr}\{\boldsymbol{C}^\textsf{T}(\mathbf{Z})\ \operatorname{d}\!\mathbf{Z}\} d d e t ( Z ) = T r { C T ( Z ) d Z }
其中矩阵 C ( Z ) ∈ C N × N \boldsymbol{C}(\mathbf{Z}) \in \mathbb{C}^{N \times N} C ( Z ) ∈ C N × N 包含 Z \mathbf{Z} Z 所有代数余子式 c k , l ( Z ) c_{k,l}(\mathbf{Z}) c k , l ( Z ) ,即 ( C ( Z ) ) k , l = c k , l ( Z ) (\boldsymbol{C}(\mathbf{Z}))_{k,l} = c_{k,l}(\mathbf{Z}) ( C ( Z ) ) k , l = c k , l ( Z ) 。
c k , l ( Z ) = ( − 1 ) k + l m k , l ( Z ) c_{k,l}(\mathbf{Z}) = (-1)^{k+l} m_{k,l}(\mathbf{Z}) c k , l ( Z ) = ( − 1 ) k + l m k , l ( Z ) ,其中余子式 m k , l ( Z ) m_{k,l}(\mathbf{Z}) m k , l ( Z ) 表示从矩阵 Z \mathbf{Z} Z 中删去第 k k k 行和第 l l l 列之后得到的 ( N − 1 ) × ( N − 1 ) (N-1) \times (N-1) ( N − 1 ) × ( N − 1 ) 维子矩阵的行列式。
代数余子式与行列式的关系如下:
det ( Z ) = ∑ k = 1 N c k , l ( Z ) z k , l \quad\operatorname{det}(\mathbf{Z}) = \sum\limits_{k=1}^N c_{k,l}(\mathbf{Z}) z_{k,l} d e t ( Z ) = k = 1 ∑ N c k , l ( Z ) z k , l
进一步地,如果 Z \mathbf{Z} Z 是可逆矩阵,则有:
d det ( Z ) = det ( Z ) Tr { Z − 1 d Z } \quad\operatorname{d} \operatorname{det}(\mathbf{Z}) = \operatorname{det}(\mathbf{Z}) \operatorname{Tr}\{\mathbf{Z}^{-1} \operatorname{d}\!\mathbf{Z}\} d d e t ( Z ) = d e t ( Z ) T r { Z − 1 d Z }
如果矩阵 Z \mathbf{Z} Z 可逆,则有以下关系成立:
C T ( Z ) = Z # = det ( Z ) Z − 1 \quad\boldsymbol{C}^\textsf{T}(\mathbf{Z}) = \mathbf{Z}^\# = \operatorname{det}(\mathbf{Z}) \mathbf{Z}^{-1} C T ( Z ) = Z # = d e t ( Z ) Z − 1
其中 Z # \mathbf{Z}^{\#} Z # 是矩阵 Z \mathbf{Z} Z 的伴随矩阵 ,满足 Z Z # = Z # Z = det ( Z ) I N × N \mathbf{Z}\mathbf{Z}^\# = \mathbf{Z}^\#\mathbf{Z} = \operatorname{det}(\mathbf{Z})\ \mathbf{I}_{N \times N} Z Z # = Z # Z = d e t ( Z ) I N × N 。
由上述关系很容易推出:
d ln ( det ( Z ) ) = Tr { Z − 1 d Z } \quad\operatorname{d}\ln(\operatorname{det}(\mathbf{Z})) = \operatorname{Tr}\{\mathbf{Z}^{-1} \operatorname{d}\!\mathbf{Z}\} d ln ( d e t ( Z ) ) = T r { Z − 1 d Z }
其中对于 ln \ln ln 函数我们只采用了它的主分支 ,并且有 d ln ( z ) = 1 z d z \operatorname{d}\ln(z) = \dfrac{1}{z} \operatorname{d}\!z d ln ( z ) = z 1 d z 。
十二、Moore-Penrose 广义逆矩阵的微分
假设 Z + ∈ C Q × N \mathbf{Z}^+ \in \mathbb{C}^{Q \times N} Z + ∈ C Q × N 是矩阵 Z ∈ C N × Q \mathbf{Z} \in \mathbb{C}^{N \times Q} Z ∈ C N × Q 的 Moore-Penrose 广义逆矩阵 ,则有:
d Z + = − Z + ( d Z ) Z + + Z + ( Z + ) H ( d Z H ) ( I N × N − Z Z H ) + ( I Q × Q − Z + Z ) ( d Z H ) ( Z + ) H Z + \quad\begin{aligned}\operatorname{d}\!\mathbf{Z}^+ =& -\mathbf{Z}^+ (\operatorname{d}\!\mathbf{Z}) \mathbf{Z}^+ + \mathbf{Z}^+ (\mathbf{Z}^+)^\textsf{H} (\operatorname{d}\!\mathbf{Z}^\textsf{H}) (\mathbf{I}_{N \times N} - \mathbf{Z}\mathbf{Z}^\textsf{H}) \\[5pt]&+ (\mathbf{I}_{Q \times Q} - \mathbf{Z}^+\mathbf{Z}) (\operatorname{d}\!\mathbf{Z}^\textsf{H}) (\mathbf{Z}^+)^\textsf{H} \mathbf{Z}^+\end{aligned} d Z + = − Z + ( d Z ) Z + + Z + ( Z + ) H ( d Z H ) ( I N × N − Z Z H ) + ( I Q × Q − Z + Z ) ( d Z H ) ( Z + ) H Z +
Moore-Penrose 广义逆矩阵 Z + \mathbf{Z}^+ Z + 满足以下性质:
\quad 任何矩阵 Z \mathbf{Z} Z 都存在唯一的 Moore-Penrose 广义逆矩阵 Z + \mathbf{Z}^+ Z + 。
Z Z + Z = Z \quad\mathbf{Z}\mathbf{Z}^+\mathbf{Z} = \mathbf{Z} Z Z + Z = Z
Z + Z Z + = Z + \quad\mathbf{Z}^+\mathbf{Z}\mathbf{Z}^+ = \mathbf{Z}^+ Z + Z Z + = Z +
Z Z + \quad\mathbf{Z}\mathbf{Z}^+ Z Z + 和 Z + Z \mathbf{Z}^+\mathbf{Z} Z + Z 都是 Hermitian 矩阵。
\quad 如果 Z \mathbf{Z} Z 的所有列向量线性独立,则 Z + = ( Z H Z ) − 1 Z H \mathbf{Z}^+ = (\mathbf{Z}^\textsf{H}\mathbf{Z})^{-1} \mathbf{Z}^\textsf{H} Z + = ( Z H Z ) − 1 Z H ;
\quad 如果 Z \mathbf{Z} Z 的所有行向量线性独立,则 Z + = Z H ( Z Z H ) − 1 \mathbf{Z}^+ = \mathbf{Z}^\textsf{H} (\mathbf{Z}\mathbf{Z}^\textsf{H})^{-1} Z + = Z H ( Z Z H ) − 1 。
\quad 如果 Z \mathbf{Z} Z 可逆,则 Z + = Z − 1 \mathbf{Z}^+ = \mathbf{Z}^{-1} Z + = Z − 1 。
梯度与微分的关系
[R6] 介绍了标量函数关于实向量 x ∈ R N \boldsymbol{x} \in \mathbb{R}^N x ∈ R N 的梯度与微分的关系:
d f = ∑ k = 1 N ∂ f ∂ x k d x k = ( ∂ f ∂ x ) T d x \quad\operatorname{d}\!f = \sum\limits_{k=1}^N \dfrac{\partial f}{\partial x_k} \operatorname{d}\!x_k = \left(\dfrac{\partial f}{\partial \boldsymbol{x}}\right)^\textsf{T} \operatorname{d}\!\boldsymbol{x} d f = k = 1 ∑ N ∂ x k ∂ f d x k = ( ∂ x ∂ f ) T d x
对关于复向量 z ∈ C N \boldsymbol{z} \in \mathbb{C}^N z ∈ C N 和 z ∗ \boldsymbol{z}^* z ∗ 的标量函数 f f f ,我们同样可以得到类似的关系:
d f = ∑ k = 1 N ∂ f ∂ z k d z k + ∑ k = 1 N ∂ f ∂ z k ∗ d z k ∗ = ( ∂ f ∂ z ) T d z + ( ∂ f ∂ z ∗ ) T d z ∗ \quad\begin{aligned}\operatorname{d}\!f &= \sum\limits_{k=1}^N \dfrac{\partial f}{\partial z_k} \operatorname{d}\!z_k + \sum\limits_{k=1}^N \dfrac{\partial f}{\partial z^*_k} \operatorname{d}\!z^*_k \\[15pt]&= \left(\dfrac{\partial f}{\partial \boldsymbol{z}}\right)^\textsf{T} \operatorname{d}\!\boldsymbol{z} + \left(\dfrac{\partial f}{\partial \boldsymbol{z}^*}\right)^\textsf{T} \operatorname{d}\!\boldsymbol{z}^*\end{aligned} d f = k = 1 ∑ N ∂ z k ∂ f d z k + k = 1 ∑ N ∂ z k ∗ ∂ f d z k ∗ = ( ∂ z ∂ f ) T d z + ( ∂ z ∗ ∂ f ) T d z ∗
更进一步地,我们也可以将矩阵导数与微分建立联系:
d f = ∑ k = 1 N ∑ l = 1 Q ∂ f ∂ z k , l d z k , l + ∑ k = 1 N ∑ l = 1 Q ∂ f ∂ z k , l ∗ d z k , l ∗ = Tr { ( ∂ f ∂ Z ) T d Z } + Tr { ( ∂ f ∂ Z ∗ ) T d Z ∗ } \quad\begin{aligned}\operatorname{d}\!f &= \sum\limits_{k=1}^N\sum\limits_{l=1}^Q\dfrac{\partial f}{\partial z_{k,l}} \operatorname{d}\!z_{k,l} + \sum\limits_{k=1}^N\sum\limits_{l=1}^Q
\dfrac{\partial f}{\partial z^*_{k,l}} \operatorname{d}\!z^*_{k,l}\\[15pt]&= \operatorname{Tr}\left\{\left(\dfrac{\partial f}{\partial \mathbf{Z}}\right)^\textsf{T} \operatorname{d}\!\mathbf{Z}\right\} + \operatorname{Tr}\left\{\left(\dfrac{\partial f}{\partial \mathbf{Z}^*}\right)^\textsf{T} \operatorname{d}\!\mathbf{Z}^*\right\}\end{aligned} d f = k = 1 ∑ N l = 1 ∑ Q ∂ z k , l ∂ f d z k , l + k = 1 ∑ N l = 1 ∑ Q ∂ z k , l ∗ ∂ f d z k , l ∗ = T r { ( ∂ Z ∂ f ) T d Z } + T r { ( ∂ Z ∗ ∂ f ) T d Z ∗ }
再结合一些迹技巧(trace trick):
\quad 标量的迹等于标量本身:Tr { a } = a \operatorname{Tr}\{a\} = a T r { a } = a
\quad 转置与迹的关系:Tr { Z T } = Tr ( Z ) \operatorname{Tr}\{\mathbf{Z}^\textsf{T}\} = \operatorname{Tr}(\mathbf{Z}) T r { Z T } = T r ( Z ) ,Tr { Z H } = Tr ( Z ∗ ) \operatorname{Tr}\{\mathbf{Z}^\textsf{H}\} = \operatorname{Tr}(\mathbf{Z}^*) T r { Z H } = T r ( Z ∗ )
\quad 矩阵加法与迹的关系:Tr { Z 0 ± Z 1 } = Tr { Z 0 } ± Tr { Z 1 } \operatorname{Tr}\{\mathbf{Z}_0 \pm \mathbf{Z}_1\} = \operatorname{Tr}\{\mathbf{Z}_0\} \pm \operatorname{Tr}\{\mathbf{Z}_1\} T r { Z 0 ± Z 1 } = T r { Z 0 } ± T r { Z 1 }
\quad 矩阵乘法与迹的关系:Tr { Z 0 Z 1 } = Tr { Z 1 Z 0 } \operatorname{Tr}\{\mathbf{Z}_0 \mathbf{Z}_1\} = \operatorname{Tr}\{\mathbf{Z}_1 \mathbf{Z}_0\} T r { Z 0 Z 1 } = T r { Z 1 Z 0 }
\quad 矩阵乘法、逐元素乘法与迹的关系:Tr { Z 0 T ( Z 1 ⊙ Z 2 ) } = Tr { ( Z 0 ⊙ Z 1 ) T Z 2 } = ∑ k , l z 0 , k , l z 1 , k , l z 2 , k , l \operatorname{Tr}\{\mathbf{Z}_0^\textsf{T} (\mathbf{Z}_1 \odot \mathbf{Z}_2)\} = \operatorname{Tr}\{(\mathbf{Z}_0 \odot \mathbf{Z}_1)^\textsf{T} \mathbf{Z}_2\} = \sum\limits_{k,l}z_{0,k,l}z_{1,k,l}z_{2,k,l} T r { Z 0 T ( Z 1 ⊙ Z 2 ) } = T r { ( Z 0 ⊙ Z 1 ) T Z 2 } = k , l ∑ z 0 , k , l z 1 , k , l z 2 , k , l
就很容易推导出常见函数关于矩阵 Z \mathbf{Z} Z 或向量 z \boldsymbol{z} z 的偏导数了。
梯度与微分关系的应用实例
实例一
假设 a ∈ C 1 × N \boldsymbol{a} \in \mathbb{C}^{1 \times N} a ∈ C 1 × N 和 b ∈ C Q × 1 \boldsymbol{b} \in \mathbb{C}^{Q \times 1} b ∈ C Q × 1 是与变量 Z ∈ C N × Q \mathbf{Z} \in \mathbb{C}^{N \times Q} Z ∈ C N × Q 和 Z ∗ \mathbf{Z}^* Z ∗ 无关的向量常量,对于标量函数 f ( Z ) = a T Z b f(\mathbf{Z}) = \boldsymbol{a}^\textsf{T}\mathbf{Z}\boldsymbol{b} f ( Z ) = a T Z b ,求证 ∂ f Z = a b T \dfrac{\partial f}{\mathbf{Z}} = \boldsymbol{a}\boldsymbol{b}^\textsf{T} Z ∂ f = a b T 。
解: 先利用矩阵乘法与微分的关系以及迹技巧,可以得到:
d f = ( d a T ) Z b + a T ( d Z ) b + a T Z ( d b ) = a T ( d Z ) b = Tr { a T ( d Z ) b } = Tr { b a T ( d Z ) } = Tr { ( a b T ) T d Z } \quad\begin{aligned}\operatorname{d}\!f &= \cancel{(\operatorname{d}
\!\boldsymbol{a}^\textsf{T})\mathbf{Z}\boldsymbol{b}} + \boldsymbol{a}^\textsf{T}(\operatorname{d}\!\mathbf{Z})\boldsymbol{b} + \cancel{\boldsymbol{a}^\textsf{T}\mathbf{Z}(\operatorname{d}\!\boldsymbol{b})} \\[5pt]&= \boldsymbol{a}^\textsf{T}(\operatorname{d}\!\mathbf{Z})\boldsymbol{b} \\[5pt]&= \operatorname{Tr}\{\boldsymbol{a}^\textsf{T}(\operatorname{d}\!\mathbf{Z})\boldsymbol{b}\} = \operatorname{Tr}\{\boldsymbol{b}\boldsymbol{a}^\textsf{T}(\operatorname{d}\!\mathbf{Z})\} = \operatorname{Tr}\left\{\left(\boldsymbol{a}\boldsymbol{b}^\textsf{T}\right)^\textsf{T} \operatorname{d}\!\mathbf{Z}\right\}\end{aligned} d f = ( d a T ) Z b + a T ( d Z ) b + a T Z ( d b ) = a T ( d Z ) b = T r { a T ( d Z ) b } = T r { b a T ( d Z ) } = T r { ( a b T ) T d Z }
又根据梯度与微分的关系,我们有 d f = Tr { ( ∂ f ∂ Z ) T d Z } + Tr { ( ∂ f ∂ Z ∗ ) T d Z ∗ } \operatorname{d}\!f = \operatorname{Tr}\left\{\left(\dfrac{\partial f}{\partial \mathbf{Z}}\right)^\textsf{T} \operatorname{d}\!\mathbf{Z}\right\} + \operatorname{Tr}\left\{\left(\dfrac{\partial f}{\partial \mathbf{Z}^*}\right)^\textsf{T} \operatorname{d}\!\mathbf{Z}^*\right\} d f = T r { ( ∂ Z ∂ f ) T d Z } + T r { ( ∂ Z ∗ ∂ f ) T d Z ∗ }
比较上面两个公式的对应项,即可得到:
∂ f ∂ Z = a b T ∂ f ∂ Z ∗ = 0 } \quad\left.\begin{aligned}\dfrac{\partial f}{\partial \mathbf{Z}} &= \boldsymbol{a}\boldsymbol{b}^\textsf{T}\\\\\dfrac{\partial f}{\partial \mathbf{Z}^*} &= \mathbf{0}\end{aligned}\ \right\} ∂ Z ∂ f ∂ Z ∗ ∂ f = a b T = 0 ⎭ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎫
实例二
假设 Z ∈ C N × Q \mathbf{Z} \in \mathbb{C}^{N \times Q} Z ∈ C N × Q 和 y ∈ C N × 1 \boldsymbol{y} \in \mathbb{C}^{N \times 1} y ∈ C N × 1 是与向量 w ∈ C Q × 1 \boldsymbol{w} \in \mathbb{C}^{Q \times 1} w ∈ C Q × 1 和 w ∗ \boldsymbol{w}^* w ∗ 无关的常量,对于关于 w \boldsymbol{w} w 的标量函数 f ( w ) = ∥ Z w − y ∥ 2 f(\boldsymbol{w}) = \|\mathbf{Z}\boldsymbol{w} - \boldsymbol{y}\|^2 f ( w ) = ∥ Z w − y ∥ 2 ,求证函数 f f f 的零点是 w = ( Z H Z ) − 1 Z H y \boldsymbol{w} = (\mathbf{Z}^\textsf{H}\mathbf{Z})^{-1} \mathbf{Z}^\textsf{H} \boldsymbol{y} w = ( Z H Z ) − 1 Z H y 。
解: 先将函数改写成向量内积的形式并化简:f ( w ) = ( Z w − y ) H ( Z w − y ) f(\boldsymbol{w}) = (\mathbf{Z}\boldsymbol{w} - \boldsymbol{y})^\textsf{H} (\mathbf{Z}\boldsymbol{w} - \boldsymbol{y}) f ( w ) = ( Z w − y ) H ( Z w − y )
然后利用矩阵/向量乘法与微分的关系以及迹技巧,可以得到:
d f = ( Z d w ) H ( Z w − y ) + ( Z w − y ) H ( Z d w ) = ( d w ) H Z H ( Z w − y ) + ( w H Z H − y H ) Z d w = Tr { ( d w ) H Z H ( Z w − y ) } + Tr { ( w H Z H − y H ) Z d w } = Tr { ( Z w − y ) T Z ∗ ( d w ∗ ) } + Tr { ( Z T ( Z ∗ w ∗ − y ∗ ) ) T d w } = Tr { ( Z H ( Z w − y ) ) T d w ∗ } + Tr { ( Z T ( Z ∗ w ∗ − y ∗ ) ) T d w } \quad\begin{aligned}\operatorname{d}\!f &= (\mathbf{Z}\operatorname{d}\!\boldsymbol{w})^\textsf{H} (\mathbf{Z}\boldsymbol{w} - \boldsymbol{y}) + (\mathbf{Z}\boldsymbol{w} - \boldsymbol{y})^\textsf{H} (\mathbf{Z}\operatorname{d}\!\boldsymbol{w}) \\[5pt]&= (\operatorname{d}\!\boldsymbol{w})^\textsf{H}\mathbf{Z}^\textsf{H}(\mathbf{Z}\boldsymbol{w} - \boldsymbol{y}) + (\boldsymbol{w}^\textsf{H}\mathbf{Z}^H - \boldsymbol{y}^\textsf{H}) \mathbf{Z} \operatorname{d}\!\boldsymbol{w} \\[5pt]&= \operatorname{Tr}\left\{(\operatorname{d}\!\boldsymbol{w})^\textsf{H}\mathbf{Z}^\textsf{H}(\mathbf{Z}\boldsymbol{w} - \boldsymbol{y})\right\} + \operatorname{Tr}\left\{(\boldsymbol{w}^\textsf{H}\mathbf{Z}^H - \boldsymbol{y}^\textsf{H}) \mathbf{Z} \operatorname{d}\!\boldsymbol{w}\right\} \\[5pt]&= \operatorname{Tr}\left\{(\mathbf{Z}\boldsymbol{w} - \boldsymbol{y})^\textsf{T} \mathbf{Z}^*(\operatorname{d}\!\boldsymbol{w}^*)\right\} + \operatorname{Tr}\left\{\left(\mathbf{Z}^\textsf{T} (\mathbf{Z}^*\boldsymbol{w}^* - \boldsymbol{y}^*)\right)^\textsf{T} \operatorname{d}\!\boldsymbol{w}\right\} \\[5pt]&= \operatorname{Tr}\left\{\left(\mathbf{Z}^\textsf{H} (\mathbf{Z}\boldsymbol{w} - \boldsymbol{y})\right)^\textsf{T} \operatorname{d}\!\boldsymbol{w}^*\right\} + \operatorname{Tr}\left\{\left(\mathbf{Z}^\textsf{T} (\mathbf{Z}^*\boldsymbol{w}^* - \boldsymbol{y}^*)\right)^\textsf{T} \operatorname{d}\!\boldsymbol{w}\right\}\end{aligned} d f = ( Z d w ) H ( Z w − y ) + ( Z w − y ) H ( Z d w ) = ( d w ) H Z H ( Z w − y ) + ( w H Z H − y H ) Z d w = T r { ( d w ) H Z H ( Z w − y ) } + T r { ( w H Z H − y H ) Z d w } = T r { ( Z w − y ) T Z ∗ ( d w ∗ ) } + T r { ( Z T ( Z ∗ w ∗ − y ∗ ) ) T d w } = T r { ( Z H ( Z w − y ) ) T d w ∗ } + T r { ( Z T ( Z ∗ w ∗ − y ∗ ) ) T d w }
又根据梯度与微分的关系,我们有 d f = Tr { ( ∂ f ∂ w ) T d w } + Tr { ( ∂ f ∂ w ∗ ) T d w ∗ } \operatorname{d}\!f = \operatorname{Tr}\left\{\left(\dfrac{\partial f}{\partial \boldsymbol{w}}\right)^\textsf{T} \operatorname{d}\!\boldsymbol{w}\right\} + \operatorname{Tr}\left\{\left(\dfrac{\partial f}{\partial \boldsymbol{w}^*}\right)^\textsf{T} \operatorname{d}\!\boldsymbol{w}^*\right\} d f = T r { ( ∂ w ∂ f ) T d w } + T r { ( ∂ w ∗ ∂ f ) T d w ∗ }
比较上面两个公式的对应项,即可得到:
∂ f ∂ w = Z T ( Z ∗ w ∗ − y ∗ ) ∂ f ∂ w ∗ = Z H ( Z w − y ) } \quad\left.\begin{aligned}\dfrac{\partial f}{\partial \boldsymbol{w}} &= \mathbf{Z}^\textsf{T} (\mathbf{Z}^*\boldsymbol{w}^* - \boldsymbol{y}^*)\\\\\dfrac{\partial f}{\partial \boldsymbol{w}^*} &= \mathbf{Z}^\textsf{H} (\mathbf{Z} \boldsymbol{w} - \boldsymbol{y})\end{aligned}\ \right\} ∂ w ∂ f ∂ w ∗ ∂ f = Z T ( Z ∗ w ∗ − y ∗ ) = Z H ( Z w − y ) ⎭ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎫
令 ∂ f ∂ w \dfrac{\partial f}{\partial \boldsymbol{w}} ∂ w ∂ f 和 ∂ f ∂ w ∗ \dfrac{\partial f}{\partial \boldsymbol{w}^*} ∂ w ∗ ∂ f 中的任意一个等于零,即可得到 w \boldsymbol{w} w 的最小二乘估计为:
w = ( Z H Z ) − 1 Z H y \quad\boldsymbol{w} = (\mathbf{Z}^\textsf{H}\mathbf{Z})^{-1} \mathbf{Z}^\textsf{H} \boldsymbol{y} w = ( Z H Z ) − 1 Z H y
参考文献
[R1] D. Brandwood, “A complex gradient operator and its application in adaptive array theory,” IEE Proceedings H (Microwaves, Optics and Antennas) , vol. 130, pp. 11–16, 1983.
[R2] “Wirtinger derivatives,” Wikipedia. https://en.wikipedia.org/wiki/Wirtinger_derivatives
[R3] A. Hjørungnes, “Complex-valued matrix derivatives: With applications in signal processing and communications,” Cambridge University Press , 2011.
[R4] Kaare Brandt Petersen and Michael Syskind Pedersen, “The matrix cookbook,” Technical University of Denmark , 2012, Nov.
[R5] “Matrix calculus,” Wikipedia. https://en.wikipedia.org/wiki/Matrix_calculus
[R6] 长躯鬼侠, “矩阵求导术(上),” 知乎 , 2020. https://zhuanlan.zhihu.com/p/24709748
[R7] 长躯鬼侠, “矩阵求导术(下),” 知乎 , 2020. https://zhuanlan.zhihu.com/p/24863977
[R8] B. Widrow, J. McCool, and M. Ball, “The complex LMS algorithm,” Proceedings of the IEEE, vol. 63, no. 4, pp. 719–720, 1975.