本章的组织逻辑如下:首先建立映射的分类体系,理清 Lipschitz 连续、压缩、非扩张、稳定非扩张、余强制五类映射之间的蕴含关系(第 2.1 节);然后发展不动点理论,给出不同映射条件下的收敛性结论,重点展示稳定非扩张映射的四步标准证明范式(第 2.2 节);接着引入均值算子,说明如何将非扩张算子”升级”为具有更好收敛性的算子,并证明 Krasnosel’skii-Mann 定理(第 2.3 节);随后证明投影算子满足稳定非扩张性,从而为第四章投影梯度法的收敛性分析提供理论基础(第 2.4 节);再引入次微分与法锥,将梯度概念推广到不可微的凸函数,并给出次微分的运算规则和与方向导数的关系,为第五章的邻近算法做准备(第 2.5 节);最后揭示优化问题如何通过零包含问题转化为不动点迭代,建立预解算子与邻近算子之间的联系,将本章的抽象理论与后续章节的具体算法联系起来(第 2.6 节)。
2.1 映射的基本类型与层次结构# 优化算法的收敛性分析中反复出现一类核心问题:算子 T T T 将两个点 x , y x, y x , y 分别映射为 T x , T y Tx, Ty T x , T y 后,像之间的距离 ∥ T x − T y ∥ \|Tx - Ty\| ∥ T x − T y ∥ 与原像之间的距离 ∥ x − y ∥ \|x - y\| ∥ x − y ∥ 是什么关系?根据对这一关系施加的约束强弱,我们定义以下五种映射。
2.1.1 五种映射的定义# 设映射 T : R n → R n T: \mathbb{R}^n \to \mathbb{R}^n T : R n → R n 。
Lipschitz 连续映射。 若存在常数 L > 0 L > 0 L > 0 使得
∥ T x − T y ∥ ≤ L ∥ x − y ∥ , ∀ x , y ∈ R n \|Tx - Ty\| \leq L\|x - y\|, \quad \forall\, x, y \in \mathbb{R}^n ∥ T x − T y ∥ ≤ L ∥ x − y ∥ , ∀ x , y ∈ R n 则称 T T T 是 Lipschitz 连续的,L L L 称为 Lipschitz 常数。映射的输出变化被输入变化的 L L L 倍所控制。
Lipschitz 连续性在优化中最常见的体现是梯度算子。设 f f f 是可微凸函数且 ∇ 2 f ( x ) ⪯ L I \nabla^2 f(x) \preceq LI ∇ 2 f ( x ) ⪯ L I (Hessian 矩阵的特征值不超过 L L L ),则梯度映射 T = ∇ f T = \nabla f T = ∇ f 满足 ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ≤ L ∥ x − y ∥ \|\nabla f(x) - \nabla f(y)\| \leq L\|x - y\| ∥∇ f ( x ) − ∇ f ( y ) ∥ ≤ L ∥ x − y ∥ ,即 ∇ f \nabla f ∇ f 是 Lipschitz 常数为 L L L 的 Lipschitz 连续映射。这个条件在第三章梯度下降法的步长选取中起到关键作用:步长 η \eta η 必须满足 η ≤ 1 / L \eta \leq 1/L η ≤ 1/ L 才能保证收敛,L L L 越大意味着梯度变化越剧烈,允许的步长越小。
压缩映射。 若存在常数 c ∈ ( 0 , 1 ) c \in (0, 1) c ∈ ( 0 , 1 ) 使得
∥ T x − T y ∥ ≤ c ∥ x − y ∥ , ∀ x , y ∈ R n \|Tx - Ty\| \leq c\|x - y\|, \quad \forall\, x, y \in \mathbb{R}^n ∥ T x − T y ∥ ≤ c ∥ x − y ∥ , ∀ x , y ∈ R n 则称 T T T 是压缩映射(contraction)。这是 Lipschitz 常数严格小于 1 的特殊情形,意味着 T T T 会严格缩短任意两点之间的距离。
非扩张映射。 若
∥ T x − T y ∥ ≤ ∥ x − y ∥ , ∀ x , y ∈ R n \|Tx - Ty\| \leq \|x - y\|, \quad \forall\, x, y \in \mathbb{R}^n ∥ T x − T y ∥ ≤ ∥ x − y ∥ , ∀ x , y ∈ R n 则称 T T T 是非扩张映射(nonexpansive),即映射不增加两点间的距离,对应 Lipschitz 常数 L = 1 L = 1 L = 1 。
稳定非扩张映射。 若
∥ T x − T y ∥ 2 ≤ ⟨ x − y , T x − T y ⟩ , ∀ x , y ∈ R n \|Tx - Ty\|^2 \leq \langle x - y,\, Tx - Ty \rangle, \quad \forall\, x, y \in \mathbb{R}^n ∥ T x − T y ∥ 2 ≤ ⟨ x − y , T x − T y ⟩ , ∀ x , y ∈ R n 则称 T T T 是稳定非扩张映射(firmly nonexpansive)。这一条件比非扩张性更强,其额外约束可以从内积的几何含义来理解。非扩张性只控制模长:∥ T x − T y ∥ ≤ ∥ x − y ∥ \|Tx-Ty\| \leq \|x-y\| ∥ T x − T y ∥ ≤ ∥ x − y ∥ ,即输出的位移不比输入的位移更长。稳定非扩张性进一步控制方向:右端的内积 ⟨ x − y , T x − T y ⟩ = ∥ x − y ∥ ⋅ ∥ T x − T y ∥ cos θ \langle x-y, Tx-Ty\rangle = \|x-y\|\cdot\|Tx-Ty\|\cos\theta ⟨ x − y , T x − T y ⟩ = ∥ x − y ∥ ⋅ ∥ T x − T y ∥ cos θ (θ \theta θ 是 x − y x-y x − y 与 T x − T y Tx-Ty T x − T y 之间的夹角),因此定义式等价于 ∥ T x − T y ∥ ≤ ∥ x − y ∥ cos θ \|Tx-Ty\| \leq \|x-y\|\cos\theta ∥ T x − T y ∥ ≤ ∥ x − y ∥ cos θ ,即输出位移 T x − T y Tx-Ty T x − T y 的方向必须与输入位移 x − y x-y x − y 的方向足够一致(cos θ \cos\theta cos θ 接近 1),否则 ∥ T x − T y ∥ \|Tx-Ty\| ∥ T x − T y ∥ 必须更小来补偿。换言之,稳定非扩张性排除了”保持距离但大幅改变方向”的行为——而这种旋转型行为恰恰是导致非扩张映射不动点迭代不收敛的根源(第 2.2.3 节将给出具体反例)。
稳定非扩张映射在优化中有一个非常重要的例子——闭凸集上的投影算子。第 2.4 节将证明投影算子 P Ω P_\Omega P Ω 满足稳定非扩张性。直觉上,投影操作不仅不会增大两点之间的距离,而且投影后的位移方向与原始位移方向始终保持一定的一致性(因为投影总是朝着凸集”靠拢”,不会出现反向偏移的情况)。
余强制映射。 若存在常数 δ > 0 \delta > 0 δ > 0 使得
δ ∥ T x − T y ∥ 2 ≤ ⟨ x − y , T x − T y ⟩ , ∀ x , y ∈ R n \delta\,\|Tx - Ty\|^2 \leq \langle x - y,\, Tx - Ty \rangle, \quad \forall\, x, y \in \mathbb{R}^n δ ∥ T x − T y ∥ 2 ≤ ⟨ x − y , T x − T y ⟩ , ∀ x , y ∈ R n 则称 T T T 是余强制映射(cocoercive),δ \delta δ 称为余强制系数。当 δ = 1 \delta = 1 δ = 1 时,余强制退化为稳定非扩张。
余强制性在优化中的典型体现是光滑强凸函数的梯度。若 f f f 是 L L L -光滑凸函数(∇ f \nabla f ∇ f 的 Lipschitz 常数为 L L L ),则 ∇ f \nabla f ∇ f 是 1 / L 1/L 1/ L -余强制的,即 ⟨ ∇ f ( x ) − ∇ f ( y ) , x − y ⟩ ≥ 1 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ 2 \langle \nabla f(x) - \nabla f(y), x - y \rangle \geq \frac{1}{L}\|\nabla f(x) - \nabla f(y)\|^2 ⟨ ∇ f ( x ) − ∇ f ( y ) , x − y ⟩ ≥ L 1 ∥∇ f ( x ) − ∇ f ( y ) ∥ 2 。这个性质称为 Baillon-Haddad 定理,它直接说明了梯度算子的收缩能力与函数光滑度之间的关系。
2.1.2 映射间的蕴含关系# 五种映射之间存在如下蕴含链:
压缩 ⇒ 非扩张 ⇒ Lipschitz 连续 \text{压缩} \;\Rightarrow\; \text{非扩张} \;\Rightarrow\; \text{Lipschitz 连续} 压缩 ⇒ 非扩张 ⇒ Lipschitz 连续 稳定非扩张 ⇒ 非扩张 ⇒ Lipschitz 连续 \text{稳定非扩张} \;\Rightarrow\; \text{非扩张} \;\Rightarrow\; \text{Lipschitz 连续} 稳定非扩张 ⇒ 非扩张 ⇒ Lipschitz 连续 稳定非扩张 ⇒ 余强制 ⇒ Lipschitz 连续 \text{稳定非扩张} \;\Rightarrow\; \text{余强制} \;\Rightarrow\; \text{Lipschitz 连续} 稳定非扩张 ⇒ 余强制 ⇒ Lipschitz 连续 前两条蕴含是直接的(令 c ≤ 1 c \leq 1 c ≤ 1 或 L = 1 L = 1 L = 1 )。后面的蕴含需要证明。
稳定非扩张 ⇒ \Rightarrow ⇒ 非扩张。 对稳定非扩张的定义式右端应用 Cauchy-Schwarz 不等式:
∥ T x − T y ∥ 2 ≤ ⟨ x − y , T x − T y ⟩ ≤ ∥ x − y ∥ ⋅ ∥ T x − T y ∥ \|Tx - Ty\|^2 \leq \langle x - y,\, Tx - Ty \rangle \leq \|x - y\| \cdot \|Tx - Ty\| ∥ T x − T y ∥ 2 ≤ ⟨ x − y , T x − T y ⟩ ≤ ∥ x − y ∥ ⋅ ∥ T x − T y ∥ 若 ∥ T x − T y ∥ = 0 \|Tx - Ty\| = 0 ∥ T x − T y ∥ = 0 则结论显然成立。否则两边除以 ∥ T x − T y ∥ \|Tx - Ty\| ∥ T x − T y ∥ ,得 ∥ T x − T y ∥ ≤ ∥ x − y ∥ \|Tx - Ty\| \leq \|x - y\| ∥ T x − T y ∥ ≤ ∥ x − y ∥ ,即非扩张性。
余强制 ⇒ \Rightarrow ⇒ Lipschitz 连续。 类似地,对余强制定义式右端应用 Cauchy-Schwarz 不等式:
δ ∥ T x − T y ∥ 2 ≤ ⟨ x − y , T x − T y ⟩ ≤ ∥ x − y ∥ ⋅ ∥ T x − T y ∥ \delta\|Tx - Ty\|^2 \leq \langle x - y,\, Tx - Ty \rangle \leq \|x - y\| \cdot \|Tx - Ty\| δ ∥ T x − T y ∥ 2 ≤ ⟨ x − y , T x − T y ⟩ ≤ ∥ x − y ∥ ⋅ ∥ T x − T y ∥ 两边除以 ∥ T x − T y ∥ \|Tx - Ty\| ∥ T x − T y ∥ (非零时),得 ∥ T x − T y ∥ ≤ 1 δ ∥ x − y ∥ \|Tx - Ty\| \leq \frac{1}{\delta}\|x - y\| ∥ T x − T y ∥ ≤ δ 1 ∥ x − y ∥ ,即 Lipschitz 常数 L = 1 / δ L = 1/\delta L = 1/ δ 。
这些蕴含关系的实际意义在于:越强的映射条件给出越好的收敛性保证。我们将在下一节看到,压缩映射保证线性收敛,非扩张映射只能保证有界性,而稳定非扩张映射恰好处在能证明收敛的”甜蜜点”上。学习这些映射类型不是为了分类学本身,而是因为后续每一章的算法收敛性证明都需要判断迭代算子属于哪一类映射,从而决定能够得到什么样的收敛性结论。
2.2 不动点理论与收敛性分析# 有了映射的分类体系后,我们转向核心问题:将优化问题的求解归结为不动点方程的求解,并分析在不同映射条件下不动点迭代的收敛行为。
2.2.1 不动点方程与不动点迭代# 设映射 T : R n → R n T: \mathbb{R}^n \to \mathbb{R}^n T : R n → R n 。若 x ∗ = T ( x ∗ ) x^* = T(x^*) x ∗ = T ( x ∗ ) ,则称 x ∗ x^* x ∗ 为 T T T 的不动点 ,x = T ( x ) x = T(x) x = T ( x ) 称为不动点方程 。求解不动点方程的最自然方法是不动点迭代 :从初始点 x 0 x^0 x 0 出发,按
x k + 1 = T ( x k ) x^{k+1} = T(x^k) x k + 1 = T ( x k ) 逐步更新。若序列 { x k } \{x^k\} { x k } 收敛到某个极限 x ∗ x^* x ∗ ,则对迭代公式两边取极限即得 x ∗ = T ( x ∗ ) x^* = T(x^*) x ∗ = T ( x ∗ ) ,说明极限点就是不动点。
核心问题随之浮现:映射 T T T 需要满足什么条件,不动点迭代才能收敛?
2.2.2 压缩映射下的收敛性# 当 T T T 是压缩映射(∥ T x − T y ∥ ≤ c ∥ x − y ∥ \|Tx - Ty\| \leq c\|x - y\| ∥ T x − T y ∥ ≤ c ∥ x − y ∥ ,c ∈ ( 0 , 1 ) c \in (0,1) c ∈ ( 0 , 1 ) )时,收敛性证明最为直接。设 x ∗ x^* x ∗ 是不动点,则
∥ x k − x ∗ ∥ = ∥ T ( x k − 1 ) − T ( x ∗ ) ∥ ≤ c ∥ x k − 1 − x ∗ ∥ ≤ ⋯ ≤ c k ∥ x 0 − x ∗ ∥ \|x^k - x^*\| = \|T(x^{k-1}) - T(x^*)\| \leq c\|x^{k-1} - x^*\| \leq \cdots \leq c^k\|x^0 - x^*\| ∥ x k − x ∗ ∥ = ∥ T ( x k − 1 ) − T ( x ∗ ) ∥ ≤ c ∥ x k − 1 − x ∗ ∥ ≤ ⋯ ≤ c k ∥ x 0 − x ∗ ∥ 当 k → ∞ k \to \infty k → ∞ 时,c k → 0 c^k \to 0 c k → 0 ,由夹逼准则得 ∥ x k − x ∗ ∥ → 0 \|x^k - x^*\| \to 0 ∥ x k − x ∗ ∥ → 0 。这是 R-线性收敛,收敛率为 c c c 。
压缩映射条件虽然很强,但使用简便——只需递推即可证明收敛。
2.2.3 非扩张映射下的困难# 当 T T T 仅满足非扩张性(∥ T x − T y ∥ ≤ ∥ x − y ∥ \|Tx - Ty\| \leq \|x - y\| ∥ T x − T y ∥ ≤ ∥ x − y ∥ )时,类似的递推只能给出
∥ x k − x ∗ ∥ = ∥ T ( x k − 1 ) − T ( x ∗ ) ∥ ≤ ∥ x k − 1 − x ∗ ∥ ≤ ⋯ ≤ ∥ x 0 − x ∗ ∥ \|x^k - x^*\| = \|T(x^{k-1}) - T(x^*)\| \leq \|x^{k-1} - x^*\| \leq \cdots \leq \|x^0 - x^*\| ∥ x k − x ∗ ∥ = ∥ T ( x k − 1 ) − T ( x ∗ ) ∥ ≤ ∥ x k − 1 − x ∗ ∥ ≤ ⋯ ≤ ∥ x 0 − x ∗ ∥ 这说明序列 { x k } \{x^k\} { x k } 有界(∥ x k − x ∗ ∥ \|x^k - x^*\| ∥ x k − x ∗ ∥ 单调不增),但无法证明 ∥ x k − x ∗ ∥ → 0 \|x^k - x^*\| \to 0 ∥ x k − x ∗ ∥ → 0 。非扩张条件太弱,不足以保证收敛。
旋转映射的反例。 考虑二维平面上的 90 度旋转映射 T ( x 1 , x 2 ) = ( − x 2 , x 1 ) T(x_1, x_2) = (-x_2, x_1) T ( x 1 , x 2 ) = ( − x 2 , x 1 ) 。首先验证 T T T 是非扩张的:∥ T x ∥ 2 = x 2 2 + x 1 2 = ∥ x ∥ 2 \|Tx\|^2 = x_2^2 + x_1^2 = \|x\|^2 ∥ T x ∥ 2 = x 2 2 + x 1 2 = ∥ x ∥ 2 ,即 T T T 保持距离(实际上是等距映射),因此 ∥ T x − T y ∥ = ∥ T ( x − y ) ∥ = ∥ x − y ∥ \|Tx - Ty\| = \|T(x-y)\| = \|x-y\| ∥ T x − T y ∥ = ∥ T ( x − y ) ∥ = ∥ x − y ∥ ,非扩张性成立。T T T 的唯一不动点是原点 x ∗ = ( 0 , 0 ) x^* = (0,0) x ∗ = ( 0 , 0 ) 。然而,从 x 0 = ( 1 , 0 ) x^0 = (1, 0) x 0 = ( 1 , 0 ) 出发的迭代序列为
( 1 , 0 ) → ( 0 , 1 ) → ( − 1 , 0 ) → ( 0 , − 1 ) → ( 1 , 0 ) → ⋯ (1, 0) \to (0, 1) \to (-1, 0) \to (0, -1) \to (1, 0) \to \cdots ( 1 , 0 ) → ( 0 , 1 ) → ( − 1 , 0 ) → ( 0 , − 1 ) → ( 1 , 0 ) → ⋯ 序列以周期 4 振荡,始终停留在单位圆上,不收敛到原点。这个反例精确地展示了非扩张映射不收敛的机制:旋转保持了距离(∥ x k − x ∗ ∥ = 1 \|x^k - x^*\| = 1 ∥ x k − x ∗ ∥ = 1 恒成立),但不断改变方向,导致迭代点在不动点周围”绕圈”而无法靠近。这也解释了第 2.1 节中稳定非扩张性的”方向一致性”要求为何必要——它正是为了排除这种旋转型行为。
2.2.4 稳定非扩张映射下的收敛性:四步标准范式# 稳定非扩张映射(∥ T x − T y ∥ 2 ≤ ⟨ x − y , T x − T y ⟩ \|Tx - Ty\|^2 \leq \langle x - y, Tx - Ty \rangle ∥ T x − T y ∥ 2 ≤ ⟨ x − y , T x − T y ⟩ )的强度介于压缩和非扩张之间,恰好能够证明收敛。这里的证明过程分为四步,构成了优化理论中收敛性证明的标准范式 ——后续章节中几乎所有算法的收敛性分析都遵循同一框架。
第一步:建立 Fejér 单调性。 目标是证明
∥ x k + 1 − x ∗ ∥ 2 ≤ ∥ x k − x ∗ ∥ 2 − ∥ x k + 1 − x k ∥ 2 \|x^{k+1} - x^*\|^2 \leq \|x^k - x^*\|^2 - \|x^{k+1} - x^k\|^2 ∥ x k + 1 − x ∗ ∥ 2 ≤ ∥ x k − x ∗ ∥ 2 − ∥ x k + 1 − x k ∥ 2 即每步迭代后,到不动点的距离严格下降,且下降量至少为步长的平方。
由 x k + 1 = T x k x^{k+1} = Tx^k x k + 1 = T x k 和 x ∗ = T x ∗ x^* = Tx^* x ∗ = T x ∗ (不动点条件),有 x k + 1 − x ∗ = T x k − T x ∗ x^{k+1} - x^* = Tx^k - Tx^* x k + 1 − x ∗ = T x k − T x ∗ 。将其拆分为
x k + 1 − x ∗ = ( x k + 1 − x k ) + ( x k − x ∗ ) x^{k+1} - x^* = (x^{k+1} - x^k) + (x^k - x^*) x k + 1 − x ∗ = ( x k + 1 − x k ) + ( x k − x ∗ ) 展开范数平方:
∥ x k + 1 − x ∗ ∥ 2 = ∥ x k + 1 − x k ∥ 2 + ∥ x k − x ∗ ∥ 2 + 2 ⟨ x k + 1 − x k , x k − x ∗ ⟩ ( † ) \|x^{k+1} - x^*\|^2 = \|x^{k+1} - x^k\|^2 + \|x^k - x^*\|^2 + 2\langle x^{k+1} - x^k,\, x^k - x^*\rangle \tag{$\dagger$} ∥ x k + 1 − x ∗ ∥ 2 = ∥ x k + 1 − x k ∥ 2 + ∥ x k − x ∗ ∥ 2 + 2 ⟨ x k + 1 − x k , x k − x ∗ ⟩ ( † ) 现在处理交叉项。对 x k − x ∗ x^k - x^* x k − x ∗ 进行加减 x k + 1 x^{k+1} x k + 1 :
⟨ x k + 1 − x k , x k − x ∗ ⟩ = ⟨ x k + 1 − x k , x k − x k + 1 + x k + 1 − x ∗ ⟩ \langle x^{k+1} - x^k,\, x^k - x^*\rangle = \langle x^{k+1} - x^k,\, x^k - x^{k+1} + x^{k+1} - x^*\rangle ⟨ x k + 1 − x k , x k − x ∗ ⟩ = ⟨ x k + 1 − x k , x k − x k + 1 + x k + 1 − x ∗ ⟩ = − ∥ x k + 1 − x k ∥ 2 + ⟨ x k + 1 − x k , x k + 1 − x ∗ ⟩ = -\|x^{k+1} - x^k\|^2 + \langle x^{k+1} - x^k,\, x^{k+1} - x^*\rangle = − ∥ x k + 1 − x k ∥ 2 + ⟨ x k + 1 − x k , x k + 1 − x ∗ ⟩ 代入 x k + 1 − x k = T x k − x k x^{k+1} - x^k = Tx^k - x^k x k + 1 − x k = T x k − x k 和 x k + 1 − x ∗ = T x k − T x ∗ x^{k+1} - x^* = Tx^k - Tx^* x k + 1 − x ∗ = T x k − T x ∗ :
= − ∥ x k + 1 − x k ∥ 2 + ⟨ T x k − x k , T x k − T x ∗ ⟩ = -\|x^{k+1} - x^k\|^2 + \langle Tx^k - x^k,\, Tx^k - Tx^*\rangle = − ∥ x k + 1 − x k ∥ 2 + ⟨ T x k − x k , T x k − T x ∗ ⟩ 下面对内积项 ⟨ T x k − x k , T x k − T x ∗ ⟩ \langle Tx^k - x^k,\, Tx^k - Tx^*\rangle ⟨ T x k − x k , T x k − T x ∗ ⟩ 利用稳定非扩张性进行放缩。将 T x k − x k Tx^k - x^k T x k − x k 改写为 ( T x k − T x ∗ ) − ( x k − T x ∗ ) (Tx^k - Tx^*) - (x^k - Tx^*) ( T x k − T x ∗ ) − ( x k − T x ∗ ) :
⟨ T x k − x k , T x k − T x ∗ ⟩ = ∥ T x k − T x ∗ ∥ 2 − ⟨ x k − T x ∗ , T x k − T x ∗ ⟩ \langle Tx^k - x^k,\, Tx^k - Tx^*\rangle = \|Tx^k - Tx^*\|^2 - \langle x^k - Tx^*,\, Tx^k - Tx^*\rangle ⟨ T x k − x k , T x k − T x ∗ ⟩ = ∥ T x k − T x ∗ ∥ 2 − ⟨ x k − T x ∗ , T x k − T x ∗ ⟩ 由稳定非扩张性 ∥ T x k − T x ∗ ∥ 2 ≤ ⟨ x k − x ∗ , T x k − T x ∗ ⟩ \|Tx^k - Tx^*\|^2 \leq \langle x^k - x^*,\, Tx^k - Tx^*\rangle ∥ T x k − T x ∗ ∥ 2 ≤ ⟨ x k − x ∗ , T x k − T x ∗ ⟩ ,将右端改写为
⟨ x k − x ∗ , T x k − T x ∗ ⟩ = ⟨ x k − T x ∗ , T x k − T x ∗ ⟩ \langle x^k - x^*,\, Tx^k - Tx^*\rangle = \langle x^k - Tx^*,\, Tx^k - Tx^*\rangle ⟨ x k − x ∗ , T x k − T x ∗ ⟩ = ⟨ x k − T x ∗ , T x k − T x ∗ ⟩ (利用 x ∗ = T x ∗ x^* = Tx^* x ∗ = T x ∗ ),于是稳定非扩张性给出 ∥ T x k − T x ∗ ∥ 2 ≤ ⟨ x k − T x ∗ , T x k − T x ∗ ⟩ \|Tx^k - Tx^*\|^2 \leq \langle x^k - Tx^*,\, Tx^k - Tx^*\rangle ∥ T x k − T x ∗ ∥ 2 ≤ ⟨ x k − T x ∗ , T x k − T x ∗ ⟩ 。代入上式:
⟨ T x k − x k , T x k − T x ∗ ⟩ = ∥ T x k − T x ∗ ∥ 2 − ⟨ x k − T x ∗ , T x k − T x ∗ ⟩ ≤ 0 \langle Tx^k - x^k,\, Tx^k - Tx^*\rangle = \|Tx^k - Tx^*\|^2 - \langle x^k - Tx^*,\, Tx^k - Tx^*\rangle \leq 0 ⟨ T x k − x k , T x k − T x ∗ ⟩ = ∥ T x k − T x ∗ ∥ 2 − ⟨ x k − T x ∗ , T x k − T x ∗ ⟩ ≤ 0 因此交叉项满足
⟨ x k + 1 − x k , x k − x ∗ ⟩ ≤ − ∥ x k + 1 − x k ∥ 2 \langle x^{k+1} - x^k,\, x^k - x^*\rangle \leq -\|x^{k+1} - x^k\|^2 ⟨ x k + 1 − x k , x k − x ∗ ⟩ ≤ − ∥ x k + 1 − x k ∥ 2 代入 ( † ) (\dagger) ( † ) 式:
∥ x k + 1 − x ∗ ∥ 2 ≤ ∥ x k + 1 − x k ∥ 2 + ∥ x k − x ∗ ∥ 2 + 2 ( − ∥ x k + 1 − x k ∥ 2 ) = ∥ x k − x ∗ ∥ 2 − ∥ x k + 1 − x k ∥ 2 \|x^{k+1} - x^*\|^2 \leq \|x^{k+1} - x^k\|^2 + \|x^k - x^*\|^2 + 2(-\|x^{k+1} - x^k\|^2) = \|x^k - x^*\|^2 - \|x^{k+1} - x^k\|^2 ∥ x k + 1 − x ∗ ∥ 2 ≤ ∥ x k + 1 − x k ∥ 2 + ∥ x k − x ∗ ∥ 2 + 2 ( − ∥ x k + 1 − x k ∥ 2 ) = ∥ x k − x ∗ ∥ 2 − ∥ x k + 1 − x k ∥ 2 Fejér 单调性得证。
满足 ∥ x k + 1 − x ∗ ∥ 2 ≤ ∥ x k − x ∗ ∥ 2 \|x^{k+1} - x^*\|^2 \leq \|x^k - x^*\|^2 ∥ x k + 1 − x ∗ ∥ 2 ≤ ∥ x k − x ∗ ∥ 2 的序列称为关于 x ∗ x^* x ∗ 的 Fejér 单调 序列。Fejér 单调性是优化收敛性证明的核心中间结论:在研究论文中,证明的前半部分通常致力于建立 Fejér 单调性,后半部分则沿着下述标准化流程推进。
这一步是四步框架中最关键也最困难的一步。对于不同的算法,Fejér 单调性的具体形式和推导细节各不相同(下降量可能是 ∥ x k + 1 − x k ∥ 2 \|x^{k+1} - x^k\|^2 ∥ x k + 1 − x k ∥ 2 ,也可能是 ∥ x k − N x k ∥ 2 \|x^k - Nx^k\|^2 ∥ x k − N x k ∥ 2 或其他量),但总体思路一致:通过算子的结构性质,从迭代的递推关系中挤出一个严格正的下降项。
第二步:证明相邻迭代差趋于零。 由 Fejér 单调性移项得
∥ x k + 1 − x k ∥ 2 ≤ ∥ x k − x ∗ ∥ 2 − ∥ x k + 1 − x ∗ ∥ 2 \|x^{k+1} - x^k\|^2 \leq \|x^k - x^*\|^2 - \|x^{k+1} - x^*\|^2 ∥ x k + 1 − x k ∥ 2 ≤ ∥ x k − x ∗ ∥ 2 − ∥ x k + 1 − x ∗ ∥ 2 对 k = 0 , 1 , … , K k = 0, 1, \ldots, K k = 0 , 1 , … , K 累加,右端形成 telescoping sum(逐项相消):
∑ k = 0 K ∥ x k + 1 − x k ∥ 2 ≤ ∥ x 0 − x ∗ ∥ 2 − ∥ x K + 1 − x ∗ ∥ 2 ≤ ∥ x 0 − x ∗ ∥ 2 < ∞ \sum_{k=0}^{K}\|x^{k+1} - x^k\|^2 \leq \|x^0 - x^*\|^2 - \|x^{K+1} - x^*\|^2 \leq \|x^0 - x^*\|^2 < \infty k = 0 ∑ K ∥ x k + 1 − x k ∥ 2 ≤ ∥ x 0 − x ∗ ∥ 2 − ∥ x K + 1 − x ∗ ∥ 2 ≤ ∥ x 0 − x ∗ ∥ 2 < ∞ 令 K → ∞ K \to \infty K → ∞ ,级数收敛。由级数收敛的必要条件,通项趋于零:∥ x k + 1 − x k ∥ → 0 \|x^{k+1} - x^k\| \to 0 ∥ x k + 1 − x k ∥ → 0 。
这一步的核心技巧是 telescoping sum:对 Fejér 单调性不等式从 k = 0 k=0 k = 0 到 K K K 求和后,右端大量项逐对相消,只剩下首尾两项之差。这一技巧之所以有效,是因为 Fejér 单调性保证了 ∥ x k − x ∗ ∥ 2 \|x^k - x^*\|^2 ∥ x k − x ∗ ∥ 2 单调递减,从而求和的右端被初始距离 ∥ x 0 − x ∗ ∥ 2 \|x^0 - x^*\|^2 ∥ x 0 − x ∗ ∥ 2 所控制。级数 ∑ k = 0 ∞ ∥ x k + 1 − x k ∥ 2 \sum_{k=0}^{\infty} \|x^{k+1} - x^k\|^2 ∑ k = 0 ∞ ∥ x k + 1 − x k ∥ 2 的收敛意味着每一步的移动量终将趋于零,但尚不能说明序列收敛到何处。
第三步:证明子列收敛到不动点。 Fejér 单调性保证 ∥ x k − x ∗ ∥ \|x^k - x^*\| ∥ x k − x ∗ ∥ 单调递减且有下界(≥ 0 \geq 0 ≥ 0 ),故收敛(但尚不知收敛到什么值)。由三角不等式 ∥ x k ∥ ≤ ∥ x k − x ∗ ∥ + ∥ x ∗ ∥ \|x^k\| \leq \|x^k - x^*\| + \|x^*\| ∥ x k ∥ ≤ ∥ x k − x ∗ ∥ + ∥ x ∗ ∥ ,序列 { x k } \{x^k\} { x k } 有界。由 Bolzano-Weierstrass 定理,有界序列必有收敛子列 x k j → x ∞ x^{k_j} \to x_\infty x k j → x ∞ 。
这里用到 Bolzano-Weierstrass 定理的原因是:我们只知道 { x k } \{x^k\} { x k } 有界,还不知道它是否收敛。Bolzano-Weierstrass 定理保证有界序列至少有一个聚点,我们先证明这个聚点是不动点,然后再证明它是唯一的聚点。
利用第二步的结论 ∥ x k + 1 − x k ∥ → 0 \|x^{k+1} - x^k\| \to 0 ∥ x k + 1 − x k ∥ → 0 和三角不等式,可得 x k j + 1 → x ∞ x^{k_j+1} \to x_\infty x k j + 1 → x ∞ 。对迭代公式 x k j + 1 = T ( x k j ) x^{k_j+1} = T(x^{k_j}) x k j + 1 = T ( x k j ) 取极限,得 x ∞ = T ( x ∞ ) x_\infty = T(x_\infty) x ∞ = T ( x ∞ ) ,即 x ∞ x_\infty x ∞ 是不动点。
第四步:证明全序列收敛。 由第二步知 ∥ x k − x ∗ ∥ \|x^k - x^*\| ∥ x k − x ∗ ∥ 收敛到某值 a a a 。取 x ∗ = x ∞ x^* = x_\infty x ∗ = x ∞ (第三步已证 x ∞ x_\infty x ∞ 是不动点),有 ∥ x k j − x ∞ ∥ → 0 \|x^{k_j} - x_\infty\| \to 0 ∥ x k j − x ∞ ∥ → 0 ,说明 a = 0 a = 0 a = 0 。由收敛数列的性质——若存在趋于 0 的子列,则全序列趋于 0——得 ∥ x k − x ∞ ∥ → 0 \|x^k - x_\infty\| \to 0 ∥ x k − x ∞ ∥ → 0 ,即 x k → x ∞ ∈ Fix ( T ) x^k \to x_\infty \in \text{Fix}(T) x k → x ∞ ∈ Fix ( T ) 。
最后这一步利用了实数列的一个基本性质:单调有界数列收敛,且若其某个子列收敛到 0 0 0 ,则全序列收敛到 0 0 0 。{ ∥ x k − x ∞ ∥ } \{\|x^k - x_\infty\|\} { ∥ x k − x ∞ ∥ } 恰好满足这两个条件——它单调不增(Fejér 单调性),且存在趋于 0 0 0 的子列(∥ x k j − x ∞ ∥ → 0 \|x^{k_j} - x_\infty\| \to 0 ∥ x k j − x ∞ ∥ → 0 )。
这四步证明框架——Fejér 单调性、telescoping 求和、子列收敛、全序列收敛——将在第三章梯度下降法、第四章投影梯度法、第五章邻近算法的收敛性分析中反复出现。
2.3 均值算子与 Krasnosel’skii-Mann 迭代# 上一节表明,非扩张映射的不动点迭代不一定收敛,而稳定非扩张映射的不动点迭代可以收敛。一个自然的问题是:能否将非扩张算子”改造”成性质更好的算子,使得不动点迭代仍然收敛?均值算子正是回答这一问题的工具。
2.3.1 均值算子的定义# 设 N N N 是一个非扩张算子,I I I 是恒等映射,α ∈ ( 0 , 1 ) \alpha \in (0, 1) α ∈ ( 0 , 1 ) 。定义算子
T = ( 1 − α ) I + α N T = (1 - \alpha) I + \alpha N T = ( 1 − α ) I + α N 这样的 T T T 称为均值算子 (averaged operator)。直觉上,T T T 是恒等映射与非扩张算子 N N N 的凸组合,以系数 α \alpha α 控制两者的混合比例。均值算子有两条核心性质:
T T T 是非扩张的;进一步,当 α = 1 / 2 \alpha = 1/2 α = 1/2 时,T T T 是稳定非扩张的。
Krasnosel’skii-Mann 定理(KM 定理):不动点迭代 x k + 1 = T x k x^{k+1} = Tx^k x k + 1 = T x k 产生的序列 { x k } \{x^k\} { x k } 收敛到不动点。
在展开证明之前,先建立一个贯穿全局的代数工具。
2.3.2 凸组合范数展开等式# 引理。 设 a + b = 1 a + b = 1 a + b = 1 ,a , b ∈ [ 0 , 1 ] a, b \in [0, 1] a , b ∈ [ 0 , 1 ] ,则对任意 x , y x, y x , y :
∥ a x + b y ∥ 2 = a ∥ x ∥ 2 + b ∥ y ∥ 2 − a b ∥ x − y ∥ 2 \|ax + by\|^2 = a\|x\|^2 + b\|y\|^2 - ab\|x - y\|^2 ∥ a x + b y ∥ 2 = a ∥ x ∥ 2 + b ∥ y ∥ 2 − ab ∥ x − y ∥ 2 证明。 在一维情形下验证。将 b = 1 − a b = 1 - a b = 1 − a 代入右端:
a x 2 + ( 1 − a ) y 2 − a ( 1 − a ) ( x − y ) 2 a x^2 + (1-a) y^2 - a(1-a)(x - y)^2 a x 2 + ( 1 − a ) y 2 − a ( 1 − a ) ( x − y ) 2 展开 ( x − y ) 2 = x 2 − 2 x y + y 2 (x - y)^2 = x^2 - 2xy + y^2 ( x − y ) 2 = x 2 − 2 x y + y 2 :
= a x 2 + ( 1 − a ) y 2 − a ( 1 − a ) x 2 + 2 a ( 1 − a ) x y − a ( 1 − a ) y 2 = a x^2 + (1-a) y^2 - a(1-a) x^2 + 2a(1-a)xy - a(1-a) y^2 = a x 2 + ( 1 − a ) y 2 − a ( 1 − a ) x 2 + 2 a ( 1 − a ) x y − a ( 1 − a ) y 2 合并 x 2 x^2 x 2 的系数:a − a ( 1 − a ) = a 2 a - a(1-a) = a^2 a − a ( 1 − a ) = a 2 ;合并 y 2 y^2 y 2 的系数:( 1 − a ) − a ( 1 − a ) = ( 1 − a ) 2 = b 2 (1-a) - a(1-a) = (1-a)^2 = b^2 ( 1 − a ) − a ( 1 − a ) = ( 1 − a ) 2 = b 2 。于是
= a 2 x 2 + b 2 y 2 + 2 a b ⋅ x y = ( a x + b y ) 2 = a^2 x^2 + b^2 y^2 + 2ab \cdot xy = (ax + by)^2 = a 2 x 2 + b 2 y 2 + 2 ab ⋅ x y = ( a x + b y ) 2 一维情形成立后,推广到内积空间同样成立。■ \blacksquare ■
这一等式的价值在于:它将凸组合的范数平方表达为各分量范数平方的加权和减去一个”交叉惩罚项” a b ∥ x − y ∥ 2 ab\|x - y\|^2 ab ∥ x − y ∥ 2 。在后续证明中,这个惩罚项正是产生 Fejér 单调性所需的”下降量”。
2.3.3 均值算子的非扩张性# 目标。 证明 ∥ T x − T y ∥ ≤ ∥ x − y ∥ \|Tx - Ty\| \leq \|x - y\| ∥ T x − T y ∥ ≤ ∥ x − y ∥ 。
将 T T T 的定义代入:
∥ T x − T y ∥ 2 = ∥ ( 1 − α ) ( x − y ) + α ( N x − N y ) ∥ 2 \|Tx - Ty\|^2 = \|(1-\alpha)(x - y) + \alpha(Nx - Ny)\|^2 ∥ T x − T y ∥ 2 = ∥ ( 1 − α ) ( x − y ) + α ( N x − N y ) ∥ 2 这是一个凸组合的范数平方(( 1 − α ) + α = 1 (1-\alpha) + \alpha = 1 ( 1 − α ) + α = 1 ),应用上述引理得
= ( 1 − α ) ∥ x − y ∥ 2 + α ∥ N x − N y ∥ 2 − α ( 1 − α ) ∥ ( x − y ) − ( N x − N y ) ∥ 2 ( ⋆ ) = (1-\alpha)\|x - y\|^2 + \alpha\|Nx - Ny\|^2 - \alpha(1-\alpha)\|(x - y) - (Nx - Ny)\|^2 \quad (\star) = ( 1 − α ) ∥ x − y ∥ 2 + α ∥ N x − N y ∥ 2 − α ( 1 − α ) ∥ ( x − y ) − ( N x − N y ) ∥ 2 ( ⋆ ) 式 ( ⋆ ) (\star) ( ⋆ ) 的最后一项 α ( 1 − α ) ∥ ( x − y ) − ( N x − N y ) ∥ 2 ≥ 0 \alpha(1-\alpha)\|(x-y) - (Nx - Ny)\|^2 \geq 0 α ( 1 − α ) ∥ ( x − y ) − ( N x − N y ) ∥ 2 ≥ 0 ,因此
( ⋆ ) ≤ ( 1 − α ) ∥ x − y ∥ 2 + α ∥ N x − N y ∥ 2 (\star) \leq (1-\alpha)\|x - y\|^2 + \alpha\|Nx - Ny\|^2 ( ⋆ ) ≤ ( 1 − α ) ∥ x − y ∥ 2 + α ∥ N x − N y ∥ 2 再利用 N N N 的非扩张性 ∥ N x − N y ∥ ≤ ∥ x − y ∥ \|Nx - Ny\| \leq \|x - y\| ∥ N x − N y ∥ ≤ ∥ x − y ∥ ,得
≤ ( 1 − α ) ∥ x − y ∥ 2 + α ∥ x − y ∥ 2 = ∥ x − y ∥ 2 \leq (1-\alpha)\|x - y\|^2 + \alpha\|x - y\|^2 = \|x - y\|^2 ≤ ( 1 − α ) ∥ x − y ∥ 2 + α ∥ x − y ∥ 2 = ∥ x − y ∥ 2 因此 ∥ T x − T y ∥ 2 ≤ ∥ x − y ∥ 2 \|Tx - Ty\|^2 \leq \|x - y\|^2 ∥ T x − T y ∥ 2 ≤ ∥ x − y ∥ 2 ,即 T T T 是非扩张的。■ \blacksquare ■
2.3.4 α = 1 / 2 \alpha = 1/2 α = 1/2 时的稳定非扩张性# 目标。 当 α = 1 / 2 \alpha = 1/2 α = 1/2 时,证明 ∥ T x − T y ∥ 2 ≤ ⟨ x − y , T x − T y ⟩ \|Tx - Ty\|^2 \leq \langle x - y,\, Tx - Ty \rangle ∥ T x − T y ∥ 2 ≤ ⟨ x − y , T x − T y ⟩ 。
取 α = 1 / 2 \alpha = 1/2 α = 1/2 ,此时 T = 1 2 I + 1 2 N T = \frac{1}{2}I + \frac{1}{2}N T = 2 1 I + 2 1 N 。代入定义展开平方:
∥ T x − T y ∥ 2 = ∥ 1 2 ( x − y ) + 1 2 ( N x − N y ) ∥ 2 \|Tx - Ty\|^2 = \left\|\frac{1}{2}(x - y) + \frac{1}{2}(Nx - Ny)\right\|^2 ∥ T x − T y ∥ 2 = 2 1 ( x − y ) + 2 1 ( N x − N y ) 2 利用 ∥ u + v ∥ 2 = ∥ u ∥ 2 + ∥ v ∥ 2 + 2 ⟨ u , v ⟩ \|u+v\|^2 = \|u\|^2 + \|v\|^2 + 2\langle u, v\rangle ∥ u + v ∥ 2 = ∥ u ∥ 2 + ∥ v ∥ 2 + 2 ⟨ u , v ⟩ 展开并整理:
= 1 4 ∥ x − y ∥ 2 + 1 4 ∥ N x − N y ∥ 2 + 1 2 ⟨ x − y , N x − N y ⟩ = \frac{1}{4}\|x - y\|^2 + \frac{1}{4}\|Nx - Ny\|^2 + \frac{1}{2}\langle x - y,\, Nx - Ny \rangle = 4 1 ∥ x − y ∥ 2 + 4 1 ∥ N x − N y ∥ 2 + 2 1 ⟨ x − y , N x − N y ⟩ 利用 N N N 的非扩张性 ∥ N x − N y ∥ 2 ≤ ∥ x − y ∥ 2 \|Nx - Ny\|^2 \leq \|x - y\|^2 ∥ N x − N y ∥ 2 ≤ ∥ x − y ∥ 2 :
≤ 1 2 ∥ x − y ∥ 2 + 1 2 ⟨ x − y , N x − N y ⟩ \leq \frac{1}{2}\|x-y\|^2 + \frac{1}{2}\langle x-y,\, Nx - Ny\rangle ≤ 2 1 ∥ x − y ∥ 2 + 2 1 ⟨ x − y , N x − N y ⟩ 将右端改写为内积形式:注意 ∥ x − y ∥ 2 = ⟨ x − y , x − y ⟩ \|x-y\|^2 = \langle x-y, x-y \rangle ∥ x − y ∥ 2 = ⟨ x − y , x − y ⟩ ,因此
1 2 ∥ x − y ∥ 2 + 1 2 ⟨ x − y , N x − N y ⟩ = ⟨ x − y , 1 2 ( x − y ) + 1 2 ( N x − N y ) ⟩ = ⟨ x − y , T x − T y ⟩ \frac{1}{2}\|x-y\|^2 + \frac{1}{2}\langle x-y, Nx - Ny\rangle = \left\langle x - y,\, \frac{1}{2}(x-y) + \frac{1}{2}(Nx - Ny) \right\rangle = \langle x - y,\, Tx - Ty \rangle 2 1 ∥ x − y ∥ 2 + 2 1 ⟨ x − y , N x − N y ⟩ = ⟨ x − y , 2 1 ( x − y ) + 2 1 ( N x − N y ) ⟩ = ⟨ x − y , T x − T y ⟩ 于是
∥ T x − T y ∥ 2 ≤ ⟨ x − y , T x − T y ⟩ \|Tx - Ty\|^2 \leq \langle x - y,\, Tx - Ty \rangle ∥ T x − T y ∥ 2 ≤ ⟨ x − y , T x − T y ⟩ 这正是稳定非扩张的定义。■ \blacksquare ■
2.3.5 Krasnosel’skii-Mann 定理# KM 定理。 若 T = ( 1 − α ) I + α N T = (1-\alpha)I + \alpha N T = ( 1 − α ) I + α N 是均值算子(N N N 非扩张,α ∈ ( 0 , 1 ) \alpha \in (0,1) α ∈ ( 0 , 1 ) ),x ∗ x^* x ∗ 是 T T T 的不动点,则不动点迭代 x k + 1 = T x k x^{k+1} = Tx^k x k + 1 = T x k 产生的序列收敛到 x ∗ x^* x ∗ 。
证明的关键第一步是建立 Fejér 单调性。后续步骤(有界性、收敛子列、全序列收敛)与第 2.2.4 节的四步框架完全平行,此处仅详证 Fejér 单调性。
Fejér 单调性的建立。 由不动点迭代 x k + 1 = T x k x^{k+1} = Tx^k x k + 1 = T x k 和 T T T 的定义:
∥ x k + 1 − x ∗ ∥ 2 = ∥ T x k − x ∗ ∥ 2 = ∥ ( 1 − α ) ( x k − x ∗ ) + α ( N x k − x ∗ ) ∥ 2 \|x^{k+1} - x^*\|^2 = \|Tx^k - x^*\|^2 = \|(1-\alpha)(x^k - x^*) + \alpha(Nx^k - x^*)\|^2 ∥ x k + 1 − x ∗ ∥ 2 = ∥ T x k − x ∗ ∥ 2 = ∥ ( 1 − α ) ( x k − x ∗ ) + α ( N x k − x ∗ ) ∥ 2 应用凸组合范数展开等式:
= ( 1 − α ) ∥ x k − x ∗ ∥ 2 + α ∥ N x k − x ∗ ∥ 2 − α ( 1 − α ) ∥ x k − N x k ∥ 2 = (1-\alpha)\|x^k - x^*\|^2 + \alpha\|Nx^k - x^*\|^2 - \alpha(1-\alpha)\|x^k - Nx^k\|^2 = ( 1 − α ) ∥ x k − x ∗ ∥ 2 + α ∥ N x k − x ∗ ∥ 2 − α ( 1 − α ) ∥ x k − N x k ∥ 2 这里需要一个关键观察:x ∗ x^* x ∗ 是 T T T 的不动点,即 x ∗ = ( 1 − α ) x ∗ + α N x ∗ x^* = (1-\alpha)x^* + \alpha Nx^* x ∗ = ( 1 − α ) x ∗ + α N x ∗ ,化简得 α x ∗ = α N x ∗ \alpha x^* = \alpha Nx^* α x ∗ = α N x ∗ 。由于 α ≠ 0 \alpha \neq 0 α = 0 ,所以 x ∗ = N x ∗ x^* = Nx^* x ∗ = N x ∗ ——T T T 的不动点也是 N N N 的不动点。于是 ∥ N x k − x ∗ ∥ 2 = ∥ N x k − N x ∗ ∥ 2 \|Nx^k - x^*\|^2 = \|Nx^k - Nx^*\|^2 ∥ N x k − x ∗ ∥ 2 = ∥ N x k − N x ∗ ∥ 2 。利用 N N N 的非扩张性:
∥ N x k − N x ∗ ∥ 2 ≤ ∥ x k − x ∗ ∥ 2 \|Nx^k - Nx^*\|^2 \leq \|x^k - x^*\|^2 ∥ N x k − N x ∗ ∥ 2 ≤ ∥ x k − x ∗ ∥ 2 代入并合并前两项:
∥ x k + 1 − x ∗ ∥ 2 ≤ ∥ x k − x ∗ ∥ 2 − α ( 1 − α ) ∥ x k − N x k ∥ 2 \|x^{k+1} - x^*\|^2 \leq \|x^k - x^*\|^2 - \alpha(1-\alpha)\|x^k - Nx^k\|^2 ∥ x k + 1 − x ∗ ∥ 2 ≤ ∥ x k − x ∗ ∥ 2 − α ( 1 − α ) ∥ x k − N x k ∥ 2 由于 α ∈ ( 0 , 1 ) \alpha \in (0,1) α ∈ ( 0 , 1 ) ,有 α ( 1 − α ) > 0 \alpha(1-\alpha) > 0 α ( 1 − α ) > 0 ,Fejér 单调性成立。■ \blacksquare ■
后续步骤。 建立 Fejér 单调性后,完整证明的剩余步骤如下:
由 Fejér 单调性,{ ∥ x k − x ∗ ∥ 2 } \{\|x^k - x^*\|^2\} { ∥ x k − x ∗ ∥ 2 } 单调递减有下界,故收敛。对递推式从 k = 0 k=0 k = 0 到 ∞ \infty ∞ 求和得 ∑ k = 0 ∞ α ( 1 − α ) ∥ x k − N x k ∥ 2 < ∞ \sum_{k=0}^{\infty} \alpha(1-\alpha)\|x^k - Nx^k\|^2 < \infty ∑ k = 0 ∞ α ( 1 − α ) ∥ x k − N x k ∥ 2 < ∞ ,从而 ∥ x k − N x k ∥ → 0 \|x^k - Nx^k\| \to 0 ∥ x k − N x k ∥ → 0 。
由 ∥ x k − x ∗ ∥ \|x^k - x^*\| ∥ x k − x ∗ ∥ 有界,{ x k } \{x^k\} { x k } 有界,存在收敛子列 x k j → x ∞ x^{k_j} \to x_\infty x k j → x ∞ 。
由 x k j → x ∞ x^{k_j} \to x_\infty x k j → x ∞ 和 ∥ x k j − N x k j ∥ → 0 \|x^{k_j} - Nx^{k_j}\| \to 0 ∥ x k j − N x k j ∥ → 0 ,三角不等式给出 ∥ N x k j − x ∞ ∥ ≤ ∥ N x k j − x k j ∥ + ∥ x k j − x ∞ ∥ → 0 \|Nx^{k_j} - x_\infty\| \leq \|Nx^{k_j} - x^{k_j}\| + \|x^{k_j} - x_\infty\| \to 0 ∥ N x k j − x ∞ ∥ ≤ ∥ N x k j − x k j ∥ + ∥ x k j − x ∞ ∥ → 0 ,故 N x k j → x ∞ Nx^{k_j} \to x_\infty N x k j → x ∞ 。另一方面,N N N 是非扩张映射,因此是连续的(∥ N x − N y ∥ ≤ ∥ x − y ∥ \|Nx - Ny\| \leq \|x-y\| ∥ N x − N y ∥ ≤ ∥ x − y ∥ 直接给出 Lipschitz 连续性),所以 N x k j → N x ∞ Nx^{k_j} \to Nx_\infty N x k j → N x ∞ 。由极限唯一性,N x ∞ = x ∞ Nx_\infty = x_\infty N x ∞ = x ∞ ,即 x ∞ x_\infty x ∞ 是 N N N 的不动点,从而也是 T T T 的不动点。
利用 Fejér 单调性证明整个序列 x k → x ∞ = x ∗ x^k \to x_\infty = x^* x k → x ∞ = x ∗ 。
这些步骤与第 2.2.4 节中稳定非扩张映射的证明框架完全一致,仅系数不同,不影响论证结构。KM 定理的意义在于:即使原始算子 N N N 仅满足非扩张性(不足以保证收敛),将其与恒等映射做凸组合后得到的均值算子 T T T 的不动点迭代仍然收敛。这为算法设计提供了一种通用的”升级”策略。
2.5 次微分与法锥# 前几节讨论的映射理论假设算子是处处定义的单值映射。但许多重要的优化问题(例如含 ℓ 1 \ell_1 ℓ 1 范数正则化的问题)涉及不可微的目标函数,传统的梯度概念不再适用。次微分是凸分析中对梯度概念的推广,使得不可微的凸函数也能拥有类似”导数”的工具,从而纳入算子理论和不动点迭代的框架。
2.5.1 次梯度与次微分# 设 f : R n → R f: \mathbb{R}^n \to \mathbb{R} f : R n → R 是凸函数。若存在向量 v ∈ R n v \in \mathbb{R}^n v ∈ R n 使得对任意 y ∈ R n y \in \mathbb{R}^n y ∈ R n 均成立
f ( y ) ≥ f ( x ) + ⟨ v , y − x ⟩ f(y) \geq f(x) + \langle v, y - x \rangle f ( y ) ≥ f ( x ) + ⟨ v , y − x ⟩ 则称 v v v 为 f f f 在 x x x 处的一个次梯度 (subgradient)。f f f 在 x x x 处所有次梯度的集合称为 f f f 在 x x x 处的次微分 (subdifferential),记为 ∂ f ( x ) \partial f(x) ∂ f ( x ) 。
将此定义与第一章中凸函数的一阶条件 f ( y ) ≥ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ f(y) \geq f(x) + \langle \nabla f(x), y - x \rangle f ( y ) ≥ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ 对比,可以看出次梯度的定义形式完全一致,只是将梯度 ∇ f ( x ) \nabla f(x) ∇ f ( x ) 替换为一般的向量 v v v 。这正是”次微分是梯度的推广”的含义。
与梯度的关系。 当 f f f 在 x x x 处可微时,满足上述不等式的 v v v 只有一个,即 v = ∇ f ( x ) v = \nabla f(x) v = ∇ f ( x ) ,此时次微分退化为单点集 ∂ f ( x ) = { ∇ f ( x ) } \partial f(x) = \{\nabla f(x)\} ∂ f ( x ) = { ∇ f ( x )} 。当 f f f 在 x x x 处不可微时,次微分 ∂ f ( x ) \partial f(x) ∂ f ( x ) 通常包含多个元素。
几何解释。 定义仿射函数 g ( y ) = f ( x ) + ⟨ v , y − x ⟩ g(y) = f(x) + \langle v, y - x \rangle g ( y ) = f ( x ) + ⟨ v , y − x ⟩ 。次梯度条件 f ( y ) ≥ g ( y ) f(y) \geq g(y) f ( y ) ≥ g ( y ) 意味着 g g g 的图像始终位于 f f f 的图像下方(或与之相切),即次梯度对应的仿射函数是 f f f 的一个支撑超平面。
次微分的基本性质。 次微分 ∂ f ( x ) \partial f(x) ∂ f ( x ) 作为一个集合,具有以下基本性质。对任意 x ∈ dom f x \in \text{dom}\,f x ∈ dom f ,∂ f ( x ) \partial f(x) ∂ f ( x ) 是闭凸集(可能为空集)。若 x ∈ int dom f x \in \text{int}\,\text{dom}\,f x ∈ int dom f (定义域的内点),则 ∂ f ( x ) \partial f(x) ∂ f ( x ) 是非空有界集。闭凸性直接从定义得出:两个次梯度的凸组合仍然是次梯度,且次梯度序列的极限仍然是次梯度。有界性的证明需要在 x x x 的邻域内取若干方向的函数值来控制次梯度的大小。
2.5.2 绝对值函数的次微分# 考虑 f ( x ) = ∣ x ∣ f(x) = |x| f ( x ) = ∣ x ∣ 。在 x > 0 x > 0 x > 0 和 x < 0 x < 0 x < 0 处 f f f 可微,梯度分别为 1 和 − 1 -1 − 1 ,次微分就是单点集。关键是求 x = 0 x = 0 x = 0 处的次微分——这是一个不光滑点。
根据次微分定义,需找所有满足 ∣ y ∣ ≥ v y |y| \geq vy ∣ y ∣ ≥ v y 对任意 y y y 成立的 v v v :
当 y > 0 y > 0 y > 0 时:y ≥ v y y \geq vy y ≥ v y ,两边除以 y > 0 y > 0 y > 0 得 v ≤ 1 v \leq 1 v ≤ 1 。
当 y < 0 y < 0 y < 0 时:− y ≥ v y -y \geq vy − y ≥ v y ,两边除以 y < 0 y < 0 y < 0 (不等号翻转)得 v ≥ − 1 v \geq -1 v ≥ − 1 。
因此 ∂ f ( 0 ) = [ − 1 , 1 ] \partial f(0) = [-1, 1] ∂ f ( 0 ) = [ − 1 , 1 ] 。
这个例子揭示了次微分的本质:在光滑点次微分退化为梯度(单点),在非光滑点次微分是一个集合,“填补”了梯度缺失的信息。
2.5.3 次微分的运算规则# 直接从定义出发计算次微分往往很繁琐。与微积分中的求导法则类似,次微分也有一套运算规则,可以将复杂函数的次微分归结为简单函数的次微分的组合。
非负线性组合。 设 f 1 , f 2 f_1, f_2 f 1 , f 2 是凸函数,α 1 , α 2 ≥ 0 \alpha_1, \alpha_2 \geq 0 α 1 , α 2 ≥ 0 ,f = α 1 f 1 + α 2 f 2 f = \alpha_1 f_1 + \alpha_2 f_2 f = α 1 f 1 + α 2 f 2 。若 int dom f 1 ∩ dom f 2 ≠ ∅ \text{int}\,\text{dom}\,f_1 \cap \text{dom}\,f_2 \neq \emptyset int dom f 1 ∩ dom f 2 = ∅ (称为约束规范条件),则
∂ f ( x ) = α 1 ∂ f 1 ( x ) + α 2 ∂ f 2 ( x ) \partial f(x) = \alpha_1 \partial f_1(x) + \alpha_2 \partial f_2(x) ∂ f ( x ) = α 1 ∂ f 1 ( x ) + α 2 ∂ f 2 ( x ) 其中右端的加号是 Minkowski 和,即 A + B = { a + b ∣ a ∈ A , b ∈ B } A + B = \{a + b \mid a \in A, b \in B\} A + B = { a + b ∣ a ∈ A , b ∈ B } 。约束规范条件要求两个函数的定义域有足够的重叠,这在实际中几乎总是满足的。
包含关系 α 1 ∂ f 1 ( x ) + α 2 ∂ f 2 ( x ) ⊆ ∂ ( α 1 f 1 + α 2 f 2 ) ( x ) \alpha_1 \partial f_1(x) + \alpha_2 \partial f_2(x) \subseteq \partial(\alpha_1 f_1 + \alpha_2 f_2)(x) α 1 ∂ f 1 ( x ) + α 2 ∂ f 2 ( x ) ⊆ ∂ ( α 1 f 1 + α 2 f 2 ) ( x ) 从次梯度定义直接可得。反向包含的证明需要用到凸集分离定理(Moreau-Rockafellar 定理),这也是约束规范条件发挥作用的地方。
和的次微分(Moreau-Rockafellar 定理)。 上述规则的特例(α 1 = α 2 = 1 \alpha_1 = \alpha_2 = 1 α 1 = α 2 = 1 )尤为重要:当 int dom f 1 ∩ dom f 2 ≠ ∅ \text{int}\,\text{dom}\,f_1 \cap \text{dom}\,f_2 \neq \emptyset int dom f 1 ∩ dom f 2 = ∅ 时,
∂ ( f 1 + f 2 ) ( x ) = ∂ f 1 ( x ) + ∂ f 2 ( x ) \partial(f_1 + f_2)(x) = \partial f_1(x) + \partial f_2(x) ∂ ( f 1 + f 2 ) ( x ) = ∂ f 1 ( x ) + ∂ f 2 ( x ) 这个等式在优化中频繁使用。例如,对复合优化问题 min x f ( x ) + h ( x ) \min_x f(x) + h(x) min x f ( x ) + h ( x ) (f f f 光滑,h h h 非光滑),最优性条件 0 ∈ ∂ ( f + h ) ( x ∗ ) 0 \in \partial(f + h)(x^*) 0 ∈ ∂ ( f + h ) ( x ∗ ) 可以展开为 0 ∈ ∇ f ( x ∗ ) + ∂ h ( x ∗ ) 0 \in \nabla f(x^*) + \partial h(x^*) 0 ∈ ∇ f ( x ∗ ) + ∂ h ( x ∗ ) ,即 − ∇ f ( x ∗ ) ∈ ∂ h ( x ∗ ) -\nabla f(x^*) \in \partial h(x^*) − ∇ f ( x ∗ ) ∈ ∂ h ( x ∗ ) ,这正是第五章邻近梯度法的理论基础。
线性变量替换。 设 f ( x ) = h ( A x + b ) f(x) = h(Ax + b) f ( x ) = h ( A x + b ) ,其中 h h h 是适当凸函数,A ∈ R n × m A \in \mathbb{R}^{n \times m} A ∈ R n × m ,b ∈ R n b \in \mathbb{R}^n b ∈ R n 。若存在 x ♯ x^\sharp x ♯ 使得 A x ♯ + b ∈ int dom h Ax^\sharp + b \in \text{int}\,\text{dom}\,h A x ♯ + b ∈ int dom h ,则
∂ f ( x ) = A ⊤ ∂ h ( A x + b ) \partial f(x) = A^\top \partial h(Ax + b) ∂ f ( x ) = A ⊤ ∂ h ( A x + b ) 这是微积分链式法则 ∇ f ( x ) = A ⊤ ∇ h ( A x + b ) \nabla f(x) = A^\top \nabla h(Ax + b) ∇ f ( x ) = A ⊤ ∇ h ( A x + b ) 的次微分推广。与可微情形相比,形式完全一致,只是将 ∇ \nabla ∇ 替换为 ∂ \partial ∂ 。
逐点最大值。 设 f 1 , … , f m f_1, \ldots, f_m f 1 , … , f m 是凸函数,f ( x ) = max { f 1 ( x ) , … , f m ( x ) } f(x) = \max\{f_1(x), \ldots, f_m(x)\} f ( x ) = max { f 1 ( x ) , … , f m ( x )} 。记活跃集 I ( x ) = { i ∣ f i ( x ) = f ( x ) } I(x) = \{i \mid f_i(x) = f(x)\} I ( x ) = { i ∣ f i ( x ) = f ( x )} (即在 x x x 处取到最大值的那些函数的下标),则
∂ f ( x ) = conv ⋃ i ∈ I ( x ) ∂ f i ( x ) \partial f(x) = \text{conv}\bigcup_{i \in I(x)} \partial f_i(x) ∂ f ( x ) = conv i ∈ I ( x ) ⋃ ∂ f i ( x ) 其中 conv \text{conv} conv 表示凸包。直觉上,在 f f f 的不光滑点(即多个 f i f_i f i 同时取到最大值的点),次微分是各个活跃函数次微分的凸包。在光滑点(只有一个活跃函数),次微分退化为该活跃函数的梯度。例如,ℓ 1 \ell_1 ℓ 1 范数 ∥ x ∥ 1 = max s ∈ { − 1 , 1 } n s ⊤ x \|x\|_1 = \max_{s \in \{-1,1\}^n} s^\top x ∥ x ∥ 1 = max s ∈ { − 1 , 1 } n s ⊤ x 的次微分就可以通过这条规则计算:在 x k = 0 x_k = 0 x k = 0 的分量上,次微分是 [ − 1 , 1 ] [-1, 1] [ − 1 , 1 ] ;在 x k ≠ 0 x_k \neq 0 x k = 0 的分量上,次微分是 { sign ( x k ) } \{\text{sign}(x_k)\} { sign ( x k )} 。
复合函数的链式法则。 设 f 1 , … , f m f_1, \ldots, f_m f 1 , … , f m 是凸函数,h : R m → R h: \mathbb{R}^m \to \mathbb{R} h : R m → R 是关于各分量单调递增的凸函数,f ( x ) = h ( f 1 ( x ) , … , f m ( x ) ) f(x) = h(f_1(x), \ldots, f_m(x)) f ( x ) = h ( f 1 ( x ) , … , f m ( x )) 。若 z = ( z 1 , … , z m ) ∈ ∂ h ( f 1 ( x ^ ) , … , f m ( x ^ ) ) z = (z_1, \ldots, z_m) \in \partial h(f_1(\hat{x}), \ldots, f_m(\hat{x})) z = ( z 1 , … , z m ) ∈ ∂ h ( f 1 ( x ^ ) , … , f m ( x ^ )) 且 g i ∈ ∂ f i ( x ^ ) g_i \in \partial f_i(\hat{x}) g i ∈ ∂ f i ( x ^ ) ,则
z 1 g 1 + z 2 g 2 + ⋯ + z m g m ∈ ∂ f ( x ^ ) z_1 g_1 + z_2 g_2 + \cdots + z_m g_m \in \partial f(\hat{x}) z 1 g 1 + z 2 g 2 + ⋯ + z m g m ∈ ∂ f ( x ^ ) 这条规则的适用前提是外层函数 h h h 关于各分量单调递增。与可微情形的链式法则 ∇ f = ∑ i ∂ h ∂ u i ∇ f i \nabla f = \sum_i \frac{\partial h}{\partial u_i} \nabla f_i ∇ f = ∑ i ∂ u i ∂ h ∇ f i 对比,形式完全平行。
2.5.4 次微分与方向导数的关系# 对于凸函数,方向导数与次微分之间有一个深刻的联系。设 f f f 是凸函数,x 0 ∈ int dom f x_0 \in \text{int}\,\text{dom}\,f x 0 ∈ int dom f ,方向 d ∈ R n d \in \mathbb{R}^n d ∈ R n 。凸函数在 x 0 x_0 x 0 处沿方向 d d d 的方向导数定义为
f ′ ( x 0 ; d ) = inf t > 0 f ( x 0 + t d ) − f ( x 0 ) t f'(x_0; d) = \inf_{t > 0} \frac{f(x_0 + td) - f(x_0)}{t} f ′ ( x 0 ; d ) = t > 0 inf t f ( x 0 + t d ) − f ( x 0 ) 对于凸函数,差商 ( f ( x 0 + t d ) − f ( x 0 ) ) / t (f(x_0 + td) - f(x_0))/t ( f ( x 0 + t d ) − f ( x 0 )) / t 关于 t t t 是单调不减的,因此上述下确界总是存在(可能为 ± ∞ \pm\infty ± ∞ )。当 x 0 x_0 x 0 是定义域的内点时,方向导数是有限的。
方向导数与次微分的关系由如下等式刻画:
f ′ ( x 0 ; d ) = max v ∈ ∂ f ( x 0 ) ⟨ v , d ⟩ f'(x_0; d) = \max_{v \in \partial f(x_0)} \langle v, d \rangle f ′ ( x 0 ; d ) = v ∈ ∂ f ( x 0 ) max ⟨ v , d ⟩ 即方向导数等于所有次梯度与方向 d d d 的内积的最大值。这个等式意味着:次微分 ∂ f ( x 0 ) \partial f(x_0) ∂ f ( x 0 ) 完全刻画了函数 f f f 在 x 0 x_0 x 0 处沿各方向的变化率信息。当 f f f 在 x 0 x_0 x 0 处可微时,∂ f ( x 0 ) = { ∇ f ( x 0 ) } \partial f(x_0) = \{\nabla f(x_0)\} ∂ f ( x 0 ) = { ∇ f ( x 0 )} ,上式退化为 f ′ ( x 0 ; d ) = ⟨ ∇ f ( x 0 ) , d ⟩ f'(x_0; d) = \langle \nabla f(x_0), d \rangle f ′ ( x 0 ; d ) = ⟨ ∇ f ( x 0 ) , d ⟩ ,与通常的方向导数公式一致。
这个等式还有一个重要推论:x ∗ x^* x ∗ 是凸函数 f f f 的最小值点当且仅当 f ′ ( x ∗ ; d ) ≥ 0 f'(x^*; d) \geq 0 f ′ ( x ∗ ; d ) ≥ 0 对所有方向 d d d 成立,而由上述等式,这等价于 max v ∈ ∂ f ( x ∗ ) ⟨ v , d ⟩ ≥ 0 \max_{v \in \partial f(x^*)} \langle v, d \rangle \geq 0 max v ∈ ∂ f ( x ∗ ) ⟨ v , d ⟩ ≥ 0 对所有 d d d 成立,即 0 ∈ ∂ f ( x ∗ ) 0 \in \partial f(x^*) 0 ∈ ∂ f ( x ∗ ) 。这就是凸函数最优性条件的次微分形式。
2.5.5 凸性判定的补充工具:上镜图# 在讨论指示函数的次微分之前,需要引入上镜图这一判定凸性的工具。
广义实值函数。 在凸分析中,通常将函数的值域从 R \mathbb{R} R 扩展到 R ∪ { + ∞ } \mathbb{R} \cup \{+\infty\} R ∪ { + ∞ } ,称为广义实值函数。这使得指示函数等取值为 + ∞ +\infty + ∞ 的函数也纳入统一框架。
上镜图。 设 f f f 是广义实值函数,f f f 的上镜图 (epigraph)定义为
epi f : = { ( x , w ) ∈ R n + 1 ∣ f ( x ) ≤ w , x ∈ dom f } \text{epi}\,f := \{(x, w) \in \mathbb{R}^{n+1} \mid f(x) \leq w,\; x \in \text{dom}\,f\} epi f := {( x , w ) ∈ R n + 1 ∣ f ( x ) ≤ w , x ∈ dom f } 几何上,上镜图是函数图像上方(含图像本身)的区域。f f f 是凸函数当且仅当 epi f \text{epi}\,f epi f 是凸集。结合第一章中的一阶/二阶条件和限制在直线上的方法,这提供了判定凸函数的第三种等价途径。
此外,f f f 是闭函数(closed function)当且仅当 epi f \text{epi}\,f epi f 是闭集,这等价于 f f f 是下半连续函数(lower semi-continuous):若 x k → x x^k \to x x k → x ,则 f ( x ) ≤ lim inf k → ∞ f ( x k ) f(x) \leq \liminf_{k \to \infty} f(x^k) f ( x ) ≤ lim inf k → ∞ f ( x k ) 。
为与上镜图区分,函数 f f f 的图 (graph)定义为 gph f : = { ( x , f ( x ) ) ∣ x ∈ dom f } \text{gph}\,f := \{(x, f(x)) \mid x \in \text{dom}\,f\} gph f := {( x , f ( x )) ∣ x ∈ dom f } ,即仅包含曲线(曲面)本身上的点。
2.5.6 非凸函数的次微分为空集# 次微分的定义依赖于凸函数的一阶条件。若 f f f 不是凸函数,则次微分可能为空集。例如分段函数
f ( x ) = { 0 , x < 0 x , 0 ≤ x ≤ 1 1 , x > 1 f(x) = \begin{cases} 0, & x < 0 \\ x, & 0 \leq x \leq 1 \\ 1, & x > 1 \end{cases} f ( x ) = ⎩ ⎨ ⎧ 0 , x , 1 , x < 0 0 ≤ x ≤ 1 x > 1 其上镜图不是凸集(取两端的点连线会穿出上镜图),因此 f f f 不是凸函数。在不可微点处 ∂ f ( 0 ) = ∅ \partial f(0) = \emptyset ∂ f ( 0 ) = ∅ ,∂ f ( 1 ) = ∅ \partial f(1) = \emptyset ∂ f ( 1 ) = ∅ 。
次微分是为凸函数设计的工具。对非凸函数,次微分定义中的不等式无法被任何向量满足。非凸情形需要 Clarke 次微分等其他工具,不在本章讨论范围内。
2.5.7 指示函数的次微分与法锥# 指示函数是凸优化中将约束吸收进目标函数的核心工具。设 Ω ⊆ R n \Omega \subseteq \mathbb{R}^n Ω ⊆ R n 是闭凸集,指示函数定义为
ι Ω ( x ) = { 0 , x ∈ Ω + ∞ , x ∉ Ω \iota_\Omega(x) = \begin{cases} 0, & x \in \Omega \\ +\infty, & x \notin \Omega \end{cases} ι Ω ( x ) = { 0 , + ∞ , x ∈ Ω x ∈ / Ω 其上镜图 epi ι Ω = Ω × [ 0 , + ∞ ) \text{epi}\,\iota_\Omega = \Omega \times [0, +\infty) epi ι Ω = Ω × [ 0 , + ∞ ) 是两个凸集的笛卡尔积,因此是凸集,从而 ι Ω \iota_\Omega ι Ω 是凸函数。
次微分的推导。 根据次微分定义,v ∈ ∂ ι Ω ( x ) v \in \partial \iota_\Omega(x) v ∈ ∂ ι Ω ( x ) 要求对任意 y y y :ι Ω ( y ) ≥ ι Ω ( x ) + ⟨ v , y − x ⟩ \iota_\Omega(y) \geq \iota_\Omega(x) + \langle v, y - x \rangle ι Ω ( y ) ≥ ι Ω ( x ) + ⟨ v , y − x ⟩ 。
当 x ∉ Ω x \notin \Omega x ∈ / Ω 时,ι Ω ( x ) = + ∞ \iota_\Omega(x) = +\infty ι Ω ( x ) = + ∞ ,对 y ∈ Ω y \in \Omega y ∈ Ω 有 0 ≥ + ∞ + ⟨ v , y − x ⟩ 0 \geq +\infty + \langle v, y - x \rangle 0 ≥ + ∞ + ⟨ v , y − x ⟩ ,矛盾,故 ∂ ι Ω ( x ) = ∅ \partial \iota_\Omega(x) = \emptyset ∂ ι Ω ( x ) = ∅ 。
当 x ∈ Ω x \in \Omega x ∈ Ω 时,ι Ω ( x ) = 0 \iota_\Omega(x) = 0 ι Ω ( x ) = 0 ,条件化为:对任意 y ∈ Ω y \in \Omega y ∈ Ω ,⟨ v , y − x ⟩ ≤ 0 \langle v, y - x \rangle \leq 0 ⟨ v , y − x ⟩ ≤ 0 (y ∉ Ω y \notin \Omega y ∈ / Ω 时条件自动满足)。进一步分两种情况:
若 x ∈ int Ω x \in \text{int}\,\Omega x ∈ int Ω (内点),则 y − x y - x y − x 可指向任意方向,要使 ⟨ v , y − x ⟩ ≤ 0 \langle v, y - x \rangle \leq 0 ⟨ v , y − x ⟩ ≤ 0 对所有方向成立,只能 v = 0 v = \mathbf{0} v = 0 。故 ∂ ι Ω ( x ) = { 0 } \partial \iota_\Omega(x) = \{\mathbf{0}\} ∂ ι Ω ( x ) = { 0 } 。
若 x ∈ bd Ω x \in \text{bd}\,\Omega x ∈ bd Ω (边界点),则 y − x y - x y − x 的方向受到限制,v v v 不必为零,但必须与所有可行方向的夹角不小于 90 度。满足此条件的 v v v 构成法锥 。
2.5.8 法锥# 设 Ω ⊆ R n \Omega \subseteq \mathbb{R}^n Ω ⊆ R n ,Ω \Omega Ω 在 x x x 处的法锥 (normal cone)定义为
N Ω ( x ) : = { d ∈ R n ∣ ⟨ d , y − x ⟩ ≤ 0 , ∀ y ∈ Ω } N_\Omega(x) := \{d \in \mathbb{R}^n \mid \langle d, y - x \rangle \leq 0,\; \forall\, y \in \Omega\} N Ω ( x ) := { d ∈ R n ∣ ⟨ d , y − x ⟩ ≤ 0 , ∀ y ∈ Ω } 法锥中的向量 d d d 与从 x x x 出发指向 Ω \Omega Ω 内部的所有方向的夹角均不小于 90 度。几何上,以二维闭凸集 Ω \Omega Ω 为例,取边界点 x x x ,所有可行方向 y − x y - x y − x 在极端情况下形成两条”切线方向”,对这两条切线方向分别作垂线,垂线之间朝向 Ω \Omega Ω 外侧的锥形区域就是法锥 N Ω ( x ) N_\Omega(x) N Ω ( x ) 。
以下三个例子展示法锥在常见凸集上的具体形式。
非负正象限 Ω = R + n \Omega = \mathbb{R}_+^n Ω = R + n 。 对内点 x x x (所有分量 x i > 0 x_i > 0 x i > 0 ),y − x y - x y − x 可指向任意方向(邻域内仍在 Ω \Omega Ω 内),故 N Ω ( x ) = { 0 } N_\Omega(x) = \{\mathbf{0}\} N Ω ( x ) = { 0 } 。对边界点 x x x (存在分量 x i = 0 x_i = 0 x i = 0 ),设 I 0 = { i ∣ x i = 0 } I_0 = \{i \mid x_i = 0\} I 0 = { i ∣ x i = 0 } 为零分量的下标集。法锥条件 ⟨ d , y − x ⟩ ≤ 0 \langle d, y - x\rangle \leq 0 ⟨ d , y − x ⟩ ≤ 0 对所有 y ≥ 0 y \geq 0 y ≥ 0 成立,要求 d i ≤ 0 d_i \leq 0 d i ≤ 0 (i ∈ I 0 i \in I_0 i ∈ I 0 )且 d i = 0 d_i = 0 d i = 0 (i ∉ I 0 i \notin I_0 i ∈ / I 0 )。即法锥的向量仅在零分量方向上取非正值:N Ω ( x ) = { d ∣ d i ≤ 0 if x i = 0 , d i = 0 if x i > 0 } N_\Omega(x) = \{d \mid d_i \leq 0\text{ if }x_i = 0,\; d_i = 0\text{ if }x_i > 0\} N Ω ( x ) = { d ∣ d i ≤ 0 if x i = 0 , d i = 0 if x i > 0 } 。
闭球 Ω = { x ∣ ∥ x ∥ ≤ r } \Omega = \{x \mid \|x\| \leq r\} Ω = { x ∣ ∥ x ∥ ≤ r } 。 对内点 ∥ x ∥ < r \|x\| < r ∥ x ∥ < r ,同理 N Ω ( x ) = { 0 } N_\Omega(x) = \{\mathbf{0}\} N Ω ( x ) = { 0 } 。对球面上的点 ∥ x ∥ = r \|x\| = r ∥ x ∥ = r ,法锥条件要求 ⟨ d , y − x ⟩ ≤ 0 \langle d, y - x\rangle \leq 0 ⟨ d , y − x ⟩ ≤ 0 对所有 ∥ y ∥ ≤ r \|y\| \leq r ∥ y ∥ ≤ r 成立。取 y = x − ϵ d / ∥ d ∥ y = x - \epsilon d/\|d\| y = x − ϵ d /∥ d ∥ (ϵ \epsilon ϵ 足够小时 y ∈ Ω y \in \Omega y ∈ Ω ),可以验证 d d d 必须沿 x x x 的径向外侧,即 N Ω ( x ) = { λ x ∣ λ ≥ 0 } N_\Omega(x) = \{\lambda x \mid \lambda \geq 0\} N Ω ( x ) = { λ x ∣ λ ≥ 0 } ——从球心指向 x x x 方向的射线。
半空间 Ω = { x ∣ a ⊤ x ≤ b } \Omega = \{x \mid a^\top x \leq b\} Ω = { x ∣ a ⊤ x ≤ b } 。 对内点 a ⊤ x < b a^\top x < b a ⊤ x < b ,N Ω ( x ) = { 0 } N_\Omega(x) = \{\mathbf{0}\} N Ω ( x ) = { 0 } 。对边界 a ⊤ x = b a^\top x = b a ⊤ x = b 上的点,可行方向满足 a ⊤ ( y − x ) ≤ 0 a^\top(y - x) \leq 0 a ⊤ ( y − x ) ≤ 0 ,法锥条件要求 d d d 与所有这些方向的内积非正,由此得 N Ω ( x ) = { λ a ∣ λ ≥ 0 } N_\Omega(x) = \{\lambda a \mid \lambda \geq 0\} N Ω ( x ) = { λa ∣ λ ≥ 0 } ——沿法向量 a a a 方向的射线。
指示函数次微分的统一表示。 综合以上分析:
∂ ι Ω ( x ) = { N Ω ( x ) , x ∈ Ω ∅ , x ∉ Ω \partial \iota_\Omega(x) = \begin{cases} N_\Omega(x), & x \in \Omega \\ \emptyset, & x \notin \Omega \end{cases} ∂ ι Ω ( x ) = { N Ω ( x ) , ∅ , x ∈ Ω x ∈ / Ω 其中 x ∈ int Ω x \in \text{int}\,\Omega x ∈ int Ω 时 N Ω ( x ) = { 0 } N_\Omega(x) = \{\mathbf{0}\} N Ω ( x ) = { 0 } ,x ∈ bd Ω x \in \text{bd}\,\Omega x ∈ bd Ω 时 N Ω ( x ) N_\Omega(x) N Ω ( x ) 是非平凡的锥。
指示函数的次微分等于法锥,这一结论将约束优化中的可行域几何信息编码进了次微分。在第五章邻近算子和第六章 ADMM 的分析中,这个等式是基础工具。
2.5.9 次梯度的单调性# 凸函数的次梯度具有一种类似于梯度的单调性。设 f f f 是凸函数,x , y ∈ dom f x, y \in \text{dom}\,f x , y ∈ dom f ,u ∈ ∂ f ( x ) u \in \partial f(x) u ∈ ∂ f ( x ) ,v ∈ ∂ f ( y ) v \in \partial f(y) v ∈ ∂ f ( y ) ,则
⟨ u − v , x − y ⟩ ≥ 0 \langle u - v, x - y \rangle \geq 0 ⟨ u − v , x − y ⟩ ≥ 0 证明只需将次梯度定义中的两个不等式 f ( y ) ≥ f ( x ) + ⟨ u , y − x ⟩ f(y) \geq f(x) + \langle u, y - x \rangle f ( y ) ≥ f ( x ) + ⟨ u , y − x ⟩ 和 f ( x ) ≥ f ( y ) + ⟨ v , x − y ⟩ f(x) \geq f(y) + \langle v, x - y \rangle f ( x ) ≥ f ( y ) + ⟨ v , x − y ⟩ 相加即得。
这个性质说明次微分算子 ∂ f \partial f ∂ f 是单调算子 :输入的增量方向与输出的增量方向之间的夹角不超过 90 度。单调性在次梯度算法的收敛性分析中起到关键作用,同时也是第 2.6 节中极大单调算子理论的起点。