第二章:算子理论与不动点

10444 字
52 分钟
第二章:算子理论与不动点
文章摘要

五类映射的层次结构、不动点迭代的四步收敛范式、均值算子与 KM 定理、投影算子的稳定非扩张性、次微分与法锥。

在第一章中,我们建立了凸集、凸函数、最优性条件等基础理论。从本章开始,我们将目光转向优化算法的设计与收敛性分析所依赖的核心数学工具——算子理论。

现代优化算法的设计思路可以概括为:将优化问题转化为某个算子的不动点方程 x=T(x)x = T(x),然后通过不动点迭代 xk+1=T(xk)x^{k+1} = T(x^k) 逐步逼近最优解。这一范式的成败,取决于算子 TT 具备何种性质。若 TT 的”收缩能力”太弱(如仅满足非扩张性),迭代序列可能无法收敛;若”收缩能力”恰到好处(如满足稳定非扩张性),则可以通过一套标准化的四步证明流程建立收敛性。因此,理解各类映射的层次关系及其蕴含的收敛性保证,是掌握后续所有算法的前提。

本章的组织逻辑如下:首先建立映射的分类体系,理清 Lipschitz 连续、压缩、非扩张、稳定非扩张、余强制五类映射之间的蕴含关系(第 2.1 节);然后发展不动点理论,给出不同映射条件下的收敛性结论,重点展示稳定非扩张映射的四步标准证明范式(第 2.2 节);接着引入均值算子,说明如何将非扩张算子”升级”为具有更好收敛性的算子,并证明 Krasnosel’skii-Mann 定理(第 2.3 节);随后证明投影算子满足稳定非扩张性,从而为第四章投影梯度法的收敛性分析提供理论基础(第 2.4 节);再引入次微分与法锥,将梯度概念推广到不可微的凸函数,并给出次微分的运算规则和与方向导数的关系,为第五章的邻近算法做准备(第 2.5 节);最后揭示优化问题如何通过零包含问题转化为不动点迭代,建立预解算子与邻近算子之间的联系,将本章的抽象理论与后续章节的具体算法联系起来(第 2.6 节)。

2.1 映射的基本类型与层次结构#

优化算法的收敛性分析中反复出现一类核心问题:算子 TT 将两个点 x,yx, y 分别映射为 Tx,TyTx, Ty 后,像之间的距离 TxTy\|Tx - Ty\| 与原像之间的距离 xy\|x - y\| 是什么关系?根据对这一关系施加的约束强弱,我们定义以下五种映射。

2.1.1 五种映射的定义#

设映射 T:RnRnT: \mathbb{R}^n \to \mathbb{R}^n

Lipschitz 连续映射。 若存在常数 L>0L > 0 使得

TxTyLxy,x,yRn\|Tx - Ty\| \leq L\|x - y\|, \quad \forall\, x, y \in \mathbb{R}^n

则称 TT 是 Lipschitz 连续的,LL 称为 Lipschitz 常数。映射的输出变化被输入变化的 LL 倍所控制。

Lipschitz 连续性在优化中最常见的体现是梯度算子。设 ff 是可微凸函数且 2f(x)LI\nabla^2 f(x) \preceq LI(Hessian 矩阵的特征值不超过 LL),则梯度映射 T=fT = \nabla f 满足 f(x)f(y)Lxy\|\nabla f(x) - \nabla f(y)\| \leq L\|x - y\|,即 f\nabla f 是 Lipschitz 常数为 LL 的 Lipschitz 连续映射。这个条件在第三章梯度下降法的步长选取中起到关键作用:步长 η\eta 必须满足 η1/L\eta \leq 1/L 才能保证收敛,LL 越大意味着梯度变化越剧烈,允许的步长越小。

压缩映射。 若存在常数 c(0,1)c \in (0, 1) 使得

TxTycxy,x,yRn\|Tx - Ty\| \leq c\|x - y\|, \quad \forall\, x, y \in \mathbb{R}^n

则称 TT 是压缩映射(contraction)。这是 Lipschitz 常数严格小于 1 的特殊情形,意味着 TT 会严格缩短任意两点之间的距离。

非扩张映射。

TxTyxy,x,yRn\|Tx - Ty\| \leq \|x - y\|, \quad \forall\, x, y \in \mathbb{R}^n

则称 TT 是非扩张映射(nonexpansive),即映射不增加两点间的距离,对应 Lipschitz 常数 L=1L = 1

稳定非扩张映射。

TxTy2xy,TxTy,x,yRn\|Tx - Ty\|^2 \leq \langle x - y,\, Tx - Ty \rangle, \quad \forall\, x, y \in \mathbb{R}^n

则称 TT 是稳定非扩张映射(firmly nonexpansive)。这一条件比非扩张性更强,其额外约束可以从内积的几何含义来理解。非扩张性只控制模长:TxTyxy\|Tx-Ty\| \leq \|x-y\|,即输出的位移不比输入的位移更长。稳定非扩张性进一步控制方向:右端的内积 xy,TxTy=xyTxTycosθ\langle x-y, Tx-Ty\rangle = \|x-y\|\cdot\|Tx-Ty\|\cos\thetaθ\thetaxyx-yTxTyTx-Ty 之间的夹角),因此定义式等价于 TxTyxycosθ\|Tx-Ty\| \leq \|x-y\|\cos\theta,即输出位移 TxTyTx-Ty 的方向必须与输入位移 xyx-y 的方向足够一致(cosθ\cos\theta 接近 1),否则 TxTy\|Tx-Ty\| 必须更小来补偿。换言之,稳定非扩张性排除了”保持距离但大幅改变方向”的行为——而这种旋转型行为恰恰是导致非扩张映射不动点迭代不收敛的根源(第 2.2.3 节将给出具体反例)。

稳定非扩张映射在优化中有一个非常重要的例子——闭凸集上的投影算子。第 2.4 节将证明投影算子 PΩP_\Omega 满足稳定非扩张性。直觉上,投影操作不仅不会增大两点之间的距离,而且投影后的位移方向与原始位移方向始终保持一定的一致性(因为投影总是朝着凸集”靠拢”,不会出现反向偏移的情况)。

余强制映射。 若存在常数 δ>0\delta > 0 使得

δTxTy2xy,TxTy,x,yRn\delta\,\|Tx - Ty\|^2 \leq \langle x - y,\, Tx - Ty \rangle, \quad \forall\, x, y \in \mathbb{R}^n

则称 TT 是余强制映射(cocoercive),δ\delta 称为余强制系数。当 δ=1\delta = 1 时,余强制退化为稳定非扩张。

余强制性在优化中的典型体现是光滑强凸函数的梯度。若 ffLL-光滑凸函数(f\nabla f 的 Lipschitz 常数为 LL),则 f\nabla f1/L1/L-余强制的,即 f(x)f(y),xy1Lf(x)f(y)2\langle \nabla f(x) - \nabla f(y), x - y \rangle \geq \frac{1}{L}\|\nabla f(x) - \nabla f(y)\|^2。这个性质称为 Baillon-Haddad 定理,它直接说明了梯度算子的收缩能力与函数光滑度之间的关系。

2.1.2 映射间的蕴含关系#

五种映射之间存在如下蕴含链:

压缩    非扩张    Lipschitz 连续\text{压缩} \;\Rightarrow\; \text{非扩张} \;\Rightarrow\; \text{Lipschitz 连续}
稳定非扩张    非扩张    Lipschitz 连续\text{稳定非扩张} \;\Rightarrow\; \text{非扩张} \;\Rightarrow\; \text{Lipschitz 连续}
稳定非扩张    余强制    Lipschitz 连续\text{稳定非扩张} \;\Rightarrow\; \text{余强制} \;\Rightarrow\; \text{Lipschitz 连续}

前两条蕴含是直接的(令 c1c \leq 1L=1L = 1)。后面的蕴含需要证明。

稳定非扩张 \Rightarrow 非扩张。 对稳定非扩张的定义式右端应用 Cauchy-Schwarz 不等式:

TxTy2xy,TxTyxyTxTy\|Tx - Ty\|^2 \leq \langle x - y,\, Tx - Ty \rangle \leq \|x - y\| \cdot \|Tx - Ty\|

TxTy=0\|Tx - Ty\| = 0 则结论显然成立。否则两边除以 TxTy\|Tx - Ty\|,得 TxTyxy\|Tx - Ty\| \leq \|x - y\|,即非扩张性。

余强制 \Rightarrow Lipschitz 连续。 类似地,对余强制定义式右端应用 Cauchy-Schwarz 不等式:

δTxTy2xy,TxTyxyTxTy\delta\|Tx - Ty\|^2 \leq \langle x - y,\, Tx - Ty \rangle \leq \|x - y\| \cdot \|Tx - Ty\|

两边除以 TxTy\|Tx - Ty\|(非零时),得 TxTy1δxy\|Tx - Ty\| \leq \frac{1}{\delta}\|x - y\|,即 Lipschitz 常数 L=1/δL = 1/\delta

这些蕴含关系的实际意义在于:越强的映射条件给出越好的收敛性保证。我们将在下一节看到,压缩映射保证线性收敛,非扩张映射只能保证有界性,而稳定非扩张映射恰好处在能证明收敛的”甜蜜点”上。学习这些映射类型不是为了分类学本身,而是因为后续每一章的算法收敛性证明都需要判断迭代算子属于哪一类映射,从而决定能够得到什么样的收敛性结论。

2.2 不动点理论与收敛性分析#

有了映射的分类体系后,我们转向核心问题:将优化问题的求解归结为不动点方程的求解,并分析在不同映射条件下不动点迭代的收敛行为。

2.2.1 不动点方程与不动点迭代#

设映射 T:RnRnT: \mathbb{R}^n \to \mathbb{R}^n。若 x=T(x)x^* = T(x^*),则称 xx^*TT不动点x=T(x)x = T(x) 称为不动点方程。求解不动点方程的最自然方法是不动点迭代:从初始点 x0x^0 出发,按

xk+1=T(xk)x^{k+1} = T(x^k)

逐步更新。若序列 {xk}\{x^k\} 收敛到某个极限 xx^*,则对迭代公式两边取极限即得 x=T(x)x^* = T(x^*),说明极限点就是不动点。

核心问题随之浮现:映射 TT 需要满足什么条件,不动点迭代才能收敛?

2.2.2 压缩映射下的收敛性#

TT 是压缩映射(TxTycxy\|Tx - Ty\| \leq c\|x - y\|c(0,1)c \in (0,1))时,收敛性证明最为直接。设 xx^* 是不动点,则

xkx=T(xk1)T(x)cxk1xckx0x\|x^k - x^*\| = \|T(x^{k-1}) - T(x^*)\| \leq c\|x^{k-1} - x^*\| \leq \cdots \leq c^k\|x^0 - x^*\|

kk \to \infty 时,ck0c^k \to 0,由夹逼准则得 xkx0\|x^k - x^*\| \to 0。这是 R-线性收敛,收敛率为 cc

压缩映射条件虽然很强,但使用简便——只需递推即可证明收敛。

2.2.3 非扩张映射下的困难#

TT 仅满足非扩张性(TxTyxy\|Tx - Ty\| \leq \|x - y\|)时,类似的递推只能给出

xkx=T(xk1)T(x)xk1xx0x\|x^k - x^*\| = \|T(x^{k-1}) - T(x^*)\| \leq \|x^{k-1} - x^*\| \leq \cdots \leq \|x^0 - x^*\|

这说明序列 {xk}\{x^k\} 有界(xkx\|x^k - x^*\| 单调不增),但无法证明 xkx0\|x^k - x^*\| \to 0。非扩张条件太弱,不足以保证收敛。

旋转映射的反例。 考虑二维平面上的 90 度旋转映射 T(x1,x2)=(x2,x1)T(x_1, x_2) = (-x_2, x_1)。首先验证 TT 是非扩张的:Tx2=x22+x12=x2\|Tx\|^2 = x_2^2 + x_1^2 = \|x\|^2,即 TT 保持距离(实际上是等距映射),因此 TxTy=T(xy)=xy\|Tx - Ty\| = \|T(x-y)\| = \|x-y\|,非扩张性成立。TT 的唯一不动点是原点 x=(0,0)x^* = (0,0)。然而,从 x0=(1,0)x^0 = (1, 0) 出发的迭代序列为

(1,0)(0,1)(1,0)(0,1)(1,0)(1, 0) \to (0, 1) \to (-1, 0) \to (0, -1) \to (1, 0) \to \cdots

序列以周期 4 振荡,始终停留在单位圆上,不收敛到原点。这个反例精确地展示了非扩张映射不收敛的机制:旋转保持了距离(xkx=1\|x^k - x^*\| = 1 恒成立),但不断改变方向,导致迭代点在不动点周围”绕圈”而无法靠近。这也解释了第 2.1 节中稳定非扩张性的”方向一致性”要求为何必要——它正是为了排除这种旋转型行为。

2.2.4 稳定非扩张映射下的收敛性:四步标准范式#

稳定非扩张映射(TxTy2xy,TxTy\|Tx - Ty\|^2 \leq \langle x - y, Tx - Ty \rangle)的强度介于压缩和非扩张之间,恰好能够证明收敛。这里的证明过程分为四步,构成了优化理论中收敛性证明的标准范式——后续章节中几乎所有算法的收敛性分析都遵循同一框架。

第一步:建立 Fejér 单调性。 目标是证明

xk+1x2xkx2xk+1xk2\|x^{k+1} - x^*\|^2 \leq \|x^k - x^*\|^2 - \|x^{k+1} - x^k\|^2

即每步迭代后,到不动点的距离严格下降,且下降量至少为步长的平方。

xk+1=Txkx^{k+1} = Tx^kx=Txx^* = Tx^*(不动点条件),有 xk+1x=TxkTxx^{k+1} - x^* = Tx^k - Tx^*。将其拆分为

xk+1x=(xk+1xk)+(xkx)x^{k+1} - x^* = (x^{k+1} - x^k) + (x^k - x^*)

展开范数平方:

xk+1x2=xk+1xk2+xkx2+2xk+1xk,xkx()\|x^{k+1} - x^*\|^2 = \|x^{k+1} - x^k\|^2 + \|x^k - x^*\|^2 + 2\langle x^{k+1} - x^k,\, x^k - x^*\rangle \tag{$\dagger$}

现在处理交叉项。对 xkxx^k - x^* 进行加减 xk+1x^{k+1}

xk+1xk,xkx=xk+1xk,xkxk+1+xk+1x\langle x^{k+1} - x^k,\, x^k - x^*\rangle = \langle x^{k+1} - x^k,\, x^k - x^{k+1} + x^{k+1} - x^*\rangle
=xk+1xk2+xk+1xk,xk+1x= -\|x^{k+1} - x^k\|^2 + \langle x^{k+1} - x^k,\, x^{k+1} - x^*\rangle

代入 xk+1xk=Txkxkx^{k+1} - x^k = Tx^k - x^kxk+1x=TxkTxx^{k+1} - x^* = Tx^k - Tx^*

=xk+1xk2+Txkxk,TxkTx= -\|x^{k+1} - x^k\|^2 + \langle Tx^k - x^k,\, Tx^k - Tx^*\rangle

下面对内积项 Txkxk,TxkTx\langle Tx^k - x^k,\, Tx^k - Tx^*\rangle 利用稳定非扩张性进行放缩。将 TxkxkTx^k - x^k 改写为 (TxkTx)(xkTx)(Tx^k - Tx^*) - (x^k - Tx^*)

Txkxk,TxkTx=TxkTx2xkTx,TxkTx\langle Tx^k - x^k,\, Tx^k - Tx^*\rangle = \|Tx^k - Tx^*\|^2 - \langle x^k - Tx^*,\, Tx^k - Tx^*\rangle

由稳定非扩张性 TxkTx2xkx,TxkTx\|Tx^k - Tx^*\|^2 \leq \langle x^k - x^*,\, Tx^k - Tx^*\rangle,将右端改写为

xkx,TxkTx=xkTx,TxkTx\langle x^k - x^*,\, Tx^k - Tx^*\rangle = \langle x^k - Tx^*,\, Tx^k - Tx^*\rangle

(利用 x=Txx^* = Tx^*),于是稳定非扩张性给出 TxkTx2xkTx,TxkTx\|Tx^k - Tx^*\|^2 \leq \langle x^k - Tx^*,\, Tx^k - Tx^*\rangle。代入上式:

Txkxk,TxkTx=TxkTx2xkTx,TxkTx0\langle Tx^k - x^k,\, Tx^k - Tx^*\rangle = \|Tx^k - Tx^*\|^2 - \langle x^k - Tx^*,\, Tx^k - Tx^*\rangle \leq 0

因此交叉项满足

xk+1xk,xkxxk+1xk2\langle x^{k+1} - x^k,\, x^k - x^*\rangle \leq -\|x^{k+1} - x^k\|^2

代入 ()(\dagger) 式:

xk+1x2xk+1xk2+xkx2+2(xk+1xk2)=xkx2xk+1xk2\|x^{k+1} - x^*\|^2 \leq \|x^{k+1} - x^k\|^2 + \|x^k - x^*\|^2 + 2(-\|x^{k+1} - x^k\|^2) = \|x^k - x^*\|^2 - \|x^{k+1} - x^k\|^2

Fejér 单调性得证。

满足 xk+1x2xkx2\|x^{k+1} - x^*\|^2 \leq \|x^k - x^*\|^2 的序列称为关于 xx^*Fejér 单调序列。Fejér 单调性是优化收敛性证明的核心中间结论:在研究论文中,证明的前半部分通常致力于建立 Fejér 单调性,后半部分则沿着下述标准化流程推进。

这一步是四步框架中最关键也最困难的一步。对于不同的算法,Fejér 单调性的具体形式和推导细节各不相同(下降量可能是 xk+1xk2\|x^{k+1} - x^k\|^2,也可能是 xkNxk2\|x^k - Nx^k\|^2 或其他量),但总体思路一致:通过算子的结构性质,从迭代的递推关系中挤出一个严格正的下降项。

第二步:证明相邻迭代差趋于零。 由 Fejér 单调性移项得

xk+1xk2xkx2xk+1x2\|x^{k+1} - x^k\|^2 \leq \|x^k - x^*\|^2 - \|x^{k+1} - x^*\|^2

k=0,1,,Kk = 0, 1, \ldots, K 累加,右端形成 telescoping sum(逐项相消):

k=0Kxk+1xk2x0x2xK+1x2x0x2<\sum_{k=0}^{K}\|x^{k+1} - x^k\|^2 \leq \|x^0 - x^*\|^2 - \|x^{K+1} - x^*\|^2 \leq \|x^0 - x^*\|^2 < \infty

KK \to \infty,级数收敛。由级数收敛的必要条件,通项趋于零:xk+1xk0\|x^{k+1} - x^k\| \to 0

这一步的核心技巧是 telescoping sum:对 Fejér 单调性不等式从 k=0k=0KK 求和后,右端大量项逐对相消,只剩下首尾两项之差。这一技巧之所以有效,是因为 Fejér 单调性保证了 xkx2\|x^k - x^*\|^2 单调递减,从而求和的右端被初始距离 x0x2\|x^0 - x^*\|^2 所控制。级数 k=0xk+1xk2\sum_{k=0}^{\infty} \|x^{k+1} - x^k\|^2 的收敛意味着每一步的移动量终将趋于零,但尚不能说明序列收敛到何处。

第三步:证明子列收敛到不动点。 Fejér 单调性保证 xkx\|x^k - x^*\| 单调递减且有下界(0\geq 0),故收敛(但尚不知收敛到什么值)。由三角不等式 xkxkx+x\|x^k\| \leq \|x^k - x^*\| + \|x^*\|,序列 {xk}\{x^k\} 有界。由 Bolzano-Weierstrass 定理,有界序列必有收敛子列 xkjxx^{k_j} \to x_\infty

这里用到 Bolzano-Weierstrass 定理的原因是:我们只知道 {xk}\{x^k\} 有界,还不知道它是否收敛。Bolzano-Weierstrass 定理保证有界序列至少有一个聚点,我们先证明这个聚点是不动点,然后再证明它是唯一的聚点。

利用第二步的结论 xk+1xk0\|x^{k+1} - x^k\| \to 0 和三角不等式,可得 xkj+1xx^{k_j+1} \to x_\infty。对迭代公式 xkj+1=T(xkj)x^{k_j+1} = T(x^{k_j}) 取极限,得 x=T(x)x_\infty = T(x_\infty),即 xx_\infty 是不动点。

第四步:证明全序列收敛。 由第二步知 xkx\|x^k - x^*\| 收敛到某值 aa。取 x=xx^* = x_\infty(第三步已证 xx_\infty 是不动点),有 xkjx0\|x^{k_j} - x_\infty\| \to 0,说明 a=0a = 0。由收敛数列的性质——若存在趋于 0 的子列,则全序列趋于 0——得 xkx0\|x^k - x_\infty\| \to 0,即 xkxFix(T)x^k \to x_\infty \in \text{Fix}(T)

最后这一步利用了实数列的一个基本性质:单调有界数列收敛,且若其某个子列收敛到 00,则全序列收敛到 00{xkx}\{\|x^k - x_\infty\|\} 恰好满足这两个条件——它单调不增(Fejér 单调性),且存在趋于 00 的子列(xkjx0\|x^{k_j} - x_\infty\| \to 0)。

这四步证明框架——Fejér 单调性、telescoping 求和、子列收敛、全序列收敛——将在第三章梯度下降法、第四章投影梯度法、第五章邻近算法的收敛性分析中反复出现。

2.3 均值算子与 Krasnosel’skii-Mann 迭代#

上一节表明,非扩张映射的不动点迭代不一定收敛,而稳定非扩张映射的不动点迭代可以收敛。一个自然的问题是:能否将非扩张算子”改造”成性质更好的算子,使得不动点迭代仍然收敛?均值算子正是回答这一问题的工具。

2.3.1 均值算子的定义#

NN 是一个非扩张算子,II 是恒等映射,α(0,1)\alpha \in (0, 1)。定义算子

T=(1α)I+αNT = (1 - \alpha) I + \alpha N

这样的 TT 称为均值算子(averaged operator)。直觉上,TT 是恒等映射与非扩张算子 NN 的凸组合,以系数 α\alpha 控制两者的混合比例。均值算子有两条核心性质:

  1. TT 是非扩张的;进一步,当 α=1/2\alpha = 1/2 时,TT 是稳定非扩张的。
  2. Krasnosel’skii-Mann 定理(KM 定理):不动点迭代 xk+1=Txkx^{k+1} = Tx^k 产生的序列 {xk}\{x^k\} 收敛到不动点。

在展开证明之前,先建立一个贯穿全局的代数工具。

2.3.2 凸组合范数展开等式#

引理。a+b=1a + b = 1a,b[0,1]a, b \in [0, 1],则对任意 x,yx, y

ax+by2=ax2+by2abxy2\|ax + by\|^2 = a\|x\|^2 + b\|y\|^2 - ab\|x - y\|^2

证明。 在一维情形下验证。将 b=1ab = 1 - a 代入右端:

ax2+(1a)y2a(1a)(xy)2a x^2 + (1-a) y^2 - a(1-a)(x - y)^2

展开 (xy)2=x22xy+y2(x - y)^2 = x^2 - 2xy + y^2

=ax2+(1a)y2a(1a)x2+2a(1a)xya(1a)y2= a x^2 + (1-a) y^2 - a(1-a) x^2 + 2a(1-a)xy - a(1-a) y^2

合并 x2x^2 的系数:aa(1a)=a2a - a(1-a) = a^2;合并 y2y^2 的系数:(1a)a(1a)=(1a)2=b2(1-a) - a(1-a) = (1-a)^2 = b^2。于是

=a2x2+b2y2+2abxy=(ax+by)2= a^2 x^2 + b^2 y^2 + 2ab \cdot xy = (ax + by)^2

一维情形成立后,推广到内积空间同样成立。\blacksquare

这一等式的价值在于:它将凸组合的范数平方表达为各分量范数平方的加权和减去一个”交叉惩罚项” abxy2ab\|x - y\|^2。在后续证明中,这个惩罚项正是产生 Fejér 单调性所需的”下降量”。

2.3.3 均值算子的非扩张性#

目标。 证明 TxTyxy\|Tx - Ty\| \leq \|x - y\|

TT 的定义代入:

TxTy2=(1α)(xy)+α(NxNy)2\|Tx - Ty\|^2 = \|(1-\alpha)(x - y) + \alpha(Nx - Ny)\|^2

这是一个凸组合的范数平方((1α)+α=1(1-\alpha) + \alpha = 1),应用上述引理得

=(1α)xy2+αNxNy2α(1α)(xy)(NxNy)2()= (1-\alpha)\|x - y\|^2 + \alpha\|Nx - Ny\|^2 - \alpha(1-\alpha)\|(x - y) - (Nx - Ny)\|^2 \quad (\star)

()(\star) 的最后一项 α(1α)(xy)(NxNy)20\alpha(1-\alpha)\|(x-y) - (Nx - Ny)\|^2 \geq 0,因此

()(1α)xy2+αNxNy2(\star) \leq (1-\alpha)\|x - y\|^2 + \alpha\|Nx - Ny\|^2

再利用 NN 的非扩张性 NxNyxy\|Nx - Ny\| \leq \|x - y\|,得

(1α)xy2+αxy2=xy2\leq (1-\alpha)\|x - y\|^2 + \alpha\|x - y\|^2 = \|x - y\|^2

因此 TxTy2xy2\|Tx - Ty\|^2 \leq \|x - y\|^2,即 TT 是非扩张的。\blacksquare

2.3.4 α=1/2\alpha = 1/2 时的稳定非扩张性#

目标。α=1/2\alpha = 1/2 时,证明 TxTy2xy,TxTy\|Tx - Ty\|^2 \leq \langle x - y,\, Tx - Ty \rangle

α=1/2\alpha = 1/2,此时 T=12I+12NT = \frac{1}{2}I + \frac{1}{2}N。代入定义展开平方:

TxTy2=12(xy)+12(NxNy)2\|Tx - Ty\|^2 = \left\|\frac{1}{2}(x - y) + \frac{1}{2}(Nx - Ny)\right\|^2

利用 u+v2=u2+v2+2u,v\|u+v\|^2 = \|u\|^2 + \|v\|^2 + 2\langle u, v\rangle 展开并整理:

=14xy2+14NxNy2+12xy,NxNy= \frac{1}{4}\|x - y\|^2 + \frac{1}{4}\|Nx - Ny\|^2 + \frac{1}{2}\langle x - y,\, Nx - Ny \rangle

利用 NN 的非扩张性 NxNy2xy2\|Nx - Ny\|^2 \leq \|x - y\|^2

12xy2+12xy,NxNy\leq \frac{1}{2}\|x-y\|^2 + \frac{1}{2}\langle x-y,\, Nx - Ny\rangle

将右端改写为内积形式:注意 xy2=xy,xy\|x-y\|^2 = \langle x-y, x-y \rangle,因此

12xy2+12xy,NxNy=xy,12(xy)+12(NxNy)=xy,TxTy\frac{1}{2}\|x-y\|^2 + \frac{1}{2}\langle x-y, Nx - Ny\rangle = \left\langle x - y,\, \frac{1}{2}(x-y) + \frac{1}{2}(Nx - Ny) \right\rangle = \langle x - y,\, Tx - Ty \rangle

于是

TxTy2xy,TxTy\|Tx - Ty\|^2 \leq \langle x - y,\, Tx - Ty \rangle

这正是稳定非扩张的定义。\blacksquare

2.3.5 Krasnosel’skii-Mann 定理#

KM 定理。T=(1α)I+αNT = (1-\alpha)I + \alpha N 是均值算子(NN 非扩张,α(0,1)\alpha \in (0,1)),xx^*TT 的不动点,则不动点迭代 xk+1=Txkx^{k+1} = Tx^k 产生的序列收敛到 xx^*

证明的关键第一步是建立 Fejér 单调性。后续步骤(有界性、收敛子列、全序列收敛)与第 2.2.4 节的四步框架完全平行,此处仅详证 Fejér 单调性。

Fejér 单调性的建立。 由不动点迭代 xk+1=Txkx^{k+1} = Tx^kTT 的定义:

xk+1x2=Txkx2=(1α)(xkx)+α(Nxkx)2\|x^{k+1} - x^*\|^2 = \|Tx^k - x^*\|^2 = \|(1-\alpha)(x^k - x^*) + \alpha(Nx^k - x^*)\|^2

应用凸组合范数展开等式:

=(1α)xkx2+αNxkx2α(1α)xkNxk2= (1-\alpha)\|x^k - x^*\|^2 + \alpha\|Nx^k - x^*\|^2 - \alpha(1-\alpha)\|x^k - Nx^k\|^2

这里需要一个关键观察:xx^*TT 的不动点,即 x=(1α)x+αNxx^* = (1-\alpha)x^* + \alpha Nx^*,化简得 αx=αNx\alpha x^* = \alpha Nx^*。由于 α0\alpha \neq 0,所以 x=Nxx^* = Nx^*——TT 的不动点也是 NN 的不动点。于是 Nxkx2=NxkNx2\|Nx^k - x^*\|^2 = \|Nx^k - Nx^*\|^2。利用 NN 的非扩张性:

NxkNx2xkx2\|Nx^k - Nx^*\|^2 \leq \|x^k - x^*\|^2

代入并合并前两项:

xk+1x2xkx2α(1α)xkNxk2\|x^{k+1} - x^*\|^2 \leq \|x^k - x^*\|^2 - \alpha(1-\alpha)\|x^k - Nx^k\|^2

由于 α(0,1)\alpha \in (0,1),有 α(1α)>0\alpha(1-\alpha) > 0,Fejér 单调性成立。\blacksquare

后续步骤。 建立 Fejér 单调性后,完整证明的剩余步骤如下:

  1. 由 Fejér 单调性,{xkx2}\{\|x^k - x^*\|^2\} 单调递减有下界,故收敛。对递推式从 k=0k=0\infty 求和得 k=0α(1α)xkNxk2<\sum_{k=0}^{\infty} \alpha(1-\alpha)\|x^k - Nx^k\|^2 < \infty,从而 xkNxk0\|x^k - Nx^k\| \to 0
  2. xkx\|x^k - x^*\| 有界,{xk}\{x^k\} 有界,存在收敛子列 xkjxx^{k_j} \to x_\infty
  3. xkjxx^{k_j} \to x_\inftyxkjNxkj0\|x^{k_j} - Nx^{k_j}\| \to 0,三角不等式给出 NxkjxNxkjxkj+xkjx0\|Nx^{k_j} - x_\infty\| \leq \|Nx^{k_j} - x^{k_j}\| + \|x^{k_j} - x_\infty\| \to 0,故 NxkjxNx^{k_j} \to x_\infty。另一方面,NN 是非扩张映射,因此是连续的(NxNyxy\|Nx - Ny\| \leq \|x-y\| 直接给出 Lipschitz 连续性),所以 NxkjNxNx^{k_j} \to Nx_\infty。由极限唯一性,Nx=xNx_\infty = x_\infty,即 xx_\inftyNN 的不动点,从而也是 TT 的不动点。
  4. 利用 Fejér 单调性证明整个序列 xkx=xx^k \to x_\infty = x^*

这些步骤与第 2.2.4 节中稳定非扩张映射的证明框架完全一致,仅系数不同,不影响论证结构。KM 定理的意义在于:即使原始算子 NN 仅满足非扩张性(不足以保证收敛),将其与恒等映射做凸组合后得到的均值算子 TT 的不动点迭代仍然收敛。这为算法设计提供了一种通用的”升级”策略。

2.4 投影算子的稳定非扩张性#

前面三节建立了抽象的映射分类和不动点收敛理论。本节将这些理论应用于一个具体而重要的算子——投影算子,证明它满足稳定非扩张性。这一结论直接为第四章投影梯度法的收敛性分析提供理论基础。

2.4.1 投影算子及其钝角性质#

ΩRn\Omega \subseteq \mathbb{R}^n 是一个非空闭凸集。点 xRnx \in \mathbb{R}^nΩ\Omega 上的投影定义为 Ω\Omega 中距 xx 最近的点,记作 PΩ(x)P_\Omega(x)。投影算子有一个核心的钝角性质(第一章已经建立):对任意 zΩz \in \Omega

zPΩ(x),  xPΩ(x)0\langle z - P_\Omega(x),\; x - P_\Omega(x) \rangle \leq 0

几何含义是:向量 zPΩ(x)z - P_\Omega(x)(从投影点指向凸集内任意一点)与向量 xPΩ(x)x - P_\Omega(x)(从投影点指向原始点)之间的夹角不小于 90 度。

2.4.2 稳定非扩张性的证明#

目标。 证明投影算子 PΩP_\Omega 满足稳定非扩张性,即对任意 x,yRnx, y \in \mathbb{R}^n

yx,  PΩ(y)PΩ(x)PΩ(y)PΩ(x)2\langle y - x,\; P_\Omega(y) - P_\Omega(x) \rangle \geq \|P_\Omega(y) - P_\Omega(x)\|^2

第一步:写出两个投影不等式。PΩ(x)P_\Omega(x) 的投影性质,对任意 zΩz \in \Omega

zPΩ(x),  xPΩ(x)0(1)\langle z - P_\Omega(x),\; x - P_\Omega(x) \rangle \leq 0 \tag{1}

同理,由 PΩ(y)P_\Omega(y) 的投影性质:

zPΩ(y),  yPΩ(y)0(2)\langle z - P_\Omega(y),\; y - P_\Omega(y) \rangle \leq 0 \tag{2}

第二步:交叉代入。 由于 PΩ(x),PΩ(y)ΩP_\Omega(x), P_\Omega(y) \in \Omega,可以在式 (1) 中令 z=PΩ(y)z = P_\Omega(y),在式 (2) 中令 z=PΩ(x)z = P_\Omega(x)

PΩ(y)PΩ(x),  xPΩ(x)0(1’)\langle P_\Omega(y) - P_\Omega(x),\; x - P_\Omega(x) \rangle \leq 0 \tag{1'}
PΩ(x)PΩ(y),  yPΩ(y)0(2’)\langle P_\Omega(x) - P_\Omega(y),\; y - P_\Omega(y) \rangle \leq 0 \tag{2'}

第三步:两式相加。(1)(1')(2)(2') 相加。注意第二个内积中 PΩ(x)PΩ(y)=(PΩ(y)PΩ(x))P_\Omega(x) - P_\Omega(y) = -(P_\Omega(y) - P_\Omega(x)),提取公因子 PΩ(y)PΩ(x)P_\Omega(y) - P_\Omega(x)

PΩ(y)PΩ(x),  (xPΩ(x))(yPΩ(y))0\left\langle P_\Omega(y) - P_\Omega(x),\; (x - P_\Omega(x)) - (y - P_\Omega(y)) \right\rangle \leq 0

整理括号内的项:

PΩ(y)PΩ(x),  (xy)+(PΩ(y)PΩ(x))0\left\langle P_\Omega(y) - P_\Omega(x),\; (x - y) + (P_\Omega(y) - P_\Omega(x)) \right\rangle \leq 0

第四步:展开并移项。 利用内积的双线性性展开:

PΩ(y)PΩ(x),  xy+PΩ(y)PΩ(x)20\langle P_\Omega(y) - P_\Omega(x),\; x - y \rangle + \|P_\Omega(y) - P_\Omega(x)\|^2 \leq 0

将第一项移到右边并取负号:

PΩ(y)PΩ(x)2PΩ(y)PΩ(x),  yx=yx,  PΩ(y)PΩ(x)\|P_\Omega(y) - P_\Omega(x)\|^2 \leq \langle P_\Omega(y) - P_\Omega(x),\; y - x \rangle = \langle y - x,\; P_\Omega(y) - P_\Omega(x) \rangle

\blacksquare

证明的关键技巧在于交叉代入:投影的钝角性质对凸集内任意点 zz 成立,而两个投影点 PΩ(x)P_\Omega(x)PΩ(y)P_\Omega(y) 本身就在凸集内,因此可以将一个投影点作为另一个不等式中的 zz,从而将两个独立的投影不等式耦合在一起。

2.4.3 对不动点迭代的意义#

由第 2.2.4 节的一般理论,稳定非扩张算子的不动点迭代 xk+1=T(xk)x^{k+1} = T(x^k) 收敛到不动点。现在取 T=PΩT = P_\Omega,上述证明确认了投影算子是稳定非扩张的,因此投影迭代

xk+1=PΩ(xk)x^{k+1} = P_\Omega(x^k)

收敛到 PΩP_\Omega 的不动点。投影算子的不动点恰好是 Ω\Omega 中的点(对 Ω\Omega 中的点 xx^*,有 PΩ(x)=xP_\Omega(x^*) = x^*)。这一结论为第四章中基于投影的优化算法提供了收敛性的理论基础。

2.5 次微分与法锥#

前几节讨论的映射理论假设算子是处处定义的单值映射。但许多重要的优化问题(例如含 1\ell_1 范数正则化的问题)涉及不可微的目标函数,传统的梯度概念不再适用。次微分是凸分析中对梯度概念的推广,使得不可微的凸函数也能拥有类似”导数”的工具,从而纳入算子理论和不动点迭代的框架。

2.5.1 次梯度与次微分#

f:RnRf: \mathbb{R}^n \to \mathbb{R} 是凸函数。若存在向量 vRnv \in \mathbb{R}^n 使得对任意 yRny \in \mathbb{R}^n 均成立

f(y)f(x)+v,yxf(y) \geq f(x) + \langle v, y - x \rangle

则称 vvffxx 处的一个次梯度(subgradient)。ffxx 处所有次梯度的集合称为 ffxx 处的次微分(subdifferential),记为 f(x)\partial f(x)

将此定义与第一章中凸函数的一阶条件 f(y)f(x)+f(x),yxf(y) \geq f(x) + \langle \nabla f(x), y - x \rangle 对比,可以看出次梯度的定义形式完全一致,只是将梯度 f(x)\nabla f(x) 替换为一般的向量 vv。这正是”次微分是梯度的推广”的含义。

与梯度的关系。ffxx 处可微时,满足上述不等式的 vv 只有一个,即 v=f(x)v = \nabla f(x),此时次微分退化为单点集 f(x)={f(x)}\partial f(x) = \{\nabla f(x)\}。当 ffxx 处不可微时,次微分 f(x)\partial f(x) 通常包含多个元素。

几何解释。 定义仿射函数 g(y)=f(x)+v,yxg(y) = f(x) + \langle v, y - x \rangle。次梯度条件 f(y)g(y)f(y) \geq g(y) 意味着 gg 的图像始终位于 ff 的图像下方(或与之相切),即次梯度对应的仿射函数是 ff 的一个支撑超平面。

次微分的基本性质。 次微分 f(x)\partial f(x) 作为一个集合,具有以下基本性质。对任意 xdomfx \in \text{dom}\,ff(x)\partial f(x) 是闭凸集(可能为空集)。若 xintdomfx \in \text{int}\,\text{dom}\,f(定义域的内点),则 f(x)\partial f(x) 是非空有界集。闭凸性直接从定义得出:两个次梯度的凸组合仍然是次梯度,且次梯度序列的极限仍然是次梯度。有界性的证明需要在 xx 的邻域内取若干方向的函数值来控制次梯度的大小。

2.5.2 绝对值函数的次微分#

考虑 f(x)=xf(x) = |x|。在 x>0x > 0x<0x < 0ff 可微,梯度分别为 1 和 1-1,次微分就是单点集。关键是求 x=0x = 0 处的次微分——这是一个不光滑点。

根据次微分定义,需找所有满足 yvy|y| \geq vy 对任意 yy 成立的 vv

  • y>0y > 0 时:yvyy \geq vy,两边除以 y>0y > 0v1v \leq 1
  • y<0y < 0 时:yvy-y \geq vy,两边除以 y<0y < 0(不等号翻转)得 v1v \geq -1

因此 f(0)=[1,1]\partial f(0) = [-1, 1]

这个例子揭示了次微分的本质:在光滑点次微分退化为梯度(单点),在非光滑点次微分是一个集合,“填补”了梯度缺失的信息。

2.5.3 次微分的运算规则#

直接从定义出发计算次微分往往很繁琐。与微积分中的求导法则类似,次微分也有一套运算规则,可以将复杂函数的次微分归结为简单函数的次微分的组合。

非负线性组合。f1,f2f_1, f_2 是凸函数,α1,α20\alpha_1, \alpha_2 \geq 0f=α1f1+α2f2f = \alpha_1 f_1 + \alpha_2 f_2。若 intdomf1domf2\text{int}\,\text{dom}\,f_1 \cap \text{dom}\,f_2 \neq \emptyset(称为约束规范条件),则

f(x)=α1f1(x)+α2f2(x)\partial f(x) = \alpha_1 \partial f_1(x) + \alpha_2 \partial f_2(x)

其中右端的加号是 Minkowski 和,即 A+B={a+baA,bB}A + B = \{a + b \mid a \in A, b \in B\}。约束规范条件要求两个函数的定义域有足够的重叠,这在实际中几乎总是满足的。

包含关系 α1f1(x)+α2f2(x)(α1f1+α2f2)(x)\alpha_1 \partial f_1(x) + \alpha_2 \partial f_2(x) \subseteq \partial(\alpha_1 f_1 + \alpha_2 f_2)(x) 从次梯度定义直接可得。反向包含的证明需要用到凸集分离定理(Moreau-Rockafellar 定理),这也是约束规范条件发挥作用的地方。

和的次微分(Moreau-Rockafellar 定理)。 上述规则的特例(α1=α2=1\alpha_1 = \alpha_2 = 1)尤为重要:当 intdomf1domf2\text{int}\,\text{dom}\,f_1 \cap \text{dom}\,f_2 \neq \emptyset 时,

(f1+f2)(x)=f1(x)+f2(x)\partial(f_1 + f_2)(x) = \partial f_1(x) + \partial f_2(x)

这个等式在优化中频繁使用。例如,对复合优化问题 minxf(x)+h(x)\min_x f(x) + h(x)ff 光滑,hh 非光滑),最优性条件 0(f+h)(x)0 \in \partial(f + h)(x^*) 可以展开为 0f(x)+h(x)0 \in \nabla f(x^*) + \partial h(x^*),即 f(x)h(x)-\nabla f(x^*) \in \partial h(x^*),这正是第五章邻近梯度法的理论基础。

线性变量替换。f(x)=h(Ax+b)f(x) = h(Ax + b),其中 hh 是适当凸函数,ARn×mA \in \mathbb{R}^{n \times m}bRnb \in \mathbb{R}^n。若存在 xx^\sharp 使得 Ax+bintdomhAx^\sharp + b \in \text{int}\,\text{dom}\,h,则

f(x)=Ah(Ax+b)\partial f(x) = A^\top \partial h(Ax + b)

这是微积分链式法则 f(x)=Ah(Ax+b)\nabla f(x) = A^\top \nabla h(Ax + b) 的次微分推广。与可微情形相比,形式完全一致,只是将 \nabla 替换为 \partial

逐点最大值。f1,,fmf_1, \ldots, f_m 是凸函数,f(x)=max{f1(x),,fm(x)}f(x) = \max\{f_1(x), \ldots, f_m(x)\}。记活跃集 I(x)={ifi(x)=f(x)}I(x) = \{i \mid f_i(x) = f(x)\}(即在 xx 处取到最大值的那些函数的下标),则

f(x)=conviI(x)fi(x)\partial f(x) = \text{conv}\bigcup_{i \in I(x)} \partial f_i(x)

其中 conv\text{conv} 表示凸包。直觉上,在 ff 的不光滑点(即多个 fif_i 同时取到最大值的点),次微分是各个活跃函数次微分的凸包。在光滑点(只有一个活跃函数),次微分退化为该活跃函数的梯度。例如,1\ell_1 范数 x1=maxs{1,1}nsx\|x\|_1 = \max_{s \in \{-1,1\}^n} s^\top x 的次微分就可以通过这条规则计算:在 xk=0x_k = 0 的分量上,次微分是 [1,1][-1, 1];在 xk0x_k \neq 0 的分量上,次微分是 {sign(xk)}\{\text{sign}(x_k)\}

复合函数的链式法则。f1,,fmf_1, \ldots, f_m 是凸函数,h:RmRh: \mathbb{R}^m \to \mathbb{R} 是关于各分量单调递增的凸函数,f(x)=h(f1(x),,fm(x))f(x) = h(f_1(x), \ldots, f_m(x))。若 z=(z1,,zm)h(f1(x^),,fm(x^))z = (z_1, \ldots, z_m) \in \partial h(f_1(\hat{x}), \ldots, f_m(\hat{x}))gifi(x^)g_i \in \partial f_i(\hat{x}),则

z1g1+z2g2++zmgmf(x^)z_1 g_1 + z_2 g_2 + \cdots + z_m g_m \in \partial f(\hat{x})

这条规则的适用前提是外层函数 hh 关于各分量单调递增。与可微情形的链式法则 f=ihuifi\nabla f = \sum_i \frac{\partial h}{\partial u_i} \nabla f_i 对比,形式完全平行。

2.5.4 次微分与方向导数的关系#

对于凸函数,方向导数与次微分之间有一个深刻的联系。设 ff 是凸函数,x0intdomfx_0 \in \text{int}\,\text{dom}\,f,方向 dRnd \in \mathbb{R}^n。凸函数在 x0x_0 处沿方向 dd 的方向导数定义为

f(x0;d)=inft>0f(x0+td)f(x0)tf'(x_0; d) = \inf_{t > 0} \frac{f(x_0 + td) - f(x_0)}{t}

对于凸函数,差商 (f(x0+td)f(x0))/t(f(x_0 + td) - f(x_0))/t 关于 tt 是单调不减的,因此上述下确界总是存在(可能为 ±\pm\infty)。当 x0x_0 是定义域的内点时,方向导数是有限的。

方向导数与次微分的关系由如下等式刻画:

f(x0;d)=maxvf(x0)v,df'(x_0; d) = \max_{v \in \partial f(x_0)} \langle v, d \rangle

即方向导数等于所有次梯度与方向 dd 的内积的最大值。这个等式意味着:次微分 f(x0)\partial f(x_0) 完全刻画了函数 ffx0x_0 处沿各方向的变化率信息。当 ffx0x_0 处可微时,f(x0)={f(x0)}\partial f(x_0) = \{\nabla f(x_0)\},上式退化为 f(x0;d)=f(x0),df'(x_0; d) = \langle \nabla f(x_0), d \rangle,与通常的方向导数公式一致。

这个等式还有一个重要推论:xx^* 是凸函数 ff 的最小值点当且仅当 f(x;d)0f'(x^*; d) \geq 0 对所有方向 dd 成立,而由上述等式,这等价于 maxvf(x)v,d0\max_{v \in \partial f(x^*)} \langle v, d \rangle \geq 0 对所有 dd 成立,即 0f(x)0 \in \partial f(x^*)。这就是凸函数最优性条件的次微分形式。

2.5.5 凸性判定的补充工具:上镜图#

在讨论指示函数的次微分之前,需要引入上镜图这一判定凸性的工具。

广义实值函数。 在凸分析中,通常将函数的值域从 R\mathbb{R} 扩展到 R{+}\mathbb{R} \cup \{+\infty\},称为广义实值函数。这使得指示函数等取值为 ++\infty 的函数也纳入统一框架。

上镜图。ff 是广义实值函数,ff上镜图(epigraph)定义为

epif:={(x,w)Rn+1f(x)w,  xdomf}\text{epi}\,f := \{(x, w) \in \mathbb{R}^{n+1} \mid f(x) \leq w,\; x \in \text{dom}\,f\}

几何上,上镜图是函数图像上方(含图像本身)的区域。ff 是凸函数当且仅当 epif\text{epi}\,f 是凸集。结合第一章中的一阶/二阶条件和限制在直线上的方法,这提供了判定凸函数的第三种等价途径。

此外,ff 是闭函数(closed function)当且仅当 epif\text{epi}\,f 是闭集,这等价于 ff 是下半连续函数(lower semi-continuous):若 xkxx^k \to x,则 f(x)lim infkf(xk)f(x) \leq \liminf_{k \to \infty} f(x^k)

为与上镜图区分,函数 ff(graph)定义为 gphf:={(x,f(x))xdomf}\text{gph}\,f := \{(x, f(x)) \mid x \in \text{dom}\,f\},即仅包含曲线(曲面)本身上的点。

2.5.6 非凸函数的次微分为空集#

次微分的定义依赖于凸函数的一阶条件。若 ff 不是凸函数,则次微分可能为空集。例如分段函数

f(x)={0,x<0x,0x11,x>1f(x) = \begin{cases} 0, & x < 0 \\ x, & 0 \leq x \leq 1 \\ 1, & x > 1 \end{cases}

其上镜图不是凸集(取两端的点连线会穿出上镜图),因此 ff 不是凸函数。在不可微点处 f(0)=\partial f(0) = \emptysetf(1)=\partial f(1) = \emptyset

次微分是为凸函数设计的工具。对非凸函数,次微分定义中的不等式无法被任何向量满足。非凸情形需要 Clarke 次微分等其他工具,不在本章讨论范围内。

2.5.7 指示函数的次微分与法锥#

指示函数是凸优化中将约束吸收进目标函数的核心工具。设 ΩRn\Omega \subseteq \mathbb{R}^n 是闭凸集,指示函数定义为

ιΩ(x)={0,xΩ+,xΩ\iota_\Omega(x) = \begin{cases} 0, & x \in \Omega \\ +\infty, & x \notin \Omega \end{cases}

其上镜图 epiιΩ=Ω×[0,+)\text{epi}\,\iota_\Omega = \Omega \times [0, +\infty) 是两个凸集的笛卡尔积,因此是凸集,从而 ιΩ\iota_\Omega 是凸函数。

次微分的推导。 根据次微分定义,vιΩ(x)v \in \partial \iota_\Omega(x) 要求对任意 yyιΩ(y)ιΩ(x)+v,yx\iota_\Omega(y) \geq \iota_\Omega(x) + \langle v, y - x \rangle

xΩx \notin \Omega 时,ιΩ(x)=+\iota_\Omega(x) = +\infty,对 yΩy \in \Omega0++v,yx0 \geq +\infty + \langle v, y - x \rangle,矛盾,故 ιΩ(x)=\partial \iota_\Omega(x) = \emptyset

xΩx \in \Omega 时,ιΩ(x)=0\iota_\Omega(x) = 0,条件化为:对任意 yΩy \in \Omegav,yx0\langle v, y - x \rangle \leq 0yΩy \notin \Omega 时条件自动满足)。进一步分两种情况:

  • xintΩx \in \text{int}\,\Omega(内点),则 yxy - x 可指向任意方向,要使 v,yx0\langle v, y - x \rangle \leq 0 对所有方向成立,只能 v=0v = \mathbf{0}。故 ιΩ(x)={0}\partial \iota_\Omega(x) = \{\mathbf{0}\}
  • xbdΩx \in \text{bd}\,\Omega(边界点),则 yxy - x 的方向受到限制,vv 不必为零,但必须与所有可行方向的夹角不小于 90 度。满足此条件的 vv 构成法锥

2.5.8 法锥#

ΩRn\Omega \subseteq \mathbb{R}^nΩ\Omegaxx 处的法锥(normal cone)定义为

NΩ(x):={dRnd,yx0,  yΩ}N_\Omega(x) := \{d \in \mathbb{R}^n \mid \langle d, y - x \rangle \leq 0,\; \forall\, y \in \Omega\}

法锥中的向量 dd 与从 xx 出发指向 Ω\Omega 内部的所有方向的夹角均不小于 90 度。几何上,以二维闭凸集 Ω\Omega 为例,取边界点 xx,所有可行方向 yxy - x 在极端情况下形成两条”切线方向”,对这两条切线方向分别作垂线,垂线之间朝向 Ω\Omega 外侧的锥形区域就是法锥 NΩ(x)N_\Omega(x)

以下三个例子展示法锥在常见凸集上的具体形式。

非负正象限 Ω=R+n\Omega = \mathbb{R}_+^n 对内点 xx(所有分量 xi>0x_i > 0),yxy - x 可指向任意方向(邻域内仍在 Ω\Omega 内),故 NΩ(x)={0}N_\Omega(x) = \{\mathbf{0}\}。对边界点 xx(存在分量 xi=0x_i = 0),设 I0={ixi=0}I_0 = \{i \mid x_i = 0\} 为零分量的下标集。法锥条件 d,yx0\langle d, y - x\rangle \leq 0 对所有 y0y \geq 0 成立,要求 di0d_i \leq 0iI0i \in I_0)且 di=0d_i = 0iI0i \notin I_0)。即法锥的向量仅在零分量方向上取非正值:NΩ(x)={ddi0 if xi=0,  di=0 if xi>0}N_\Omega(x) = \{d \mid d_i \leq 0\text{ if }x_i = 0,\; d_i = 0\text{ if }x_i > 0\}

闭球 Ω={xxr}\Omega = \{x \mid \|x\| \leq r\} 对内点 x<r\|x\| < r,同理 NΩ(x)={0}N_\Omega(x) = \{\mathbf{0}\}。对球面上的点 x=r\|x\| = r,法锥条件要求 d,yx0\langle d, y - x\rangle \leq 0 对所有 yr\|y\| \leq r 成立。取 y=xϵd/dy = x - \epsilon d/\|d\|ϵ\epsilon 足够小时 yΩy \in \Omega),可以验证 dd 必须沿 xx 的径向外侧,即 NΩ(x)={λxλ0}N_\Omega(x) = \{\lambda x \mid \lambda \geq 0\}——从球心指向 xx 方向的射线。

半空间 Ω={xaxb}\Omega = \{x \mid a^\top x \leq b\} 对内点 ax<ba^\top x < bNΩ(x)={0}N_\Omega(x) = \{\mathbf{0}\}。对边界 ax=ba^\top x = b 上的点,可行方向满足 a(yx)0a^\top(y - x) \leq 0,法锥条件要求 dd 与所有这些方向的内积非正,由此得 NΩ(x)={λaλ0}N_\Omega(x) = \{\lambda a \mid \lambda \geq 0\}——沿法向量 aa 方向的射线。

指示函数次微分的统一表示。 综合以上分析:

ιΩ(x)={NΩ(x),xΩ,xΩ\partial \iota_\Omega(x) = \begin{cases} N_\Omega(x), & x \in \Omega \\ \emptyset, & x \notin \Omega \end{cases}

其中 xintΩx \in \text{int}\,\OmegaNΩ(x)={0}N_\Omega(x) = \{\mathbf{0}\}xbdΩx \in \text{bd}\,\OmegaNΩ(x)N_\Omega(x) 是非平凡的锥。

指示函数的次微分等于法锥,这一结论将约束优化中的可行域几何信息编码进了次微分。在第五章邻近算子和第六章 ADMM 的分析中,这个等式是基础工具。

2.5.9 次梯度的单调性#

凸函数的次梯度具有一种类似于梯度的单调性。设 ff 是凸函数,x,ydomfx, y \in \text{dom}\,fuf(x)u \in \partial f(x)vf(y)v \in \partial f(y),则

uv,xy0\langle u - v, x - y \rangle \geq 0

证明只需将次梯度定义中的两个不等式 f(y)f(x)+u,yxf(y) \geq f(x) + \langle u, y - x \ranglef(x)f(y)+v,xyf(x) \geq f(y) + \langle v, x - y \rangle 相加即得。

这个性质说明次微分算子 f\partial f单调算子:输入的增量方向与输出的增量方向之间的夹角不超过 90 度。单调性在次梯度算法的收敛性分析中起到关键作用,同时也是第 2.6 节中极大单调算子理论的起点。

2.6 从零包含到不动点迭代#

本章最后,我们揭示优化问题与不动点迭代之间的深层联系,建立预解算子与邻近算子之间的对应关系,将前面建立的抽象理论与后续章节的具体算法衔接起来。

2.6.1 零包含问题#

考虑约束优化问题 minxΩf(x)\min_{x \in \Omega} f(x)。由第一章的最优性条件(KKT 条件),最优解满足

0f(x)+NΩ(x)0 \in \nabla f(x) + N_\Omega(x)

其中 NΩ(x)N_\Omega(x) 是第 2.5.8 节定义的法锥。利用指示函数的次微分(ιΩ(x)=NΩ(x)\partial \iota_\Omega(x) = N_\Omega(x)xΩx \in \Omega),这可以统一写为

0f(x)+ιΩ(x)0 \in \nabla f(x) + \partial \iota_\Omega(x)

更一般地,许多优化问题可以抽象为零包含问题(zero inclusion / monotone inclusion):

0Ax+Bx0 \in Ax + Bx

其中 A,BA, B 是合适的算子。

2.6.2 转化为不动点方程#

零包含问题可以通过代数变换转化为不动点方程。引入参数算子 CC,将 0Ax+Bx0 \in Ax + Bx 改写为

CBxCAx    xCBx(I+CA)x-CBx \in CAx \;\Rightarrow\; x - CBx \in (I + CA)x

取逆映射得到不动点方程:

x=(I+CA)1(ICB)xx = (I + CA)^{-1}(I - CB)x

其中 (I+CA)1(I + CA)^{-1} 记为 JCAJ_{CA},称为预解算子(resolvent operator)。当 AA 是极大单调算子(分裂算法的典型设定)时,(I+CA)1(I + CA)^{-1} 是单值映射,"\in"号变为"=="号,不动点迭代才能实际执行。

2.6.3 预解算子与邻近算子的关系#

预解算子的定义是纯代数的:JγA=(I+γA)1J_{\gamma A} = (I + \gamma A)^{-1}。当单调算子 AA 取为凸函数 hh 的次微分 h\partial h 时,预解算子获得一个具体而直观的形式。

考虑方程 x=Jγh(z)x = J_{\gamma \partial h}(z),即 x=(I+γh)1(z)x = (I + \gamma \partial h)^{-1}(z)。等价地,zx+γh(x)z \in x + \gamma \partial h(x),即 zxγh(x)\frac{z - x}{\gamma} \in \partial h(x)。由次梯度定义,zxγ\frac{z - x}{\gamma}hhxx 处的一个次梯度意味着对任意 yy

h(y)h(x)+zxγ,yxh(y) \geq h(x) + \left\langle \frac{z - x}{\gamma}, y - x \right\rangle

等价地,

h(x)+12γxz2h(y)+12γyz2h(x) + \frac{1}{2\gamma}\|x - z\|^2 \leq h(y) + \frac{1}{2\gamma}\|y - z\|^2

对所有 yy 成立。这说明 xx 是以下优化问题的解:

x=argminy{h(y)+12γyz2}x = \arg\min_{y} \left\{ h(y) + \frac{1}{2\gamma}\|y - z\|^2 \right\}

右端正是 hh 关于参数 γ\gamma邻近算子(proximal operator),记作 proxγh(z)\text{prox}_{\gamma h}(z)。因此,

Jγh=proxγhJ_{\gamma \partial h} = \text{prox}_{\gamma h}

预解算子就是邻近算子在次微分算子情形下的特殊化。换言之,邻近算子是预解算子的一个具体实例,而预解算子是邻近算子在一般单调算子框架下的推广。

邻近算子的定义

proxγh(z)=argminy{h(y)+12γyz2}\text{prox}_{\gamma h}(z) = \arg\min_{y} \left\{ h(y) + \frac{1}{2\gamma}\|y - z\|^2 \right\}

有清晰的直觉:在最小化 hh 的同时,惩罚 yy 偏离 zz 太远。参数 γ\gamma 控制了两个目标之间的权衡——γ\gamma 越大,越倾向于最小化 hhγ\gamma 越小,越倾向于让 yy 靠近 zz

h=ιΩh = \iota_\Omega(指示函数)时,邻近算子退化为投影算子:

proxγιΩ(z)=argminyΩ12yz2=PΩ(z)\text{prox}_{\gamma \iota_\Omega}(z) = \arg\min_{y \in \Omega} \frac{1}{2}\|y - z\|^2 = P_\Omega(z)

这与 JγNΩ(z)=PΩ(z)J_{\gamma N_\Omega}(z) = P_\Omega(z)NΩ=ιΩN_\Omega = \partial \iota_\Omega)完全一致。投影算子是邻近算子的特殊情形,而邻近算子又是预解算子的特殊情形。这三层递进关系将在第五章中系统展开。

2.6.4 算法视角的统一#

这一转化揭示了本章理论与后续算法的联系:第三章的梯度下降法、第四章的投影梯度法、第五章的邻近点算法和邻近梯度算法、第六章的 ADMM,都可以视为对特定零包含问题选择不同的 AABBCC 后所得到的不动点迭代。

具体而言,梯度下降法对应 A=fA = \nabla fB=0B = 0C=γIC = \gamma I(此时预解算子退化为简单的代数运算);投影梯度法对应 A=NΩA = N_\OmegaB=fB = \nabla fC=γIC = \gamma I(预解算子变为投影算子);邻近梯度法对应 A=hA = \partial hB=fB = \nabla fC=γIC = \gamma I(预解算子变为邻近算子)。

它们的收敛性分析,无一例外地依赖于本章建立的映射分类、Fejér 单调性和四步标准证明范式。

第二章:算子理论与不动点
https://www.xwysyy.cn/posts/optimization/ch2/
作者
xwysyy
发布于
2026-06-01
许可协议
CC BY-NC-SA 4.0
© 2026 xwysyy. All Rights Reserved.
Powered by Astro & Firefly

文章目录