本章从拉格朗日对偶理论出发,逐步发展出实用的约束优化算法。首先建立对偶问题的基本框架与弱对偶性(6.1 节),然后给出约束优化问题的最优性刻画——KKT 条件(6.2 节)。在此理论基础上,引入最简单的对偶算法——对偶上升法(6.3 节),分析其在线性目标函数下失效的根本原因。为克服这一缺陷,引入增广拉格朗日函数法 ALM(6.4 节),并揭示其与邻近点算法的深层等价关系。最后,针对目标函数可分离的结构化问题,发展出 ADMM(6.5 节),给出完整的收敛性证明与应用实例。
6.1 对偶问题#
6.1.1 原问题与拉格朗日函数#
考虑带等式约束的优化问题(原问题,Primal Problem):
xminf(x)s.t.c(x)=0 其中 x∈Rn 为原始变量(primal variable),f:Rn→R 为目标函数,c(x)=0 为可行性条件。引入拉格朗日函数(Lagrangian):
L(x,λ)=f(x)+λ⊤c(x) 其中 λ 为拉格朗日乘子。
对拉格朗日函数关于 λ 求最大值,分两种情况:
- 若 c(x)=0,则 λ⊤c(x)=0,此时 maxλL(x,λ)=f(x);
- 若 c(x)=0,则 λ⊤c(x) 关于 λ 是线性函数,可取到 +∞。
因此:
λmaxL(x,λ)={f(x),+∞,c(x)=0c(x)=0 在此基础上再对 x 取最小值,c(x)=0 的情况因目标值为 +∞ 而被自然排除。这意味着原问题等价于极小极大问题(minimax problem):
xminλmaxL(x,λ)=xminf(x)s.t.c(x)=0 6.1.2 对偶问题的定义#
对偶问题(Dual Problem)是将极小极大问题中求最大与求最小的顺序互换得到的:
λmaxxminL(x,λ) 定义对偶函数(dual function):
g(λ)=xminL(x,λ) 其中 λ 称为对偶变量(dual variable)。于是对偶问题简写为 maxλg(λ)。
当约束个数 m 远小于原始变量维度 n(即 m≪n)时,对偶变量 λ∈Rm 的维度远低于 x∈Rn,在对偶空间中求解可以显著降低问题规模。
6.1.3 拉格朗日乘子的灵敏度解释#
最优拉格朗日乘子 λ∗ 衡量的是最优值对约束扰动的灵敏度。
设 (x∗,λ∗) 是拉格朗日函数的驻点,则满足一阶最优性条件:
∇xL(x∗,λ∗)=∇f(x∗)+∇c(x∗)⊤λ∗=0(6.1) ∇λL(x∗,λ∗)=c(x∗)=0(6.2) 对约束施加微小扰动 ϵ,将原问题改为 minxf(x) s.t. c(x)−ϵ=0。此时最优解 x∗(ϵ) 和 λ∗(ϵ) 均成为 ϵ 的函数,拉格朗日函数变为 L(x,λ)=f(x)+λ⊤(c(x)−ϵ),对应的最优性条件为:
∇f(x∗(ϵ))+∇c(x∗(ϵ))⊤λ∗(ϵ)=0(6.1’) c(x∗(ϵ))−ϵ=0(6.2’) 对 f(x∗(ϵ)) 关于 ϵ 求导,利用链式法则:
dϵdf(x∗(ϵ))=∇f(x∗(ϵ))⊤dϵdx∗(ϵ) 由式 (6.1’) 可知 ∇f(x∗(ϵ))=−∇c(x∗(ϵ))⊤λ∗(ϵ),代入得:
dϵdf(x∗(ϵ))=−λ∗(ϵ)⊤∇c(x∗(ϵ))dϵdx∗(ϵ) 对式 (6.2’) 关于 ϵ 求导得 ∇c(x∗(ϵ))dϵdx∗(ϵ)=I,代入上式并在 ϵ=0 处取值:
dϵdf(x∗(ϵ))ϵ=0=−λ∗⊤ 这说明 λi∗ 表示当第 i 个约束 ci(x)=0 受到单位扰动时,最优目标函数值的变化率(取负号)。∣λi∗∣ 越大,最优值对该约束的扰动越敏感。
6.1.4 弱对偶性#
定理(弱对偶性). 原问题的最优值不小于对偶问题的最优值:
xminλmaxL(x,λ)≥λmaxxminL(x,λ) 两者之差称为对偶间隙(duality gap)。
证明. 对于任意固定的 x 和 λ,由最大值和最小值的定义:
λmaxL(x,λ)≥L(x,λ)≥xminL(x,λ) 因此对任意 x,λ 均有 maxλL(x,λ)≥minxL(x,λ)。对右端关于 λ 取最大值,由于左端对任意 λ 成立,不等式方向不变:
λmaxL(x,λ)≥λmaxxminL(x,λ) 此时右端已是确定的数,左端仍含自由变量 x。再对左端关于 x 取最小值,不等式仍成立:
xminλmaxL(x,λ)≥λmaxxminL(x,λ)■ 弱对偶性对任意优化问题成立,不需要凸性或其他特殊假设。
6.1.5 强对偶性与 Slater 条件#
弱对偶性只给出了下界:对偶问题的最优值 q∗ 不超过原问题的最优值 p∗。当 p∗=q∗ 时——即对偶间隙为零——称强对偶性(strong duality)成立。强对偶性意味着可以通过求解对偶问题精确地获得原问题的最优值,这正是对偶方法的理论基础。
强对偶性不是自动成立的。对于一般的非凸问题,对偶间隙通常严格为正。但对凸优化问题,在满足一定的约束品性(constraint qualification)条件下,强对偶性成立。最常用的约束品性是 Slater 条件。
定义(Slater 条件)。 对凸优化问题 minf(x) s.t. ci(x)≤0(i=1,…,m),Ax=b,如果存在一个可行点 xˉ 使得所有不等式约束严格成立(ci(xˉ)<0,i=1,…,m),则称 Slater 条件满足。
Slater 条件的含义非常直观:可行域不能”薄”到只贴着约束边界——它必须有”内部空间”,至少存在一个点离所有不等式约束的边界都有余量。当不等式约束中有仿射函数时,Slater 条件可以放宽:仿射约束只需要求可行(≤),不需要严格可行(<),因为线性约束不会产生”弯曲”的边界。
定理(强对偶原理)。 若凸优化问题满足 Slater 条件,则强对偶性成立,且对偶最优解可以达到。
强对偶性的实际意义:当它成立时,原问题的 KKT 条件不仅是必要条件,还是充分条件。这使得 KKT 条件成为凸优化问题的完整最优性刻画。同时,6.3—6.5 节的对偶算法(对偶上升法、ALM、ADMM)都隐含地依赖强对偶性——只有对偶间隙为零时,对偶空间中的最优解才能恢复出原问题的最优解。
6.2 KKT 条件#
6.2.1 等式约束问题的 KKT 条件#
考虑仅含等式约束的优化问题:
xminf(x)s.t.ci(x)=0,i∈I 其拉格朗日函数为:
L(x,λ)=f(x)+i=1∑∣I∣λici(x) 对拉格朗日函数分别关于 x 和 λi 求梯度并令其为零,得到 KKT 条件。在最优解 (x∗,λ∗) 处:
驻点条件:
∇xL(x∗,λ∗)=∇f(x∗)+i=1∑∣I∣λi∗∇ci(x∗)=0 可行性条件:
ci(x∗)=0,i∈I 满足上述条件的点 (x∗,λ∗) 称为 KKT 点,这组条件可以类比无约束优化中的一阶必要条件。
6.2.2 一般约束问题的 KKT 条件#
考虑同时含有等式约束和不等式约束的一般优化问题:
xminf(x)s.t.ci(x)=0,i∈I;cj(x)≤0,j∈J 其中 I 和 J 分别是等式约束和不等式约束的指标集。引入两组对偶变量:λ=(λ1,…,λ∣I∣)⊤ 对应等式约束,μ=(μ1,…,μ∣J∣)⊤ 对应不等式约束。拉格朗日函数为:
L(x,λ,μ)=f(x)+i=1∑∣I∣λici(x)+j=1∑∣J∣μjcj(x) 若 x∗ 是局部最优解且满足约束品性条件,则存在 λ∗ 和 μ∗ 使得以下四组条件成立。约束品性是 KKT 条件成立的前提——它保证约束的梯度在最优点处提供了足够的”方向信息”来刻画可行域的局部几何。最常用的约束品性有两种:线性无关约束品性(LICQ),要求最优点处所有紧约束(cj(x∗)=0 的不等式约束加上所有等式约束)的梯度线性无关;以及前面提到的 Slater 条件,对凸问题要求存在严格可行的内点。对于凸优化问题,Slater 条件既保证强对偶性成立,也保证 KKT 条件是最优性的充要条件。
1. 驻点条件(Stationarity):
∇f(x∗)+i=1∑∣I∣λi∗∇ci(x∗)+j=1∑∣J∣μj∗∇cj(x∗)=0 2. 原始可行条件(Primal Feasibility):
ci(x∗)=0,i∈I;cj(x∗)≤0,j∈J 3. 对偶可行条件(Dual Feasibility):
μj∗≥0,j∈J 4. 互补松弛条件(Complementary Slackness):
μj∗cj(x∗)=0,j∈J 6.2.3 互补松弛条件的直觉理解#
互补松弛条件 μj∗cj(x∗)=0 要求 μj∗ 和 cj(x∗) 中至少有一个为零。可以将不等式约束想象为一堵墙,μj∗ 是墙对最优解的反作用力。
约束不紧的情形. 设约束为 x≤100,即 c(x)=x−100≤0,假设最优解 x∗=50。此时 c(x∗)=−50<0,最优解距离约束边界很远,即使对约束施加微小扰动,最优解仍满足新约束。该约束对最优解的形成没有实质贡献——最优解在约束边界内有充裕的自由空间。此时 x∗ 远离墙面,墙对它没有反作用力,故 μj∗=0。
约束紧的情形. 同样的约束,但 x∗=100。此时 c(x∗)=0,最优解恰在约束边界上。对 x 施加任何正向扰动都会突破约束变得不可行,最优解没有自由活动空间。此时 x∗ 贴在墙上,反作用力 μj∗>0,而 cj(x∗)=0。
两种情况下乘积 μj∗cj(x∗) 均为零——μj∗ 与 cj(x∗) 互为”互补”:一个非零时另一个必为零。这同时解释了对偶可行条件 μj∗≥0 的来源:反作用力的方向始终指向可行域内侧。
6.3 对偶上升法#
6.3.1 从原问题到对偶问题#
考虑带等式约束的优化问题:
xminf(x)s.t.Ax−b=0 其拉格朗日函数为 L(x,λ)=f(x)+λ⊤(Ax−b)。原问题等价于 minxmaxλL(x,λ)。交换极小极大的顺序得到对偶问题 maxλminxL(x,λ),其中对偶函数为:
g(λ)=xminL(x,λ)=xmin[f(x)+λ⊤(Ax−b)] 原问题对 x 做梯度下降(求最小值沿负梯度方向更新),对偶问题则对 λ 做梯度上升(求最大值沿梯度方向更新):
λk+1=λk+α∇g(λk) 6.3.2 对偶函数梯度的计算#
设在给定 λ 下,内层极小问题的最优解为 x∗,则 g(λ)=f(x∗)+λ⊤(Ax∗−b)。对 λ 求梯度得到:
∇g(λ)=Ax∗−b 对偶函数关于 λ 的梯度恰好是约束残差 Ax∗−b。当原问题约束被精确满足时(Ax∗=b),梯度为零,对偶变量不再更新。
6.3.3 算法步骤#
对偶上升法(Dual Ascent Method)由两步交替迭代组成:
xk+1=argxmin[f(x)+(λk)⊤(Ax−b)] λk+1=λk+α(Axk+1−b) 第一步固定当前对偶变量 λk,对拉格朗日函数关于 x 求极小,得到 xk+1——它正是对偶函数定义中 minxL(x,λk) 的最优解。第二步利用 ∇g(λk)=Axk+1−b 沿梯度方向做上升更新。
6.3.4 对偶上升法的局限性#
对偶上升法将约束优化问题转化为对偶空间中的无约束极大化问题,但有一个根本性缺陷:当目标函数 f(x) 为线性函数时,算法无法给出最优解。
设 f(x)=c⊤x,则拉格朗日函数为:
L(x,λ)=c⊤x+λ⊤(Ax−b)=(c+A⊤λ)⊤x−λ⊤b 第一步要求关于 x 对上式取极小,但 (c+A⊤λ)⊤x 关于 x 是线性的:若系数 c+A⊤λ=0,线性函数在无约束下沿某一方向趋于 −∞,极小值不存在;若系数恰为零,目标退化为常数 −λ⊤b,任意 x 都是极小解。无论哪种情况,argminx 都无法给出确定的 xk+1,算法失效。
对偶上升法失效的根本原因在于:标准拉格朗日函数关于 x 的极小问题可能没有有限解。解决方案是在拉格朗日函数中添加二次罚项 2β∥Ax−b∥2,使子问题始终具有唯一解。这就是增广拉格朗日函数法的核心思想。
6.4 增广拉格朗日函数法(ALM)#
6.4.1 增广拉格朗日函数#
考虑等式约束优化问题:
xminf(x)s.t.Ax−b=0(P) 其中 f:Rn→R,A∈Rm×n,b∈Rm。增广拉格朗日函数(Augmented Lagrangian Function)定义为:
Lβ(x,λ)=f(x)+⟨λ,Ax−b⟩+2β∥Ax−b∥2(6.3) 其中 ⟨λ,Ax−b⟩ 是标准拉格朗日函数中的乘子项,2β∥Ax−b∥2 称为增广项(二次罚项),β>0 为罚参数。
增广拉格朗日函数与标准拉格朗日函数的区别仅在于增广项。在可行点处(Ax=b),增广项为零,两者一致。增广项的作用在于:即使 f(x) 为线性函数,增广后的子问题因包含二次项而具有有限最优解,从而克服了 6.3.4 节中对偶上升法的缺陷。
6.4.2 ALM 算法#
将对偶上升法中的标准拉格朗日函数替换为增广拉格朗日函数,并取步长 α=β,得到 ALM 算法:
⎩⎨⎧xk+1=argminxLβ(x,λk)=argminx[f(x)+⟨λk,Ax−b⟩+2β∥Ax−b∥2]λk+1=λk+β(Axk+1−b)(ALM) 第一步对 x 求解带二次罚项的子问题;第二步按梯度上升方向更新乘子 λ,步长取为罚参数 β。
6.4.3 KKT 条件分析#
原问题 (P) 在最优点 (x∗,λ∗) 处的 KKT 条件为:
∇f(x∗)+A⊤λ∗=0(I) Ax∗−b=0(II) 对于增广拉格朗日函数,对 λ 求梯度时增广项 2β∥Ax−b∥2 不含 λ,视为常数,因此条件 (II) 对两种拉格朗日函数均成立。在最优点处 Ax∗−b=0,对 x 求梯度时增广项的贡献 βA⊤(Ax∗−b)=0,条件 (I) 同样不受增广项影响。
在 ALM 第一步中,xk+1 是子问题的最优解。对增广拉格朗日函数关于 x 求梯度并令其为零:
∇f(xk+1)+A⊤λk+βA⊤(Axk+1−b)=0(III) 将乘子更新公式 λk+1=λk+β(Axk+1−b) 代入,得:
∇f(xk+1)+A⊤λk+1=0(IV) 式 (IV) 表明每一步迭代中,(xk+1,λk+1) 自动满足 KKT 驻点条件 (I) 的形式。剩余需要证明的是可行性条件 Axk+1−b→0。
6.4.4 收敛性证明#
假设 f 为凸函数且连续可微,(xk,λk) 由 ALM 生成。设 (x∗,λ∗) 为满足 KKT 条件的最优点。需要证明 Axk+1−b→0(可行性收敛)与 λk→λ∗(乘子收敛)。
由乘子更新公式:
Axk+1−b=β1(λk+1−λk)(V) 因此证明可行性收敛等价于证明 λk+1−λk→0。
构造 Lyapunov 函数. 考虑 ∥λk+1−λ∗∥2 的递推。通过加减 λk 并展开:
∥λk+1−λ∗∥2=∥λk+1−λk∥2+∥λk−λ∗∥2+2⟨λk+1−λk,λk−λ∗⟩ 对内积项做加减处理,将 λk 替换为 λk+1,利用恒等式整理得:
∥λk+1−λ∗∥2=∥λk−λ∗∥2−∥λk+1−λk∥2+2⟨λk+1−λk,λk+1−λ∗⟩ 利用凸性处理内积项. 由 (V) 式,λk+1−λk=β(Axk+1−b);又由 Ax∗=b,故 Axk+1−b=A(xk+1−x∗)。将内积项中的替换并利用 ⟨Av,w⟩=⟨v,A⊤w⟩:
2⟨λk+1−λk,λk+1−λ∗⟩=2β⟨xk+1−x∗,A⊤(λk+1−λ∗)⟩ 由条件 (I) 和 (IV):A⊤λ∗=−∇f(x∗),A⊤λk+1=−∇f(xk+1),因此:
A⊤(λk+1−λ∗)=−∇f(xk+1)+∇f(x∗) 代入得:
2⟨λk+1−λk,λk+1−λ∗⟩=2β⟨xk+1−x∗,∇f(x∗)−∇f(xk+1)⟩ 由凸函数的梯度单调性(f 凸 ⇒ ∇f 为单调算子),对任意 x,y 有 ⟨∇f(x)−∇f(y),x−y⟩≥0。取 x=xk+1,y=x∗,得到 ⟨xk+1−x∗,∇f(x∗)−∇f(xk+1)⟩≤0,从而:
2⟨λk+1−λk,λk+1−λ∗⟩≤0 建立单调递减不等式. 代回得:
∥λk+1−λ∗∥2≤∥λk−λ∗∥2−∥λk+1−λk∥2(VI) 移项得:
∥λk+1−λk∥2≤∥λk−λ∗∥2−∥λk+1−λ∗∥2(VII) 求和论证. 对 (VII) 从 k=0 到 K 求和,右侧为 telescoping sum:
k=0∑K∥λk+1−λk∥2≤∥λ0−λ∗∥2−∥λK+1−λ∗∥2≤∥λ0−λ∗∥2 右端为有限常数,K→∞ 时级数收敛,通项必趋于零:∥λk+1−λk∥→0。
收敛结论. 由 (V) 式:∥Axk+1−b∥=β1∥λk+1−λk∥→0,可行性残差趋于零。由 (VI) 式,{∥λk−λ∗∥2} 单调递减且非负,因此收敛,从而 λk→λ∗。在适当条件下进一步可推出 xk→x∗。
当 f 为凸函数时,KKT 条件是最优性的充分条件,因此 ALM 的聚点满足 KKT 条件即为全局最优解。若 f 为强凸函数,最优解 x∗ 唯一;若 f 仅为凸函数,最优解可能不唯一,但所有聚点均满足 KKT 条件。
6.4.5 ALM 与 PPA 的等价关系#
对偶函数为 g(λ)=minx[f(x)+⟨λ,Ax−b⟩],对偶问题为 maxλg(λ),等价地写成极小化形式 minλ[−g(λ)],记为 (D)。
对 (D) 应用邻近点算法(Proximal Point Algorithm, PPA),步长取 α=β:
λk+1=argλmin[−g(λ)+2β1∥λ−λk∥2] 取负号并转为 max:
λk+1=argλmax[g(λ)−2β1∥λ−λk∥2](PPA) 由 PPA 的隐式梯度迭代形式,(PPA) 等价于:
λk+1=λk+β∇g(λk+1)(⋆) 设在 λ=λk+1 处,内层极小化问题的最优解为 xk+1,则由 Danskin 定理,∇g(λk+1)=Axk+1−b。代入 (⋆):
λk+1=λk+β(Axk+1−b) 这恰好是 ALM 的乘子更新公式。因此:
对对偶问题 (D) 应用 PPA⟺对原问题 (P) 应用 ALM 这一等价关系揭示了 ALM 的深层结构:ALM 并非仅仅是在拉格朗日函数上加罚项的启发式方法,而是对偶空间中邻近点算法的严格等价形式。这为 ALM 的收敛性提供了来自 PPA 理论的另一条证明路径,也为 ADMM 的推导提供了理论基础。
6.5 交替方向乘子法(ADMM)#
6.5.1 ALM 处理可分问题的困难#
考虑目标函数可分的约束优化问题:
x,yminf(x)+g(y)s.t.Ax+By=c 其中 f 和 g 分别是关于 x 和 y 的函数,目标函数在变量上是可分离的。增广拉格朗日函数为:
Lβ(x,y,λ)=f(x)+g(y)+λ⊤(Ax+By−c)+2β∥Ax+By−c∥2 若直接使用 ALM,需同时对 (x,y) 求极小。但二次罚项 2β∥Ax+By−c∥2 中 x 和 y 存在耦合项,无法将两个变量的求解分离,导致子问题求解复杂。
6.5.2 ADMM 的迭代格式#
交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)的核心思想是:不同时对 x 和 y 求极小,而是交替固定一个变量优化另一个,类似于数值线性代数中的 Gauss-Seidel 迭代。迭代格式如下:
xk+1yk+1λk+1=argxmin{f(x)+(λk)⊤Ax+2β∥Ax+Byk−c∥2}=argymin{g(y)+(λk)⊤By+2β∥Axk+1+By−c∥2}=λk+β(Axk+1+Byk+1−c)(ADMM) 第一步固定 y=yk 关于 x 求极小;第二步将刚算出的 xk+1 代入,固定 x=xk+1 关于 y 求极小;第三步更新对偶变量 λ。“用上一步最新结果”的策略正是 Gauss-Seidel 迭代的思想。
在实际实现中,ADMM 更常写成缩放形式(scaled form)。定义缩放对偶变量 u=λ/β,则增广拉格朗日函数中的线性项和二次项可以合并:
λ⊤(Ax+By−c)+2β∥Ax+By−c∥2=2β∥Ax+By−c+u∥2−2β∥u∥2 于是 ADMM 的三步迭代简化为:
xk+1yk+1uk+1=argxminf(x)+2β∥Ax+Byk−c+uk∥2=argyming(y)+2β∥Axk+1+By−c+uk∥2=uk+Axk+1+Byk+1−c 缩放形式的优点是每个子问题只需要处理一个二次项 2β∥⋅∥2,不再出现线性项和二次项的混合,编程实现更简洁。u 的更新也变得更直观——它直接累加约束残差 Axk+1+Byk+1−c。
6.5.4 实际使用中的参数选取#
罚参数 β 的选择。 β 控制了约束满足的”惩罚力度”与子问题求解难度之间的平衡。β 过小时约束收敛慢(需要更多迭代才能使 Ax+By≈c),β 过大时子问题的条件数变差(二次罚项主导了目标函数,子问题求解变慢)。实践中常用的策略包括:取 β=1 或 β=1/n(n 为变量维度)作为初始值;或者采用自适应策略——当原始残差 ∥Axk+1+Byk+1−c∥ 远大于对偶残差 β∥B(yk+1−yk)∥ 时增大 β,反之减小。
停机准则。 实际中常同时监控两个残差:原始残差 rk=Axk+Byk−c(衡量约束满足程度)和对偶残差 sk=βA⊤B(yk−yk−1)(衡量目标函数的最优性)。当两者均小于预设阈值时停止迭代。
6.5.5 收敛性证明(凸情形)#
以下假设 f 和 g 均为凸函数。
算法最优性条件推导#
对三个子步骤分别写出最优性条件。
x 子问题. 对 x 的子问题求次梯度并令其包含零:
0∈∂f(xk+1)+A⊤λk+βA⊤(Axk+1+Byk−c) 利用 λk+1 的更新式进行加减项处理,整理得:
0∈∂f(xk+1)+A⊤λk+1+βA⊤B(yk−yk+1)(6.4) y 子问题. 类似地:
0∈∂g(yk+1)+B⊤λk+βB⊤(Axk+1+Byk+1−c) 化简得:
0∈∂g(yk+1)+B⊤λk+1(6.5) λ 更新. 对第三步做变形:
Axk+1+Byk+1−c=β1(λk+1−λk)(6.6) 与问题最优性条件的对比#
原问题的 KKT 条件为:
0∈∂f(x∗)+A⊤λ∗(6.7) 0∈∂g(y∗)+B⊤λ∗(6.8) Ax∗+By∗−c=0(6.9) 将算法条件 (6.4)—(6.6) 与问题条件 (6.7)—(6.9) 逐一对比:
- 对比 (6.4) 和 (6.7):需要额外项 βA⊤B(yk−yk+1)→0;
- 对比 (6.5) 和 (6.8):若 yk+1→y∗,λk+1→λ∗,则自动满足;
- 对比 (6.6) 和 (6.9):需要 β1(λk+1−λk)→0。
因此,证明收敛性归结为证明:
βA⊤B(yk−yk+1)→0,β1(λk+1−λk)→0 变分不等式形式#
变分不等式(Variational Inequality, VI)问题:寻找 x∗∈Ω 使得 (y−x∗)⊤F(x∗)≥0 对所有 y∈Ω 成立。
将问题最优性条件写成变分不等式形式:
(x−x∗)⊤[∇f(x∗)+A⊤λ∗]≥0,∀x(6.7’) (y−y∗)⊤[∇g(y∗)+B⊤λ∗]≥0,∀y(6.8’) 将算法最优性条件同样写成变分不等式形式:
(x−xk+1)⊤[∇f(xk+1)+A⊤λk+1+βA⊤B(yk−yk+1)]≥0,∀x(6.4’) (y−yk+1)⊤[∇g(yk+1)+B⊤λk+1]≥0,∀y(6.5’) 联立不等式#
在 (6.7’) 中令 x=xk+1,在 (6.4’) 中令 x=x∗,两式相加。利用凸函数梯度的单调性(即 (x∗−xk+1)⊤[∇f(x∗)−∇f(xk+1)]≥0),得到:
(x∗−xk+1)⊤A⊤[(λk+1−λ∗)+βB(yk−yk+1)]≥0(6.10) 类似地,在 (6.8’) 中令 y=yk+1,在 (6.5’) 中令 y=y∗,利用 g 的凸性,得到:
(y∗−yk+1)⊤B⊤(λk+1−λ∗)≥0(6.11) (6.10) 与 (6.11) 相加#
将 (6.10) 和 (6.11) 相加。利用约束 Ax∗+By∗=c 以及 λk+1−λk=β(Axk+1+Byk+1−c),经过整理得到:
β1(λk−λk+1)⊤(λk+1−λ∗)+β(x∗−xk+1)⊤A⊤B(yk−yk+1)≥0(6.12) 其中前半部分的推导要点:Ax∗+By∗−c=0 而 Axk+1+Byk+1−c=β1(λk+1−λk),两式相减消去 c,得到关于 λ 差的表达式。
对后半部分进一步处理。由 Ax∗−Axk+1=−β1(λk+1−λk)−(Byk+1−By∗),代入 (6.12) 并利用 g 梯度的单调性,最终整理为:
β1(λk−λk+1)⊤(λk+1−λ∗)+β(Byk+1−By∗)⊤(Byk−Byk+1)≥0(6.13) 极化恒等式#
引入如下代数恒等式(可通过配方法验证):
2(a−b)⊤(c−d)=∥a−d∥2−∥a−c∥2+∥b−c∥2−∥b−d∥2 分别应用于 (6.13) 中的两个内积项。
第一个内积项(令 a=λk,b=λk+1,c=λk,d=λ∗,注意 a=c 时 ∥a−c∥2=0):
β1[∥λk−λ∗∥2−∥λk−λk+1∥2−∥λk+1−λ∗∥2] 第二个内积项(类似处理):
β[∥Byk−By∗∥2−∥Byk−Byk+1∥2−∥Byk+1−By∗∥2] 合并并乘以 2 后整理,得到关键不等式:
β1∥λk+1−λ∗∥2+β∥Byk+1−By∗∥2≤β1∥λk−λ∗∥2+β∥Byk−By∗∥2−β1∥λk+1−λk∥2−β∥Byk+1−Byk∥2(6.14) Fejer 单调性与收敛结论#
定义向量 u=(λ,y)⊤ 和对称半正定矩阵:
H=(β1I00βB⊤B) 定义 H-范数 ∥v∥H2=v⊤Hv。不等式 (6.14) 可简洁地写为:
∥uk+1−u∗∥H2≤∥uk−u∗∥H2−∥uk+1−uk∥H2 这正是 Fejer 单调性(Fejer monotonicity)的标准形式:序列 {∥uk−u∗∥H2} 单调递减。移项得:
∥uk+1−uk∥H2≤∥uk−u∗∥H2−∥uk+1−u∗∥H2 对 k=0,1,2,… 求和(telescoping sum):
k=0∑∞∥uk+1−uk∥H2≤∥u0−u∗∥H2<∞ 因此 ∥uk+1−uk∥H2→0(k→∞),这意味着:
λk+1−λk→0,B(yk+1−yk)→0 回顾收敛目标:这恰好证明了 (6.4) 中的额外项 βA⊤B(yk−yk+1)→0 以及 (6.6) 中的 β1(λk+1−λk)→0。算法最优性条件趋向于问题最优性条件。由 f 和 g 均为凸函数,KKT 条件的满足即意味着 (x∗,y∗,λ∗) 是原问题的最优解。■
6.5.7 ADMM 与 Douglas-Rachford 分裂的关系#
ADMM 并非孤立的算法,它与多种经典方法有深层联系。最重要的等价关系是:对原问题应用 ADMM,等价于对其对偶问题应用 Douglas-Rachford 分裂(DRS)算法。DRS 算法解决的是 0∈(A+B)x 形式的单调包含问题,其迭代格式为 zk+1=zk+JcB(2JcAzk−zk)−JcAzk。这一等价关系意味着 ADMM 的收敛性可以从 DRS 的理论中直接继承——DRS 对非扩张算子的收敛性理论(第二章的框架)直接适用于 ADMM。
此外,当约束为 x=y(即 A=I,B=−I,c=0)时,ADMM 退化为对 minxf(x)+g(x) 的求解,迭代中 x 子问题变成 proxf,y 子问题变成 proxg,与第五章的邻近算法体系完全衔接。
6.5.8 应用实例#
LASSO 问题#
考虑 LASSO(ℓ1 正则化最小二乘)问题:
xmin21∥Ax−b∥2+α∥x∥1 为使用 ADMM,引入辅助变量 y,将原问题转化为可分形式:
x,ymin21∥Ax−b∥2+α∥y∥1s.t.x−y=0 此处 f(x)=21∥Ax−b∥2,g(y)=α∥y∥1,线性约束中取 A=I,B=−I,c=0。增广拉格朗日函数为:
Lβ(x,y,λ)=21∥Ax−b∥2+α∥y∥1+λ⊤(x−y)+2β∥x−y∥2 ADMM 的三步迭代为:
x 子问题. 对 x 求导令其为零:A⊤(Axk+1−b)+λk+β(xk+1−yk)=0,解得:
xk+1=(A⊤A+βI)−1(A⊤b−λk+βyk) y 子问题. 化为带 ℓ1 范数的 proximal 问题,解由软阈值算子(soft thresholding operator)给出:
yk+1=Sα/β(xk+1+β1λk) 其中 Sτ(d)i=⎩⎨⎧di−τ,0,di+τ,di>τ∣di∣≤τdi<−τ
λ 更新.
λk+1=λk+β(xk+1−yk+1) 凸集交集中的点#
给定两个凸集 C 和 D,寻找 C∩D 中的点。利用指示函数 δC(x) 和 δD(x),问题转化为:
x,yminδC(x)+δD(y)s.t.x−y=0 ADMM 的三步迭代为:
x 子问题. 由于指示函数约束 x∈C,化为在 C 上的最近点投影:
xk+1=ΠC(yk−β1λk) y 子问题. 类似地:
yk+1=ΠD(xk+1+β1λk) λ 更新.
λk+1=λk+β(xk+1−yk+1) 凸集交集问题通过 ADMM 转化为交替投影问题,每一步只需计算到单个凸集的投影,比直接求交集投影更易实现。
6.5.9 非凸 ADMM 收敛性证明框架#
当 f 或 g 为非凸函数时,ADMM 的收敛性证明显著复杂化,通常需要借助 KL 条件(Kurdyka-Lojasiewicz condition)。证明框架包含以下四个步骤。
第一步:充分下降性(Sufficient Decrease). 构造一个 Lyapunov 函数,证明其在前后迭代步之间严格下降:
Φ(wk+1)≤Φ(wk)−c∥wk+1−wk∥2 其中 wk=(xk,yk,λk),c>0 为常数。
第二步:相对误差条件(Subgradient Upper Bound). 证明 Lyapunov 函数的次微分集合中范数最小的向量能够被连续迭代差 ∥wk+1−wk∥ 所控制。
第三步:序列有界性与连续性. 若 {wk} 有界(可通过强制性条件保证),则由 Bolzano-Weierstrass 定理存在收敛子列。需进一步证明所有聚点处 Lyapunov 函数取相同的常数值。
第四步:收敛性与收敛率. 在前三步的基础上,利用 KL 不等式建立收敛性定理。所需条件包括序列有界、f 和 g 为半代数函数(semi-algebraic function)且满足 KL 条件。收敛率取决于 KL 指数 θ∈[0,1):
这一非凸分析框架不仅适用于 ADMM,也是许多非凸优化算法收敛性分析的通用方法论:按”充分下降—相对误差—连续性”三步逐一建立,最终利用 KL 不等式完成收敛率证明。