Reconciling Contradictory Views on the Effectiveness of SFT in LLMs: An Interaction Perspective

作者：Junpeng Zhang, Lei Cheng, Guoxi Zhang, Hua Cai, Qing Xu, Quanshi Zhang（上海交通大学，北京通用人工智能研究院，UniDT）

核心发现：SFT 对 LLM 的有效阶段极其短暂，主要作用是去除噪声交互而非学习新的可靠推理模式。早期去噪阶段之后，继续微调主要引入过拟合交互。

图1：LLM 的复杂推理模式可被分解为少量交互（短语模式），SFT 过程分为短暂去噪阶段和漫长过拟合阶段

图1上半部分展示了交互分解的核心思想：给定一个物理相关的输入 prompt，LLM 的输出得分可以被一个逻辑模型 $\phi(\cdot)$ 忠实地近似，该模型由若干 AND-OR 交互组成。每个交互对应一个短语模式，例如”laws""of""motion”三个词共同出现时贡献 0.41 的效果增益。图1下半部分展示了 SFT 的两阶段动态：先经历短暂的去噪阶段（移除不可泛化、正负相消的噪声交互），随后进入漫长的过拟合阶段（重新学习噪声交互）。

1. 引言#

SFT 作为预训练模型适配下游任务的标准策略，在 LLM 上呈现出矛盾的效果：一方面 Ouyang et al., Chung et al. 等工作认为 SFT 对指令遵循和可用性至关重要，另一方面 Luo et al., Gudibande et al. 等工作发现 SFT 可能导致过拟合、泛化退化甚至灾难性遗忘。

本文不急于裁定 SFT 的有用与否，而是追问一个更根本的科学问题：LLM 内部的哪些因素导致了 SFT 效果的不一致性？ 作者采用 interaction-based explanation 框架来回答这个问题。这里的 interaction 不是 agent 与环境之间的交互，而是指输入词之间的统计协同效应：一组词共同出现时，对模型输出产生超出各自单独贡献之和的额外效果，这个额外效果就是一个 interaction。例如”laws""of""motion”三个词共现时额外贡献 0.41 的预测增益，可以理解为模型内部自发形成的一条”短语级推理电路”。作者追踪这些交互在 SFT 全过程中的涌现、消亡与保留，发现它们的演化模式能很好地解释 SFT 效果的不一致性。

核心发现可归纳为两点：

SFT 主要移除噪声交互，极少学到可靠的新交互。 被移除的交互呈现高阶、正负相消、跨模型不可泛化的特征，属于噪声模式。保留下来的交互则是低阶、正贡献为主、跨模型可泛化的可靠模式。新涌现的交互大部分也是噪声。
去噪阶段极其短暂（约前 1000 步），之后的持续微调主要引入过拟合交互。 过拟合交互的出现与训练/测试 loss 差距扩大高度相关。

实践启示：SFT 确实有效，但有效窗口极短。少量训练样本即可完成去噪，之后继续大规模微调不但收益递减，反而引入过拟合。交互可以作为 SFT 过程中的诊断信号，为 early stopping 提供更原则化的判据。

2. 相关工作#

本文涉及两个研究脉络：

SFT 的争议。 SFT 在 zero-shot 泛化、指令遵循等方面的正面效果得到广泛验证（LIMA、InstructGPT、FLAN 等）。争议主要来自三个方面：SFT 可能使模型过度适配任务格式而削弱 in-context learning 能力（Wang et al., 2022）；SFT 可能只是模仿强模型的回答风格而未获得底层能力（Gudibande et al., 2023）；持续指令微调可能导致灾难性遗忘（Luo et al., 2025）。

基于交互的可解释性。 Ren et al.（2024）证明 DNN 的输出得分可以被少量 AND-OR 交互忠实预测。Zhou et al.（2024）用交互分析 DNN 的泛化能力，Wang et al.（2020）用交互解释对抗迁移性。本文是该框架首次系统性地应用于分析 SFT 过程。

前驱工作	关注点	本文差异
Ren et al., 2024	用 AND-OR 交互忠实分解 DNN 输出	本文将此框架用于追踪 SFT 过程中交互的动态演化
Zhou et al., 2024	交互分析泛化能力	本文聚焦 SFT 场景下交互的涌现、消亡与保留
Gudibande et al., 2023	SFT 可能只是风格模仿	本文从交互层面给出了 SFT 为何”看似有效实则有限”的机制解释

3. 理解 SFT 中 LLM 的表征增益与损失#

3.1 基础：基于交互的可解释性框架#

给定一个 LLM $v$ 和包含 $n$ 个输入变量（每个变量对应一个词的 embedding）的 prompt $\boldsymbol{x}$ ，模型的输出得分定义为生成目标 token 序列 $[y_1, \ldots, y_m]$ 的 log-odds 之和：

$v(\boldsymbol{x}) \overset{\text{def}}{=} \sum_{i=1}^{m} \log \frac{p(y=y_i | \boldsymbol{x}, \boldsymbol{y}_i^{\text{preceding}})}{1 - p(y=y_i | \boldsymbol{x}, \boldsymbol{y}_i^{\text{preceding}})}$

交互分解的目标是将该输出得分拆解为一组 AND-OR 交互的数值效果之和。逻辑模型 $\phi(\boldsymbol{x}')$ 由两类交互构成：

AND 交互：集合 $T$ 中所有变量都出现时激活，效果为 $I_T^{\text{and}}$
OR 交互：集合 $T$ 中任意变量出现时激活，效果为 $I_T^{\text{or}}$

Universal matching 性质是该框架的理论基石：逻辑模型 $\phi$ 在输入的全部 $2^n$ 个 mask 状态上都能精确逼近 LLM 的输出，即 $\forall \boldsymbol{x}' \in \Psi, |\phi(\boldsymbol{x}') - v(\boldsymbol{x}')| < \epsilon$ 。Ren et al.（2024）进一步证明每个输入样本的显著交互数量有界，实践中通常在 50-150 之间。

计算层面，精确提取交互的代价与 Shapley 值类似呈指数级，但已有 Sparse Mobius Transform（ $O(nK\log n)$ ）、SpEx、ProxySPEX 等近似算法将其压缩到可操作范围。

3.2 三类交互的定义与质量度量#

作者将 SFT 过程中的交互分为三类，设 $\Omega_t^{\text{and}}$ 、 $\Omega_t^{\text{or}}$ 为经过 $t$ 步 SFT 后的 AND/OR 交互集合：

Removed interactions $\boldsymbol{R}_t^{\text{type}} = \Omega_0^{\text{type}} \setminus \Omega_t^{\text{type}}$ ：SFT 前存在但被消除的交互
Preserved interactions $\boldsymbol{P}_t^{\text{type}} = \boldsymbol{P}_{t-1}^{\text{type}} \cap \Omega_t^{\text{type}}$ ：SFT 全程保留的交互
Newly emerged interactions $\boldsymbol{E}_t^{\text{type}} = \Omega_t^{\text{type}} \setminus \boldsymbol{P}_t^{\text{type}}$ ：SFT 中新学到的交互

两个核心质量度量：

Metric 1：可泛化交互比例 $\gamma$ 。引入一个架构不同的 baseline LLM $v'$ ，交互 $S$ 在 $v$ 和 $v'$ 中同时出现且效果方向一致则视为可泛化。 $\gamma$ 度量可泛化交互效果占总效果的比例。

$\gamma(\Omega^{\text{and}}, \Omega^{\text{or}}) = \frac{\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} |I_S^{\text{type}} \cdot \mathcal{G}_S^{\text{type}}|}{\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} |I_S^{\text{type}}|} \times 100\%$

Metric 2：未相消交互效果比例 $\rho$ 。度量正负效果相消后残余效果占总绝对效果的比例。 $\rho$ 接近零意味着正负效果强烈相消，交互对预测贡献甚微，更可能是噪声。

$\rho(\Omega^{\text{and}}, \Omega^{\text{or}}) = \frac{|\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} I_S^{\text{type}}|}{\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} |I_S^{\text{type}}|} \times 100\%$

交互的 order/complexity 定义为涉及的输入变量数 $|T|$ 。已有研究表明低阶交互对噪声更鲁棒、跨模型泛化性更强。作者进一步将每类交互按 order 展开为分布向量（如新涌现正交互的分布 $\boldsymbol{e}^+ = [\text{e}^{(1),+}, \ldots, \text{e}^{(n),+}]^T$ ），为可视化交互演化提供基础。

3.3 SFT 的角色：去噪而非可靠表征学习#

实验设置。 在 GoEmotions、Unilaw-R1-Data、Databricks-Dolly-15k 三个数据集上对 Qwen2.5-3B/7B-Instruct、Llama-2-7B-Chat、Llama-3-8B-Instruct、Gemma-3-4B-it 进行 LoRA SFT（rank=8，lr=1e-4，有效 batch size=64）。

图2：SFT 过程中三类交互分布的演化（Llama-3-8B-Instruct 和 Qwen2.5-7B-Instruct 在 GoEmotions 上）

图2的全景视图非常信息密集。每行对应一个模型，三列分别展示新涌现、被移除、保留交互的 order 分布随训练步数的变化。绿色区域标记去噪阶段，紫色区域标记过拟合阶段。关键观察：去噪阶段中，大量高阶、正负对称的交互被移除，仅保留少量低阶交互；进入过拟合阶段后，大量高阶且正负相消的新交互重新涌现。

五个核心发现：

Finding 1：去噪阶段新涌现交互极少，过拟合阶段新涌现交互大量增加。 从交互数量和总强度两个维度看，绝大部分新涌现交互出现在第二阶段。

Finding 2：第一阶段涌现的少量交互更可泛化，第二阶段涌现的大量交互更像噪声。 三重证据支撑此结论：(i) 第二阶段交互多为高阶；(ii) 第一阶段交互的跨模型泛化性远高于第二阶段；(iii) 第一阶段交互的未相消效果比例远高于第二阶段。

Finding 3：交互移除集中在极短的第一阶段。 绝大部分被移除的交互在前 ~1000 步内就被清除，第二阶段几乎不再移除交互。

Finding 4：被移除交互几乎全是噪声。 (i) 以高阶交互为主；(ii) 跨模型泛化性接近零（ $\gamma \approx 0$ ）；(iii) 正负效果几乎完全相消（ $\rho \approx 0$ ）。

Finding 5：保留交互数量少但质量最高。 (i) 以低阶交互为主；(ii) 超过半数可跨模型泛化（ $\gamma > 50\%$ ）；(iii) 正负相消程度最低（ $\rho$ 最大）。

图3直观展示了质量演化趋势。上行为 $\gamma$ （可泛化比例），下行为 $\rho$ （未相消比例），分别在四个模型-数据集组合上绘制。红色曲线（preserved）在两个指标上始终最高；橙色曲线（newly emerged）仅在绿色区域（去噪阶段）短暂表现良好，随后迅速衰退；蓝色曲线（removed）两个指标始终接近零。

SFT 的本质是快速去噪加持久过拟合。有效窗口极短（~1000 步），之后继续训练不但不能学到新的可靠模式，反而引入大量噪声交互。

3.4 保留交互是 LLM 推理的骨干吗？#

作者从三个角度验证假设：SFT 后保留下来的少量交互构成了目标 token 预测的核心骨干。

(1) 正负相消验证。 保留交互的 $\rho$ 值最高，新涌现和被移除交互的效果大量正负相消，表明后两者主要编码噪声。

(2) 单交互平均贡献。 保留交互和去噪阶段早期涌现交互的单交互平均贡献显著大于被移除交互和过拟合阶段涌现交互。

(3) 仅用保留交互的预测能力。 将各类交互单独用于 token 预测（通过将交互效果之和输入 sigmoid 逆函数恢复概率），计算测试 cross-entropy loss。保留交互和早期涌现交互产生的 loss 显著低于被移除交互和后期涌现交互。

图4上行展示四个模型设定下各类交互的测试 cross-entropy loss：preserved 和 emerged in 1st stage 的 loss 远低于 removed 和 emerged in 2nd stage。下行展示单交互平均贡献，preserved 和早期 emerged 的贡献量级远大于其他两类（注意 Llama-2-7B-Chat 的 y 轴标注为 1e-2 量级）。

保留交互加上去噪阶段少量新涌现交互，共同构成 LLM 推理的骨干。SFT 后期涌现的大量交互对预测几乎没有实质贡献。

4. 结论与讨论#

交互框架为 SFT 的”矛盾效果”给出了统一解释。SFT 的净贡献可以概括为：在极短的窗口内高效清除预训练模型中的噪声推理模式，同时识别并强化已有的可靠模式。这个窗口过后，持续微调主要产生过拟合交互。

实践层面的三个含义：(1) 交互分布可作为 SFT 过程的诊断信号，当新涌现交互从低阶转向高阶、 $\rho$ 开始下降时，即为 early stopping 的合理时机；(2) 大规模 SFT 数据集的边际价值可能远低于预期，少量高质量数据即可完成去噪；(3) 端到端 SFT 之后的继续训练需要更审慎的评估。

参考链接：