Lecture 9：Scaling Laws - 善良的xwysyy

Scaling Laws 概述与动机#

Scaling laws 的核心场景可以用一个简单的思想实验来理解：假设你拿到了 10,000 块 B200 GPU 和一个月的时间，目标是训练一个优秀的开源语言模型。你已经有了基础设施团队和预训练数据集，但在真正启动大规模训练之前，面临大量选择——用什么架构？超参数怎么设？训练多大的模型？用多少数据？这些问题中的任何一个决策失误，都可能意味着数百万美元的浪费。

朴素做法是在大规模上直接做多次训练来调参，但这极其昂贵。Scaling laws 的核心思想是：在小规模上完成所有优化工作，然后通过某种简单的规则将小规模的行为外推到大规模。如果小规模和大规模之间存在稳健的规律性连接（regularities），那么这种外推就是可信的。

Scaling laws 不仅是一种工具，在大型实验室中几乎已经成为一种范式（paradigm）。做 scaling 工作的人会说”我们真的相信 scaling laws”。其本质是：简单的预测性规则，描述小规模模型的性能和行为如何外推到大规模行为。

这种方法论的价值在于，它让我们能够在花费完整预算之前，就对大规模训练的结果有相当精确的数值预测——不仅仅是”能不能训”，而是能预测最终 loss 的具体数值、不同优化器之间的增益差异等等。

理论根基——从泛化界到幂律曲线#

Scaling laws 并非一个全新的概念，它与经典机器学习理论有深刻的联系。

泛化界与样本复杂度#

在 ML 理论中，泛化界（generalization bounds）长期以来就在回答”模型性能如何随资源变化”这类问题。对于有限假设类 $H$ ，经典泛化界的形式为：

$\epsilon(\hat{h}) \leq \min_{h \in H} \epsilon(h) + 2\sqrt{\frac{1}{m}\log\frac{2k}{\delta}}$

这个界不仅告诉我们模型的性能，还显式依赖于样本量 $m$ ——它本质上是一个关于 loss 如何随训练集增长而变化的理论上界。这与 scaling laws 的核心问题——“当我扩大数据量时会发生什么”——是密切相关的。

历史脉络#

1993 年，Corinna Cortes 和 Vladimir Vapnik（Bell Labs）已经在做本质上等价于 data scaling law 的工作。他们的论文 “Learning Curves: Asymptotic Values and Rate of Convergence” 提出：在大数据集上训练分类器很昂贵，不如在小样本上拟合分类器、对其误差率的衰减曲线做拟合，然后用这条曲线来估计大规模性能。这几乎就是 1993 年版本的 data scaling law。

2001 年，Banko & Brill 在 NLP 领域做出了经典论证：相比投入精力改进算法，直接增加数据量往往是提升系统性能更有效的途径。不同算法的性能差距随数据量增加而显著缩小。这是 NLP 领域 data scaling 思想的标志性参考。

2012 年，Kolachina et al. 在机器翻译领域系统研究了不同函数形式（exponential、power law、logarithmic 等）对 BLEU score 与数据量关系的拟合效果。他们发现 Pow₃（ $y = c - ax^{-\alpha}$ ）和 Pow₄（ $y = c - (-ax + b)^{-\alpha}$ ）这类幂律形式拟合最好——这与今天使用的函数形式完全一致。

2017 年，Hestness et al. 的工作是神经 scaling laws 的真正起点。他们在语音识别、机器翻译、语言模型等多个领域构建了 data scaling laws，证明这些系统都遵循整齐的多项式趋势。这篇论文远远领先于 2020 年代 OpenAI 的 scaling laws 工作，并且已经讨论了如今热门的话题：涌现现象（accuracy 比 loss 更不连续）、compute-driven scaling（可预测地扩展到大训练数据意味着计算资源极其重要）、以及系统优化等价于精度提升。

很多我们今天看到的现象——系统 scaling、涌现能力等——早在 2017 年就可以从这些 scaling law 论文中推断出来。

这些 scaling laws 的理论来源本质上是纯粹的曲线拟合（curve fitting）。没有什么金科玉律说幂律是唯一的选择，但统计学理论提供了丰富的候选函数形式——理论本身就在思考误差率如何随各种量衰减。物理学家也擅长这个，因为他们思考极限行为（limits），这自然产生不同的 scaling law 函数形式。

数据 Scaling Laws——从简单估计到神经网络#

基本设定#

Data scaling law 是一种单变量关系：固定模型训练过程，确保模型远大于数据集（处于 power law regime 而非 irreducible error regime），然后逐步增加数据量，观察误差如何下降。

预期行为是：误差单调递减（更多数据帮助完成任务），从随机猜测水平下降到某个不可约误差（irreducible error），即任务本身的噪声下限。当模型相对数据量太小时，进入不可约误差区间——此时不论加多少数据，性能都不再提升。Scaling law 分析通常关注的是远离这个渐近线的 power law regime。

实证观察：log-log 线性#

Kaplan et al.（2020）在 OpenAI 的 “Neural Scaling Laws” 论文中展示了一个关键的实证观察：将 log(数据集大小) 放在 x 轴、log(test loss) 放在 y 轴，数据点形成非常清晰的线性趋势。该线性关系的拟合公式为 $L = (D / 5.4 \times 10^{13})^{-0.095}$ 。

log-log 图上的线性关系意味着一个无标度（scale-free）或幂律（power law）关系：误差以多项式方式衰减。同时意味着我们离渐近线还很远——一旦接近渐近线，曲线会逐渐弯曲偏离直线。

为什么是幂律？——从均值估计说起#

考虑一个最简单的统计估计问题：从高斯分布 $x_1, \ldots, x_n \sim N(\mu, \sigma^2)$ 中估计均值 $\hat{\mu} = \frac{\sum_i x_i}{n}$ 。其期望误差为：

$\mathbb{E}[(\hat{\mu} - \mu)^2] = \frac{\sigma^2}{n}$

对两边取对数： $\log(\text{Error}) = -\log n + 2\log \sigma$ ，这就是一个 scaling law——log-log 图上斜率为 $-1$ 的直线。更一般地，任何形如 $\frac{1}{n^\alpha} + C$ 的误差形式，在 log-log 图上（减去常数项后）都会产生 scaling law。

经典参数估计（均值估计、线性回归等）的收敛速率都是 $1/n$ ，对应 log-log 斜率为 $-1$ 。

神经网络的指数之谜#

如果神经 scaling laws 的来源与经典统计一致，那么我们预期在 log-log 图上看到斜率约 $-1$ 。但实际观测到的指数远小于此：Hestness 的机器翻译约 $-0.13$ ，语音识别约 $-0.30$ ，Kaplan 的语言模型约 $-0.095$ 。

这意味着神经网络的学习速度远慢于经典参数估计。虽然仍然是多项式衰减，但指数非常小。那么，什么统计模型会产生这样的收敛速率？

非参数估计的解释#

考虑在 $D$ 维空间中估计一个任意光滑函数 $f$ 。使用最简单的分箱（binning）估计器：将 $[0,1]^D$ 空间切分成边长 $n^{-1/D}$ 的小方块，每个方块内做局部平均。此时误差大约为 $n^{-1/D}$ ，即：

$\text{Error} \approx n^{-1/D}$

log-log 斜率为 $-1/D$ 。如果 $D = 10$ ，斜率就是 $-0.1$ ——恰好与观测到的神经 scaling law 指数吻合。

这意味着一种可能的心理模型：这些神经网络的行为类似于在约 10 维空间中的非参数回归器（如 nearest neighbor）。通过观察 scaling law 的指数，我们可以推断神经网络从数据中学习的”有效速率”。

Bari et al. 等 scaling law 理论研究者更进一步论证，scaling law 指数确实对应于数据流形的内在维度（intrinsic dimension），神经网络本质上是一个非参数平滑器。这个论证依赖于内在维度估计器，证据可能还不够 robust，但作为直觉框架是有启发性的。

数据工程中的 Scaling Laws——混合、重复与筛选#

纯粹的 data scaling law（数据量 vs 性能）虽然有助于预测，但在工程上的直接用途有限。真正有价值的问题是：最优数据混合比例是什么？应不应该重复数据？数据筛选策略如何随规模变化？

数据混合的 Scaling Laws#

从泛化界的视角看，数据集组成影响的是 scaling law 的截距（offset）而非斜率（slope）。这意味着不同数据混合方式产生平行但高低不同的 scaling 曲线。

一个使用线性回归的 toy model 可以说明这一点：如果只采样一种类型的数据，误差始终较高；混合使用两种数据源时，误差最低。这个截距的形状呈 U 形——数据多样性非常有帮助（Hashimoto 2021）。

实践中的做法是训练小模型并拟合不同混合比例下的 loss 曲线，然后外推到目标 compute 预算。Data Mixing Laws 等工作提出了通过三步 pipeline 预测混合效果的方法。但实际操作时，很多实践者发现直接在小规模上选最佳数据混合，然后直接 scale up，效果就很好——不需要拟合 scaling law。DataDecide 等大规模实证研究也验证了这一点。

这与 scaling law 理论是一致的：如果斜率不变而只有截距变化，那么小规模的最优混合在大规模上也是最优的。

数据重复的影响#

随着 compute 的增长速度超过可用数据的增长速度，数据重复（multi-epoch training）变得越来越重要。“Scaling Data-Constrained Language Models” 的研究表明：

4 个 epoch 以内，标准训练 recipe 下几乎不受影响
超过 4 个 epoch，实际 scaling 曲线（实线）明显偏离理想的 fresh data 曲线（虚线）
可以写出修正的函数形式来预测重复下的 scaling 行为，其中引入有效数据量的概念： $D' = U_D + U_D R_D^* (1 - e^{-R_D / R_D^*})$

将这个思路推到极端——假设有无限 compute会怎样？不断重复 epoch 和增大模型都有递减收益，最终需要通过集成（ensembling）等手段来进一步榨取数据的价值。但一个值得注意的现象是：即使做了各种干预（正则化、集成），scaling law 的斜率看起来惊人地相似——干预通常只改变截距。

数据筛选的 Scale 依赖性#

数据筛选策略不应该是静态的，而应该随 scale 变化。在小 compute 预算下，应该激进过滤——只保留最高质量的数据，因为本来也训练不完所有数据。在大 compute 预算下，为了避免高质量数据被过度重复，需要放松过滤标准，纳入质量稍低的数据。

Goyal et al. 的 “Scaling Laws for Data Filtering” 实证验证了这一点：最优的数据筛选阈值确实是 compute 的函数。小 compute 对应高度激进的过滤，大 compute 对应温和的过滤。

模型工程的 Scaling Laws——架构、优化器与超参数#

架构比较：Transformer vs LSTM#

“Transformer 是否真的比 LSTM 好？“的暴力回答是训练一个 LSTM GPT-3，但这代价太高。Scaling law 方法是：在多个 compute 量级上分别训练 Transformer 和 LSTM，观察它们的 scaling 曲线。

Kaplan et al.（2021）的结果非常清晰：LSTM（不同层数）的 scaling 曲线不仅截距更高，斜率可能也更差。这意味着随着 scale 增大，Transformer 的优势会越来越大。这个结论无需训练巨型模型就能得出。

今天的架构论文（Mamba、Gated Delta Net 等）都会包含类似的图：vanilla transformer vs 新架构的 scaling 曲线对比。关键是看新架构是否在整个 compute 范围内保持优势，尤其是斜率不能更差——否则在足够大的 scale 上最终会被反超。

更大规模的架构 Scaling 研究#

Ek et al.（Google）对 T5-style 模型做了全面的 scaling 研究，覆盖多种架构变体。结果精确预测了今天前沿模型的架构选择：

Performer（高效 attention）：scaling 趋势差——我们确实没有采用
Gated Linear Unit（GLU）：红线始终优于绿线——今天所有前沿模型都用 GLU
Switch Transformer（MoE）：总体 scaling 趋势好
Mixture of Softmaxes：scaling 趋势也不错

如果一个干预在 scaling law 中不显现优势，它就不是好的干预。过去的工作已经在远小于当今 compute 量级上捕获了驱动前沿模型发展的架构趋势。

优化器比较：SGD vs Adam#

对 SGD 和 Adam 做 scaling law 分析（Hestness 的数据），可以看到：两者的截距不同（Adam 更好），但斜率几乎相同。即使是从 SGD 换到 Adam 这样的巨大改变，scaling 趋势也保持大致不变。这个现象反复出现：在固定数据和模型的情况下，斜率难以改变，干预通常只改变截距。

深度与宽度：Aspect Ratio#

对层数做 scaling 分析，最显著的发现是 1 层和 2 层之间有巨大差距——单层模型的 scaling 趋势远远落后。2 层以上差距变小，但在每个 compute 量级上，更多层仍然略好。

关键的 scale-invariant 量是aspect ratio（ $d_\text{model} / n_\text{layer}$ ），而非绝对层数。Kaplan 的细粒度研究表明：不同模型大小下，aspect ratio 的最优值大约保持在每层 100 维左右，随模型增大略有右移但基本稳定。类似分析也适用于 attention head dimension 等超参数。

不是所有参数都平等#

Scaling laws 对 x 轴的定义非常敏感。Kaplan 发现，如果将 embedding 参数计入总参数量，不同深度的 scaling 曲线会变得混乱；排除 embedding 参数后曲线变得整齐。他们选择排除所有 embedding 参数和最后一层线性层的参数。这个看似合理的决定后来被证明对结果有重大影响（见 Chinchilla 部分）。

Scaling laws 不是魔法。可预测的跨规模 scaling 是被工程出来的——需要选对 x 轴、设对超参数。

MoE 的参数价值#

在 Mixture of Experts 模型中，总参数量和活跃参数量是解耦的。Apple/MIT 的研究在 total parameters、active parameters 和 sparsity 三个维度上做了 scaling 分析：

随着总参数量增大，最优模型变得越来越稀疏
固定 active parameters，增加更多非活跃的 expert 参数仍然能降低 loss
MoE 中非活跃参数虽然不参与每次前向传播，但确实有价值

这些关系都可以用 power law 函数形式描述，并且在不同 compute 量级上保持可预测。

Batch Size 与 Learning Rate 的 Scaling#

在启动大规模训练时，架构和优化器等选择通常可以从文献中借鉴，但 batch size 和 learning rate 几乎总是需要重新确定，因为二者耦合紧密（改一个必须调另一个），且最优值随模型规模变化。

Critical Batch Size#

Batch size 从系统角度来说应该尽可能大——data parallelism 要求大 batch。但从优化角度看，batch size 存在一个递减收益的临界点。

这个临界点的物理含义可以从梯度下降的两个 regime 理解：

Noise-limited regime（小 batch）：每增加一个样本都能有效降低梯度噪声，因为优化受限于方差。此时 batch 扩大带来的收益是”完美”的——额外的样本对应等比例的改善。

Bias-limited regime（大 batch）：梯度噪声已经足够低，优化的瓶颈变成了局部梯度方向与全局最优方向的偏差（bias）。无论进一步降低多少噪声，这个 bias 始终存在。此时继续增大 batch 的收益急剧下降。

Critical batch size $\mathcal{B}_\text{crit}$ 就是从完美 scaling 到低效 scaling 的转折点，是一个平衡 compute 效率和 batch 大小的经验性最优。

估计 Critical Batch Size 的步骤#

McCandlish et al.（OpenAI）提出的估计方法：

选定一个目标 loss
对不同 batch size 各训练一次，记录达到目标 loss 所需的 steps 数 $S$ 和 examples 数 $E$ （ $E = S \times B$ ）
拟合关系式 $\frac{S}{S_\text{min}} - 1 = \left(\frac{E}{E_\text{min}} - 1\right)^{-1}$ ，求出 $S_\text{min}$ 和 $E_\text{min}$
Critical batch size 为 $\mathcal{B}_\text{crit} = \frac{E_\text{min}}{S_\text{min}}$

这个公式平衡了两端：想最小化 steps 就需要更多 examples，想最小化 examples 就需要更多 steps。 $\mathcal{B}_\text{crit}$ 取二者的平衡点，给出约 2 倍于最优 steps 和 2 倍于最优 examples 的折中。

还有一种替代估计方式：直接计算梯度协方差的 trace 与梯度 squared norm 的比值，这在数学上与上述拟合方法等价，但可以更直接地从训练过程中获得。详见 McCandlish et al. 的 critical batch size 原论文。

Critical Batch Size 与 Scale 的关系#

Critical batch size 之所以出现在 scaling law 讲座中，是因为它与目标 loss 之间也服从幂律关系：loss 越低（模型越好），critical batch size 越大。这是一个反比多项式关系。

直觉上：越接近最优，精细调整越重要，方差降低的价值越大，因此能容忍更大的 batch 而不进入 bias-limited regime。这对实践很友好——大规模训练需要大 batch 来实现高并行度，而大规模训练恰好也支持大 batch。

Learning Rate 的 Scale 依赖#

Learning rate 的最优值随模型大小变化。对于纯 width scaling，直觉很简单：模型越大，参数越多，每一步改变的东西越多，因此 learning rate 应该越小。经验法则是 learning rate $\propto 1/\text{width}$ 。

应对这个问题有两种哲学：

方法一：Scaling law 外推。观察小模型中最优 learning rate 的变化趋势（如 learning rate sweep 的最优点如何随模型大小移动），然后外推到目标模型大小。这条变化趋势本身是可预测的。

方法二：μP（Maximal Update Parameterization）。通过重新参数化网络（调整初始化大小、不同层使用不同 learning rate 等），强制最优 learning rate 在不同 scale 下保持不变。这样只需在一个 scale 上找到最优 learning rate，就可以直接用于任何 scale。

两种方法在大规模训练中都有成功案例。目前业界似乎稍微倾向于 scaling law 方法，但两者都是可行的。详细的 μP 分析将在高级 scaling 讲座中展开。

Compute-Optimal Scaling——Chinchilla 案例研究#

核心问题：更多数据还是更大模型？#

给定固定的 FLOPs 预算（ $C \approx 6ND$ ，其中 $N$ 为参数量， $D$ 为 token 数），如何分配给模型大小和数据量？

一个极小的模型吃大量数据会浪费 compute（训练曲线早早平坦），而一个极大的模型只看少量数据也是浪费。最优配比取决于如何理解 loss 与 $N$ 、 $D$ 的联合关系。

联合 Scaling Law 的函数形式#

Rosenfeld（2020）和 Kaplan（2020）几乎同时提出了联合 scaling law：

Rosenfeld： $\text{Error} = n^{-\alpha} + m^{-\beta} + C$ （数据项和模型项的简单加和）
Kaplan： $\text{Error} = [m^{-\alpha} + n^{-1}]^\beta$ （更复杂但思路相近）

两种形式在极限行为上都是直觉正确的：当数据量趋于无穷，只剩模型大小的 scaling law；当模型趋于无穷，只剩数据的 scaling law。检验 scaling law 时，取各变量的极限来理解系统行为是个好习惯。

Rosenfeld 等人证明，即使只在低 compute 区间拟合（绿色点），也能准确外推到高 compute、高数据、高模型量级的区域。

Kaplan 的预测与 Chinchilla 的纠正#

图5：Chinchilla vs Kaplan 的 compute-optimal 预测

Kaplan 求解联合 scaling law 的最优化后得出： $N_\text{opt} = C^{0.73}$ ， $D_\text{opt} = C^{0.27}$ 。这意味着 tokens/parameter 随 compute 增长而递减——compute 越多，应该训练越大的模型而用相对更少的数据。这直接驱动了 GPT-3 时代的趋势：训练数百 B 甚至 T 级参数的密集模型。

2022 年，Hoffmann et al.（DeepMind）在 Chinchilla 论文中指出 Kaplan 的预测严重偏差。他们用三种不同方法重新估计，得出的结论是 $N$ 和 $D$ 的指数几乎相等（约 0.50/0.50），意味着参数量和 token 数应该等比例增长，即约 20 tokens per parameter 的比例。

Chinchilla 的三种方法#

Method 1（Lower Envelope）：取所有训练曲线的下包络——每个 FLOPs 值对应的最佳 loss。记录这些最优点对应的模型大小，散点图形成线性趋势，给出 FLOPs-to-parameters 的最优映射。结论：67B 参数。

Method 2（IsoFLOP）：对每个固定 FLOPs 预算，扫描 parameter-to-data 的配比，画出 U 型曲线并取最小值。将各 FLOPs 的最小值连线，得到另一条最优映射。结论：63B 参数。IsoFLOP 方法简单、robust，是目前最受推崇的方法。

Method 3（Parametric Fit）：假设一个联合函数形式（类似 Rosenfeld/Kaplan），在大量训练 run 上拟合系数，然后做约束优化。Chinchilla 的 Method 3 给出 0.46/0.54 的指数，与 Methods 1&2 的 0.50/0.50 有出入。

为什么 Kaplan 和 Chinchilla 会不一致？#

“Resolving Discrepancies in Compute-Optimal Scaling of Language Models”（Wortsman, Jitsev, Schmidt, Carmon）系统地追溯了差异来源，证明一系列看似微小的决策累积导致了巨大偏差：

参数计数方式（a→b）：Kaplan 排除了 embedding 参数和最后一层线性层的参数。embedding 和 output projection 矩阵形状相同（ $d_\text{model} \times V$ ），Kaplan 认为两者是对偶的，一起排除。但是否包含这些参数对 scaling law 形状有显著影响。
Learning rate warmup 不合理（b→c）：Kaplan 的很多小模型太小，以至于在 warmup 结束前还没收敛。这导致小模型的 loss 被系统性高估。
Batch size 固定（c→e）：Kaplan 对所有大小的模型使用同一个大 batch size，对小模型来说 batch 过大（超过 critical batch size），导致训练效率低下。使用可变 batch size 后，结果完全对齐 Chinchilla。

每一步修正后 compute-optimal 指数从 0.835 逐步下降到 0.497——最终精确匹配 Chinchilla。

另一种解释来自 Pearce & Song：他们不训练任何模型，只从 Chinchilla 的隐含函数形式模拟训练曲线。发现 Kaplan 在更低的 compute 区间操作，因此对小扰动（如非 embedding 参数的非线性效应）更敏感。

Method 3 的遗留问题#

Chinchilla 论文中 Method 3 与 Methods 1&2 的不一致困扰了很多人。Epoch AI 的研究者从论文图表中提取数据并重新拟合 Method 3 的 surface，发现原论文存在欠拟合。修正拟合后，Method 3 也精确给出 $D/N \approx 20$ 的比例，与 Methods 1&2 完全一致。Chinchilla 的作者比他们自己知道的更正确。

你可能不想要 Chinchilla 比例#

20:1 的 token-to-parameter 比例是 compute-optimal 的——它最小化训练成本。但对于生产模型，优化目标不是训练成本，而是推理效率。前沿实验室的 compute 大部分花在 R&D 和 serving 上，而非训练。

为了降低 serving 成本，需要小而精的模型——这意味着有意”过训练”（overtrained）：用更多数据训练更小的模型。历史轨迹很清晰：

GPT-3：3 tokens/parameter（严重欠训练）
Chinchilla 时代：20 tokens/parameter
现代前沿模型：远超 20，加上 MoE 等推理友好的架构

Chinchilla 的真正价值不在于 20:1 这个数字本身（尽管对于纯研究场景，这个比例仍然是合理的默认值），而在于它示范了如何严谨地拟合和使用 scaling laws，以及实践中哪些细节至关重要。

Scaling Laws 的实践陷阱与总结#

上游与下游的鸿沟#

Scaling laws 在 perplexity/loss 上非常干净和规律，但 perplexity 到下游 benchmark 的转换远没有看起来那么可靠。Yi Tay 的架构研究提供了一个极端案例：在 perplexity 上最好的模型（NL12）在下游任务上反而不如 perplexity 更差的 NL32XL。

这是实践中常见的摩擦点——pre-training 团队交付一个 perplexity 很好的模型，说”剩下的是你们 post-training 的事”，但问题往往在 pre-training 阶段就已经埋下。因此，不应该只关注 perplexity，还需要监控 downstream transfer。

正确的方法论是两步走：首先在 perplexity 上建立低方差的 scaling regularity（perplexity 的方差极小，重复 run 差异通常在小数点后第二位），然后通过某种 transfer belief 或额外的实验来建立从 perplexity 到 downstream 的桥接。直接在 downstream metrics 上做 scaling law 面临同样的高方差问题。

一个相关的实操细节：perplexity scaling law 的每个数据点通常只需一次 run（singleton），因为 perplexity 的方差极低。但 learning rate 或 critical batch size 等超参数的 scaling law 方差要大得多，可能需要 variance reduction，尽管实践中这样做的人并不多。

IsoFLOP 作为通用研究工具#

在 Chinchilla 的三种方法中，IsoFLOP（Method 2）作为研究工具经受住了时间考验。其核心操作极其简单：

固定一个 FLOPs 预算
在该预算下扫描所有自由度（如 parameter-to-data 配比、sparsity 等）
画出 loss vs 自由度的 U 型曲线，取最小值
在多个 FLOPs 预算上重复

IsoFLOP 已被成功应用于扩散模型、MoE 研究等多个领域。如果你面对”有一堆 trade-off 不知如何决定”的情况，IsoFLOP 是一个可靠的默认选择。

关键要点#

Scaling 的规律性。log(资源) vs log(性能) 之间的线性关系广泛存在于 data、model parameters、compute、MoE sparsity 等多种维度上。这使得我们能够在不运行巨型训练的情况下做 evidence-driven 的工程决策。

斜率 vs 截距。一个反复出现的经验法则是：大多数干预（数据混合、优化器、正则化）只改变截距，斜率由模型类和数据本身决定。改变斜率的干预（如架构类别的切换）更为稀少，也因此更有价值。

细节决定成败。Kaplan 和 Chinchilla 的差异源于参数计数方式、warmup 设置、batch size 策略等看似微小的决策。Scaling laws 在某种意义上是 lower bounds——它们预测的是”如果将当前 recipe 扩大会发生什么”。如果 recipe 本身有问题（warmup 不合理、batch size 不对），scaling law 预测的就是那个有问题的 recipe 放大后的结果。因此，拟合 scaling law 之前，必须确保小规模 recipe 尽可能接近最终 full run 的设置。

Scaling laws 不是魔法。可预测的跨规模 scaling 需要被精心工程出来：选对 x 轴变量、选对函数形式、确保超参数设置合理、在足够大的 compute 范围上拟合。用 Taylor 展开的视角看：如果只观察很窄的 compute 范围，几乎任何函数都看起来像线性——需要足够宽的范围才能区分多项式、指数等不同形式。