[AI Research] AI 模型中的“it”是数据集

模型效果的好坏，最重要的是数据集，而不是架构，超参数，优化器。

我现在已经在 OpenAI 工作了将近一年。在这段时间里，我训练了很多生成模型。比起任何人都有权利训练的要多。当我花费这些时间观察调整各种模型配置和超参数的效果时，有一件事让我印象深刻，那就是所有训练运行之间的相似之处。

我越来越清楚地认识到，这些模型确实以令人难以置信的程度逼近它们的数据集。这意味着它们不仅学会了什么是狗或猫，还学会了不重要的分布之间的插值频率，比如人类可能拍摄的照片或人类常写下的单词。

这表现为 - 长时间训练在相同数据集上，几乎每个具有足够权重和训练时间的模型都会收敛到相同的点。足够大的扩散卷积-联合产生与 ViT 生成器相同的图像。AR 抽样产生与扩散相同的图像。

这是一个令人惊讶的观察！它意味着模型行为不是由架构、超参数或优化器选择确定的。它是由您的数据集确定的，没有别的。其他一切都是为了高效地将计算逼近该数据集而采取的手段。

那么，当您提到“Lambda”、“ChatGPT”、“Bard”或“Claude”时，您所指的不是模型权重。而是数据集。