模型大小与性能的关系：我的流匹配模型训练经历

在人工智能和模型训练的领域中，模型的大小和性能往往成正比。最近，我在进行一项实验，目标是训练一个流匹配模型，该模型能够接收雷达信息并输出相应的配准光学图像。我首先设计了一个8层、384宽度的DiT模型，在3080显卡上训练了两天，但结果并不尽如人意。随后，我借到了一块4090 48G显卡，训练速度有了显著提升。基于这个提升，我设计了一个12层、576宽度的DiT模型，训练了20小时。在研究过程中，我发现即使是研究性质的DiT模型，其规模也远大于我所设计的模型。尽管我的模型只是用于生成黑白低分辨率的遥感图像，且训练速度较慢，但新的训练结果让我决定尝试一个参数量是原来十倍的超大模型。这个超大模型训练相当缓慢，几乎占满了所有显存，但仅训练了十小时，效果就令人惊喜。现在，我几乎离不开4090显卡了。

模型大小与性能的关系：我的流匹配模型训练经历

评论已关闭