在人工智能和模型训练的领域中,模型的大小和性能往往成正比。最近,我在进行一项实验,目标是训练一个流匹配模型,该模型能够接收雷达信息并输出相应的配准光学图像。我首先设计了一个8层、384宽度的DiT模型,在3080显卡上训练了两天,但结果并不尽如人意。随后,我借到了一块4090 48G显卡,训练速度有了显著提升。基于这个提升,我设计了一个12层、576宽度的DiT模型,训练了20小时。在研究过程中,我发现即使是研究性质的DiT模型,其规模也远大于我所设计的模型。尽管我的模型只是用于生成黑白低分辨率的遥感图像,且训练速度较慢,但新的训练结果让我决定尝试一个参数量是原来十倍的超大模型。这个超大模型训练相当缓慢,几乎占满了所有显存,但仅训练了十小时,效果就令人惊喜。现在,我几乎离不开4090显卡了。

标签: none

评论已关闭