大模型精度收敛分析和调优

chengxiaoli · 2025 年7 月 9 日 08:58

当做完精度对齐后，发现模型精度还是有很大差距或者loss不收敛，此时大概率不是框架或者算子的问题，需要针对训练相关的配置做进一步查验。

校验超参

重点检查项：

卡数：对标训练是否使用多卡，使用了几张？

学习率：基础学习率的值，学习率衰减策略，是否使用分组等，一般可以直接打印对比。

batchsize：单卡的batchsize，多卡的总batchsize一般都需要对齐

epoch/step：训练的总epoch或者step

其他检查项：

是否启用synBN，是否有参数冻结，是否有多个训练阶段，是否在训练过程中更改模型结构等。

此部分注意查看原始论文实验部分，会有训练细节的描述。

判断是否使用混合精度
a. 检查对标脚本是否使用混合精度，torch.cuda.amp
b. 查看MindSpore是否有float16的算子，可以在ir文件中搜索是否有float16执行的算子，一般选取hwopt_d_end_graph_*.ir
如何添加混合精度
添加混合精度方法
溢出检测方法
当使用混合精度时，算子有可能会有溢出，那如何判断是否会出现溢出呢：溢出检测

当出现溢出时可以怎么做？

1 ms.set_context(ascend_config={“precision_mode”: “force_fp16”)

话题		回复	浏览量
MindSpore大模型打开pp并行或者梯度累积之后loss不溢出也不收敛模型训练-Model Training	0	23	2025 年10 月 10 日
昇腾910上算子溢出问题分析模型训练-Model Training	0	64	2025 年9 月 29 日
Mixtral 8*7B 大模型精度问题总结模型训练-Model Training	0	38	2025 年9 月 26 日
MindSpore大模型微调时报溢出及解决模型训练-Model Training	0	24	2025 年10 月 9 日
torch.nn.Conv2d和ms.nn.Conv2d精度对齐问题问题求助 Help 模型 , 调试 , api	5	103	2025 年7 月 19 日