MindSpore大模型打开pp并行或者梯度累积之后loss不溢出也不收敛

huan666 · 2025 年10 月 10 日 22:25

1 系统环境

硬件环境(Ascend/GPU/CPU): Ascend
MindSpore版本: 2.2.0
执行模式（PyNative/ Graph）: 不限

使用MindSpore大模型打开pp并行或者梯度累积之后loss不溢出也不收敛。

应该是loss计算方式有问题，实际溢出但是显示为False。

手动减小loss_scale，按经验可尝试设置为65536、2048等。微调时可同步设置beta2为0.999。

话题		回复	浏览量
MindSpore大模型微调时报溢出及解决模型训练-Model Training	0	16	2025 年10 月 9 日
MindSpore模型Pipeline并行发现有些卡的log中loss为0 分布式并行-Distributed Parallelsim	0	16	2025 年10 月 8 日
baichuan2-13b算子溢出 loss跑飞问题和定位模型训练-Model Training	0	10	2025 年10 月 5 日
使用MindSpore混合精度模式训练出现Loss NaN 模型训练-Model Training	1	34	2025 年10 月 28 日
2.3版本下的mindspore测试，设置了int64后，算子里不会默认更改了。功能调试-Function Debugging	0	23	2025 年8 月 7 日