MindSpore大模型打开pp并行或者梯度累积之后loss不溢出也不收敛

1 系统环境

硬件环境(Ascend/GPU/CPU): Ascend
MindSpore版本: 2.2.0
执行模式(PyNative/ Graph): 不限

2 报错信息

使用MindSpore大模型打开pp并行或者梯度累积之后loss不溢出也不收敛。

3 根因分析

应该是loss计算方式有问题,实际溢出但是显示为False。

4 解决方案

手动减小loss_scale,按经验可尝试设置为65536、2048等。微调时可同步设置beta20.999