硬件环境(Ascend/GPU/CPU): Ascend MindSpore版本: 2.2.0 执行模式(PyNative/ Graph): 不限
使用MindSpore大模型打开pp并行或者梯度累积之后loss不溢出也不收敛。
应该是loss计算方式有问题,实际溢出但是显示为False。
手动减小loss_scale,按经验可尝试设置为65536、2048等。微调时可同步设置beta2为0.999。
loss_scale
65536、2048
beta2
0.999