1 系统环境
- 硬件环境(Ascend/GPU/CPU): Ascend
- MindSpore版本: mindspore=2.3
- 执行模式(PyNative/ Graph): Graph
- Python版本: Python=3.9
- 操作系统平台: Linux
2 报错信息
2.1 问题描述
在服务器上使用mindspore.train.Model训练Qwen-7B(TP=8),前2个epoch正常,第3个epoch中途报错。
2.2 报错信息
[ERROR] HCCL(1234): hccl_timeout_error.cc:45] Timeout occurred, rank 5 is not responding.
[ERROR] GE(1234): graph_manager.cc:210] Graph execution failed.
3 根因分析
- 此处由用户填写
4 解决方案
- 此处由用户填写
- 包含文字方案和最终脚本代码 请将正确的脚本打包并上传附件