MindSpore分布式训练Qwen-7B时崩溃Graph execution failed.

1 系统环境

  • 硬件环境(Ascend/GPU/CPU): Ascend
  • MindSpore版本: mindspore=2.3
  • 执行模式(PyNative/ Graph): Graph
  • Python版本: Python=3.9
  • 操作系统平台: Linux

2 报错信息

2.1 问题描述

在服务器上使用mindspore.train.Model训练Qwen-7B(TP=8),前2epoch正常,第3epoch中途报错。

2.2 报错信息

[ERROR] HCCL(1234): hccl_timeout_error.cc:45] Timeout occurred, rank 5 is not responding.
[ERROR] GE(1234): graph_manager.cc:210] Graph execution failed.

3 根因分析

  • 此处由用户填写

4 解决方案

  • 此处由用户填写
  • 包含文字方案和最终脚本代码 请将正确的脚本打包并上传附件

参与帖子:MindSpore分布式训练Qwen-7B时Graph execution failed的解决