MindSpore报refer to Ascend Error Message错误

1 问题描述

RuntimeError: Run task for graph:kernel_graph_1 error! The details refer to 'Ascend Error Message'

cke_194.png

2 问题分析

该报错是mindspore拦截CANN的报错抛出的通用性报错。通常来说可能是环境配置有误,参数有误,但不排除底层架构实现/算子级别的实现导致的。

3 解决方案

有先尝试使用配套兼容版本。如果更换版本后不能解决或者特殊原因不能更换版本,需要提取底层CANN包日志。操作如下,更多详见CANN手册

#设置日志级别为1 Info级别  
export ASCEND_GLOBAL_LOG_LEVEL=1  
#开启日志打屏  
export ASCEND_SLOG_PRINT_TO_STDOUT=1

在配置完成后,重新启动训练,复现问题。并获取日志中的ERROR信息,提取其中报错码和报错信息进行进一步定位和解决。
在下图案例中,我们提取到报错码为module_name=E39999, 和报错信息msg:open so failed.
image.png
获取报错码后,可在CANN手册里查询对应原因以及解决方案。若查询不到,或者解决方案未能解决,可联系华为工程师寻求算子层面的帮助。