MindSpore推理结果不稳定且出现报错[ERROR] RUNTIME: aicpu kernel execute failed, fault kernel_name=GetNext.

1 系统环境

  • 硬件环境(Ascend/GPU/CPU): Ascend310
  • MindSpore版本: mindspore=1.8.1
  • 执行模式(PyNative/ Graph): Graph
  • Python版本: Python=3.7
  • 操作系统平台: Linux

2 报错信息

2.1 问题描述

模型训练阶段loss正常收敛。但在推理阶段,即使使用完全相同的输入数据,连续运行多次推理,模型的输出置信度会有明显差异,差值最高能达到15%左右。推理时间也会出现不规律的突增,从监控数据看,NPU利用率在性能下降时并没有明显变化。

2.2 报错信息

[ERROR] RUNTIME: aicpu kernel execute failed, fault kernel_name=GetNext

3 根因分析

  • 此处由用户填写

4 解决方案。

  • 此处由用户填写;
  • 包含文字方案和最终脚本代码 请将正确的脚本打包并上传附件。