1 系统环境
- 硬件环境(Ascend/GPU/CPU): Ascend310
- MindSpore版本: mindspore=1.8.1
- 执行模式(PyNative/ Graph): Graph
- Python版本: Python=3.7
- 操作系统平台: Linux
2 报错信息
2.1 问题描述
模型训练阶段loss正常收敛。但在推理阶段,即使使用完全相同的输入数据,连续运行多次推理,模型的输出置信度会有明显差异,差值最高能达到15%左右。推理时间也会出现不规律的突增,从监控数据看,NPU利用率在性能下降时并没有明显变化。
2.2 报错信息
[ERROR] RUNTIME: aicpu kernel execute failed, fault kernel_name=GetNext
3 根因分析
- 此处由用户填写
4 解决方案。
- 此处由用户填写;
- 包含文字方案和最终脚本代码 请将正确的脚本打包并上传附件。