MindSpore推理结果不稳定且出现报错[ERROR] RUNTIME: aicpu kernel execute failed, fault kernel_name=GetNext.

chengxiaoli · 2026 年4 月 3 日 01:30

1 系统环境

模型训练阶段loss正常收敛。但在推理阶段，即使使用完全相同的输入数据，连续运行多次推理，模型的输出置信度会有明显差异，差值最高能达到15%左右。推理时间也会出现不规律的突增，从监控数据看，NPU利用率在性能下降时并没有明显变化。

[ERROR] RUNTIME: aicpu kernel execute failed, fault kernel_name=GetNext

话题		回复	浏览量
MindSpore论坛报错活动第四十二期活动公告 Activities	0	7	2026 年4 月 3 日
【MindSpore报错解决地图】常见报错问题和解决方案（持续更新）经验分享 Tech Blogs	3	188	2025 年11 月 17 日
MindSpore2.2.10 ge图模式报错: Current execute mode is KernelByKernel, the processes must be launched with OpenMPI or ... 模型训练-Model Training	0	16	2025 年10 月 2 日
MindSpore论坛报错活动第四十期活动公告 Activities	0	50	2026 年1 月 14 日
MindSpore张量运算失败报错RuntimeError:Malloc for kernel output failed, Memory isn’t enough, node:Default/Add-op0 模型训练-Model Training	0	32	2025 年8 月 21 日