MTP任务卡死，平台报错信息['ROOT_CLUSTER'] job failed.

chengxiaoli · 2025 年10 月 10 日 03:13

1 系统环境

硬件环境(Ascend/GPU/CPU): Ascend
MindSpore版本: mindspore=2.2.10
执行模式（PyNative/ Graph）:PyNative/ Graph
Python版本: Python=3.8.15
操作系统平台: linux

2 报错信息

MTP跑sft大模型过程中遇到任务卡死，无脚本报错，只有平台日志。

The parse job starts. Please wait.   
['ROOT_CLUSTER', 'NODE_ANOMALY'] job failed. Please check the detail log.   
The parse job is complete.   
grep: /home/ma-user/modelarts/log/failure_analysis_result.json: No such file or directory

3 根因分析

联系平台确认,ModelArt日志打印信息为host内存oom报错，报错信息如下：

['ROOT_CLUSTER'] job failed.

可以通过psutil工具打印Host内存利用率，监控内存信息：

import psutil  
    
memory_info = psutil.virtual_memory()  
print("总容量：{} GB".format(round(memory_info.total / 1024 / 1024 / 1024, 2)), flush=True)  
print("已用容量：{} GB".format(round(memory_info.used / 1024 / 1024 / 1024, 2)), flush=True)  
print("可用容量：{} GB".format(round(memory_info.free / 1024 / 1024 / 1024, 2)), flush=True)  
print("使用率：{} %".format(memory_info.percent), flush=True)

4 解决方案

确认host内存溢出之后，通过打印日志判断是模型加载数据集过程中，缓存持续飙升导致oom

减小数据处理操作的缓冲队列大小（默认值：16）

mindspore.dataset.config.set_prefetch_size(size)

设置流水线中各个数据处理操作的缓冲队列大小。
缓冲队列的存在使得当前操作在下一操作取走数据前就能开始处理后续数据，各操作异步并发地执行。
更大的缓冲队列大小能够减少相邻操作吞吐速率不平衡时的整体处理时延，但也会消耗更大的系统内存。

减少数据集处理过程中的map函数的使用也可以降低内存消耗。

话题		回复	浏览量
Mindformers模型启动时因为host侧OOM导致任务被kill 模型训练-Model Training	0	75	2025 年10 月 4 日
MindSpore报错Please try to reduce 'batch_size' or check whether exists extra large shape. 模型训练-Model Training	0	31	2025 年10 月 21 日
【MindSpore报错解决地图】常见报错问题和解决方案（持续更新）经验分享 Tech Blogs	3	231	2025 年11 月 17 日
MTP数据集分布式读写锁死，Failed to execute the sql [SELECT NAME from SHARD NAME;] while verifying meta file, database is locked] 数据加载及处理-Data Loading&Processing	0	14	2025 年10 月 2 日
MindSpore论坛报错活动第四十二期活动公告 Activities	0	44	2026 年4 月 3 日

MTP任务卡死，平台报错信息['ROOT_CLUSTER'] job failed.

1 系统环境

2 报错信息

3 根因分析

4 解决方案

相关话题