昇思MindSpore论坛
模型并行显示内存溢出
经验分享 Tech Blogs
分布式并行-Distributed Parallelsim
chengxiaoli
(Cheng_li)
October 23, 2025, 3:43am
1
1 系统环境
硬件环境(Ascend/GPU/CPU): Ascend
MindSpore版本: 2.2.0
执行模式(PyNative/ Graph): 不限
2 报错信息
模型并行显示内存溢出
3 根因分析
一般是因为模型太大。
4 解决方案
需要用多卡或者多机跑,整体HBM至少模型大小的4倍。
重磅干货!MindSpore大模型报错解决地图来啦(持续更新中)
Related topics
Topic
Replies
Views
Activity
MindSpore报错Please try to reduce 'batch_size' or check whether exists extra large shape.方法二
分布式并行-Distributed Parallelsim
0
4
October 21, 2025
MindSpore数据并行报错Call GE RunGraphWithStreamAsync Failed,EL0004: Failed to allocate memory.
数据加载及处理-Data Loading&Processing
0
5
October 10, 2025
增加数据并行数之后模型占用显存增加
分布式并行-Distributed Parallelsim
0
10
September 26, 2025
并行策略为8:1:1时报错RuntimeError: May you need to check if the batch size etc. in your 'net' and 'parameter dict' are same.
分布式并行-Distributed Parallelsim
0
5
October 4, 2025
MindSpore大模型并行需要在对应的yaml里面做哪些配置
分布式并行-Distributed Parallelsim
0
10
October 1, 2025