昇思MindSpore论坛
模型并行显示内存溢出
经验分享 Tech Blogs
分布式并行-Distributed Parallelsim
chengxiaoli
(Cheng_li)
2025 年10 月 23 日 03:43
1
1 系统环境
硬件环境(Ascend/GPU/CPU): Ascend
MindSpore版本: 2.2.0
执行模式(PyNative/ Graph): 不限
2 报错信息
模型并行显示内存溢出
3 根因分析
一般是因为模型太大。
4 解决方案
需要用多卡或者多机跑,整体HBM至少模型大小的4倍。
评论区主理人,您准备好了吗?
重磅干货!MindSpore大模型报错解决地图来啦(持续更新中)
相关话题
话题
回复
浏览量
时间点
MindSpore报错Please try to reduce 'batch_size' or check whether exists extra large shape.方法二
分布式并行-Distributed Parallelsim
0
4
2025 年10 月 21 日
MindSpore数据并行报错Call GE RunGraphWithStreamAsync Failed,EL0004: Failed to allocate memory.
数据加载及处理-Data Loading&Processing
0
12
2025 年10 月 10 日
增加数据并行数之后模型占用显存增加
分布式并行-Distributed Parallelsim
0
35
2025 年9 月 26 日
并行策略为8:1:1时报错RuntimeError: May you need to check if the batch size etc. in your 'net' and 'parameter dict' are same.
分布式并行-Distributed Parallelsim
0
12
2025 年10 月 4 日
MindSpore大模型并行需要在对应的yaml里面做哪些配置
分布式并行-Distributed Parallelsim
0
28
2025 年10 月 1 日