模型训练长稳性能抖动或劣化问题经验总结

TTTTeemo · 2025 年7 月 16 日 07:50

问题描述： 在VL类多模态大模型或CV类中小模型训练时，由于数据处理逻辑相对复杂，常将DataLoader的num_workers≥4。此时偶尔会遇到模型训练随着时间推移耗时抖动严重，或逐渐劣化，现象参考下图。

原因分析：

解决经验：

定期垃圾回收：考虑每200个step手动调用python的垃圾回收机制，如gc.collect()
限制算子缓存大小：当模型为动态shape场景，当算子缓存设置过大，易引发内存占用过高的现象，可以考虑设置减小缓存数量（默认1024），如export MS_DEV_RUNTIME_CONF=“aclnn_cache_queue_length:128”
绑核。

效果：

注：其中周期性耗时长的step为手动GC的时刻。

话题		回复	浏览量
大模型动态图训练内存优化调优经验-Tuning Experience	0	33	2025 年8 月 13 日
大模型迭代间隙的性能优化调优经验-Tuning Experience	0	17	2025 年9 月 12 日
随机数生成函数导致模型速度越来越慢调优经验-Tuning Experience	0	15	2025 年7 月 31 日
大模型内存占用调优调优经验-Tuning Experience	0	65	2025 年6 月 13 日
mindYOLO模型为什么训练会这么久呢问题求助 Help	13	190	2025 年10 月 21 日