通过优化数据来加速训练速度

chengxiaoli · 2025 年8 月 8 日 08:53

借助自动数据加速工具来优化性能

MindSpore提供了一种自动数据调优的工具——Dataset AutoTune，用于在训练过程中根据环境资源的情况自动调整数据处理管道的并行度，最大化利用系统资源加速数据处理管道的处理速度。
启动自动数据加速方法、自动数据加速工具的约束及使用样例可参考：自动数据加速

1. 优化batch操作

在数据处理的最后阶段，会使用batch操作将多条数据组织成一个batch，然后再传递给网络用于训练。
对于batch操作的性能优化可参考：数据batch性能优化

2. 优化数据增强

数据增强性能优化建议如下：
优先使用MindSpore提供的数据增强操作，能获得更好的性能，如果性能仍无法满足需求，可采取如下方式进行优化：
1、多线程优化：增大map接口的参数num_parallel_workers（默认值：8）来取得更好的性能。
2、融合算子优化：在当前CPU占用率比较高时，使用融合操作来降低CPU占用会获得更好性能，可以通过配置环境变量export OPTIMIZE=true来使其生效。
3、Compose优化：在当前CPU占用率比较高时（如：单机多卡训练），通过一个map操作接收多个增强操作（会按照顺序应用这些操作）来降低CPU降低竞争以取得更好性能
具体可参考：数据增强性能优化

3. 优化shuffle操作

shuffle操作主要是对有序的数据集或者进行过repeat的数据集进行混洗。MindSpore专门为用户提供了shuffle函数，它是基于内存缓存实现的，其中设定的buffer_size参数越大，混洗程度越大，但内存空间、时间消耗也会更大。
shuffle性能优化建议如下：
1、直接使用数据集加载接口中的shuffle=True参数进行数据的混洗；
2、如果使用的是shuffle函数，当混洗效果无法满足需求，可通过调大buffer_size参数的值来优化混洗效果；当机器内存占用率过高时，可通过调小buffer_size参数的值来降低内存占用率。

具体可参考：数据shuffle性能优化

话题	回复	浏览量
【MindSpore Dataset】在使用Dataset处理数据过程中内存占用高，怎么优化？数据加载及处理-Data Loading&Processing	7	2025 年7 月 21 日
解决mindspore.dataset.Dataset.split切分数据集时randomize=True时分割出的数据不够随机问题数据加载及处理-Data Loading&Processing	3	2025 年8 月 10 日
MindSpore数据增强后，内存不足，自动退出数据加载及处理-Data Loading&Processing	2	2025 年8 月 5 日
关于“调优经验-Tuning Experience”类别调优经验-Tuning Experience	10	2025 年6 月 5 日
MindSpore数据增强报错【TypeError: Invalid with type】数据加载及处理-Data Loading&Processing	3	2025 年7 月 28 日

通过优化数据来加速训练速度

借助自动数据加速工具来优化性能

1. 优化batch操作

2. 优化数据增强

3. 优化shuffle操作

相关话题