mindspore框架支持在数据下沉时训练动态的切换数据集吗

Serendipity · 2025 年7 月 29 日 09:39

zhouyifengCode · 2025 年7 月 29 日 11:35

用model.train接口似乎不支持动态切换，dataset对象都确定了，目前没看到过文档说支持切换数据集对象：但如果自定义训练过程的话，数据集怎么处理，是否切换就完全自己决定了，不过自定义训练过程的话数据下沉需要自己额外实现，可能有些麻烦；
不过如果用自定义数据集的话，在同一个dataset对象内，也是可以实现切换不同数据源的逻辑的

chengxiaoli · 2025 年7 月 30 日 02:51

用户您好，欢迎使用MindSpore，请参考上述解答试试~

Serendipity · 2025 年7 月 30 日 03:07

就是自定义训练因为数据下沉太麻烦了，所以采用自定义数据集，现在是采用MindDataset去处理MindRecord格式数据，不过我想实现一边下载一边训练模型，下载一个数据模型训练一次使用model.train接口并且采用数据下沉看了源码，好像要重新生成dataset_helper，目前还在验证，兄有什么方法能实现自定义数据集一边下载一边训练吗也就是说dataset对象是个动态的

zhouyifengCode · 2025 年7 月 30 日 03:18

可以试试 GeneratorDataset自定义数据集，里面的逻辑自己实现的，通常情况下就是一些本地的数据文件里读取，你可以替换成是从网络下载；
文档此处的样例示例代码中是随机生成了一些数据：

你可以把这边的逻辑改成是从网络下载试试

Serendipity · 2025 年7 月 30 日 09:46

如果采用GeneratorDataset这种自定义的话那要如何实现训练时的数据下沉操作呢，现在我通过回调机制在epoch开始时重新下载一个覆盖原来的数据，通过cb_params.train_dataset参数重新创建新数据，训练时使用model.train接口训练采用数据下沉操作，通过这种操作可以继续进行训练不过他的步数会出现错误，因为我使用的sink_size=-1，没有重新初始化dataset_helper，后面重新初始化dataset_helper出现进程等待直到ModelArts报错，像是找不到数据集一样，请问这是和图模式有关吗？重新初始化dataset_helper会影响通讯算子吗？

Serendipity · 2025 年7 月 30 日 09:47

[quote=“Serendipity, post:6, topic:673, full:true”]
如果采用GeneratorDataset这种自定义的话那要如何实现训练时的数据下沉操作呢，现在我通过回调机制在epoch开始时重新下载一个覆盖原来的数据，通过cb_params.train_dataset参数重新创建新数据，训练时使用model.train接口训练采用数据下沉操作，通过这种操作可以继续进行训练不过他的步数会出现错误，因为我使用的sink_size=-1，没有重新初始化dataset_helper，后面重新初始化dataset_helper出现进程等待直到ModelArts报错，像是找不到数据集一样，请问这是和图模式有关吗？重新初始化dataset_helper会影响通讯算子吗？

zhouyifengCode · 2025 年7 月 30 日 10:13

用model.train那种api的话，下沉不是把里面的 dataset_sink_mode参数设置为True就可以了么，和具体用的是哪个数据加载类没有关系，其它能用，GeneratorDataset也一样可以；数据下沉其实就是在训练某一个step的时候，有一个并行的队列在处理准备下一个step需要的数据，他会去调用GeneratorDataset等其它数据类来获取数据的，至于GeneratorDataset里的数据加载逻辑就自己定义了

zhouyifengCode · 2025 年7 月 30 日 10:15

可以参考下models仓库里的模型，虽然那些模型代码比较早了，可能现在的mindspore版本不能直接运行，但数据处理那边的逻辑基本是通用的，比如PDarts模型：
https://gitee.com/mindspore/models/blob/master/research/cv/PDarts/train.py

chengxiaoli · 2025 年8 月 4 日 03:24

用户您好，MindSpore支撑人已经分析并给出了问题的原因，由于较长时间未看到您采纳回答，这里版主将进行采纳回答的结帖操作，如果还其他疑问请发新帖子提问，谢谢支持~

话题	回复	浏览量
MindFormers制作的数据集如何按顺序遍历加载其他干货-Others	13	2025 年6 月 25 日
MindSpore数据集加载-GeneratorDataset功能及常见问题数据加载及处理-Data Loading&Processing	10	2025 年7 月 23 日
解决mindspore.dataset.Dataset.split切分数据集时randomize=True时分割出的数据不够随机问题数据加载及处理-Data Loading&Processing	3	2025 年8 月 10 日
MindSpore报错RuntimeError: Exception thrown from PyFunc. 数据加载及处理-Data Loading&Processing	2	2025 年8 月 14 日
MindSpore拆分dataset输入给多输入模型数据加载及处理-Data Loading&Processing	3	2025 年8 月 19 日

mindspore框架支持在数据下沉时训练动态的切换数据集吗

相关话题