MindFormers制作的数据集如何按顺序遍历加载

系统环境

硬件环境(Ascend/GPU/CPU): GPU

MindSpore版本: mindformer =1.3.0

执行模式(PyNative/ Graph): 不限

Python版本: Python=3.10

操作系统平台: Linux

报错信息

问题描述

使用mindformers1.3.0,参考bin数据集的方式制作数据集并进行训练,制作数据采用pad的方式:https://www.mindspore.cn/mindformers/docs/zh-CN/r1.3.0/function/dataset.html。

数据集分为多个bin文件(来自不同的数据集文件),使用过程有如下问题:

数据开启了随机读取且无法关闭;

不同数据集采样数据和实际数据量不同,会出现重复数据的情况;

读取方式是先读第一个bin文件的第一条记录,然后读第2个bin的第1记录,每个bin文件的第一条记录读完后,回来读第1个bin文件的第2条,依次进行;

mindformers的bin数据集是否支持关闭采样策略,目的是让mindformers读取所有的bin数据集且遍历执行,数据不要漏和重复。

根因分析

此处由用户填写

解决方案

此处由用户填写

包含文字方案和最终脚本代码

请将正确的脚本打包并上传附件