系统环境
硬件环境(Ascend/GPU/CPU): GPU
MindSpore版本: mindformer =1.3.0
执行模式(PyNative/ Graph): 不限
Python版本: Python=3.10
操作系统平台: Linux
报错信息
问题描述
使用mindformers1.3.0,参考bin数据集的方式制作数据集并进行训练,制作数据采用pad的方式:https://www.mindspore.cn/mindformers/docs/zh-CN/r1.3.0/function/dataset.html。
数据集分为多个bin文件(来自不同的数据集文件),使用过程有如下问题:
数据开启了随机读取且无法关闭;
不同数据集采样数据和实际数据量不同,会出现重复数据的情况;
读取方式是先读第一个bin文件的第一条记录,然后读第2个bin的第1记录,每个bin文件的第一条记录读完后,回来读第1个bin文件的第2条,依次进行;
mindformers的bin数据集是否支持关闭采样策略,目的是让mindformers读取所有的bin数据集且遍历执行,数据不要漏和重复。
根因分析
此处由用户填写
解决方案
此处由用户填写
包含文字方案和最终脚本代码
请将正确的脚本打包并上传附件