【MindSpore Dataset】如何将自有数据高效的生成MindRecord格式数据集，并且防止爆内存。

wenl4ng · 2025 年7 月 21 日 03:52

用户可以将自有数据转换成MindRecord数据集，然后使用MindDataset类进行加载并进一步进行预处理操作。

1. 生成MindRecord示例

生成图像类数据集参考链接：转换CV类数据集
生成文本类数据集参考链接：转换NLP类数据集

2. 多进程并发生成MindRecord示例

参考代码见附件

3. 生成MindRecord过程中可能遇到的问题

数据集太大，FileWriter.commit()的时候爆内存该怎么解决

答：可以组织一批数据之后，就调用 .write_raw_data(data_list)接口写入，再组织一批数据，再调用.write_raw_data(data_list2)，…，最后再调用.commit()完成。即：组织数据 → write_raw_data(…) → 组织数据 → write_raw_data(…) → … → commit()，具体参考链接：https://bbs.huaweicloud.com/forum/thread-145713-1-1.html 中示例。

话题	回复	浏览量
MindSpore数据集格式报错【MindRecord File could not open successfully】数据加载及处理-Data Loading&Processing	13	2025 年7 月 28 日
MindSpore报错MRMOpenError: MindRecord File could not open successfully. 数据加载及处理-Data Loading&Processing	17	2025 年8 月 18 日
MindRecord数据集格式-Windows下数据集报错Invalid file, DB file can not match 数据加载及处理-Data Loading&Processing	36	2025 年7 月 22 日
MTP使用多进程生成mindrecord，报错RuntimeError: Unexpected error. [Internal ERROR] Failed to write mindrecord meta files. 分布式并行-Distributed Parallelsim	12	2025 年10 月 8 日
MindRecord-Windows下中文路径问题Unexpected error. Failed to open file 数据加载及处理-Data Loading&Processing	55	2025 年7 月 22 日

【MindSpore Dataset】如何将自有数据高效的生成MindRecord格式数据集，并且防止爆内存。

1. 生成MindRecord示例

2. 多进程并发生成MindRecord示例

3. 生成MindRecord过程中可能遇到的问题

相关话题