模型LoRA微调

mile · 2025 年7 月 23 日 12:35

我了解到 Deepcr 模型虽然能力强大，但对算力和卡数要求很高，并不是所有开发者都能轻松驾驭。不过还好有蒸馏版模型，它基于千问 2.5 的模型结构，通过 DeepSig 1.5B 生成用例对千问模型进行 SST 监督微调，不同规格的模型在呈现能力和运算需求上各有不同，我们可以根据自己的实际情况来选择。
镜像烧录的时候要注意，不同算力的开发板对应不同的镜像，8-12T 和 20T 的镜像可不能混用，不然开发板根本跑不起来。跑小规格大模型时，记得配置 scope 虚拟空间，就像给机器腾出更多的工作空间，让它能更顺畅地运行。
模型调试适配部分，用 UT 测试来检查模型很方便。设置好环境变量，找到对应的测试脚本执行就行。不过为了能精准定位问题，可以开启同步设置太，能一下子找到问题所在。
遇到算子不支持的问题，把 Tensor 类接口换成 OPS 类接口，走 aclop 算子路线，很多时候就能解决，这就像换了条路走，避开了障碍。损失函数报错时，用 MindSpore OPS.primitive 里的接口替换，再注意一下输入数据类型和输出格式。还有参测索引和切片报错，把 tuple 转换成 Tensor 就行。
LoRA（Low-Rank Adaptation）微调策略，核心是冻结模型原始参数，仅更新 Attention 层旁支的低维矩阵 A 和 B 。这一设计极为巧妙，在香橙派 OrangePi AIpro - 20t 开发板实践时，明显感受到其 “高效” 优势 —— 无需对海量原始参数全盘更新，大幅降低了计算资源消耗与存储压力。以我们使用的 huanhuan 数据集（源于《甄嬛传》剧本的 QA 问答对）微调为例，原始模型参数庞大，但 LoRA 仅聚焦关键旁支矩阵，让开发板也能承载微调任务，这对于硬件资源有限的边缘设备场景，有着突破性意义。
从环境准备到最终推理，每一步都充满挑战与新知。环境配置时，需精准适配 CANN、MindSpore 版本，处理 Swap 配置、Gradio 安装等细节，这让我对昇腾生态的依赖关系理解更深刻。模型微调阶段，超参设置（如 TrainingArguments）、数据集处理（huanhuan 数据集的适配），以及面对算子缺失、损失函数报错等问题时的排查与修复，锤炼了我解决实际工程问题的能力。推理环节，从基础交互到禁用多线程、JIT 优化，逐步挖掘性能提升空间.
香橙派 OrangePi AIpro - 20t 开发板，作为实践载体，让理论落地。从镜像烧录、远程连接的基础操作，到承载模型微调推理的实际运行，我切实体会到 “硬件 + 框架 + 模型” 协同生态的力量。

话题	回复	浏览量
滴！第二次打卡活动打卡	8	2025 年7 月 26 日
【昇思学习营第七期·昇腾开发板】20250727_学习打卡_2 活动打卡	10	2025 年7 月 27 日
第二次打卡活动打卡	8	2025 年7 月 25 日
昇思学习营-第二章LoRA模型微调学习心得活动打卡	9	2025 年7 月 29 日
第三次打卡活动打卡	5	2025 年7 月 25 日

模型LoRA微调

相关话题