lora微调

LoRA(Low-Rank Adaptation)是一种参数高效的微调(PEFT)策略:它把原始大模型的权重全部冻结,只在 Attention 的 Q、K、V 等关键模块旁边插入一条“低秩旁路”。旁路由两个小巧的矩阵 A、B 组成,训练时只更新这对小矩阵,其余参数保持不变。这样就把显存和算力开销打下来,效果却跟全量微调差不多。
我们这次实验就采用了 LoRA。按教程一步步跑完,模型顺利收敛,而可训练参数量只占全部权重的 0.5%,对硬件资源紧张的场景非常友好。