第五章打卡：模型推理与优化实践学习总结

lijiayan · 2025 年7 月 28 日 03:05

这两天我围绕 DeepSeek - R1 - Distill - Qwen - 1.5B 模型的推理流程及性能优化展开学习，收获颇丰，从模型应用到效率提升，对大模型落地有了更清晰认知，以下是梳理的学习心得：

一、推理流程：从 “能用” 到 “好用” 的递进

（一）流程拆解：清晰的 “流水线” 逻辑

模型推理并非简单的 “加载 - 运行”，而是分为权重加载、启动推理、效果调优、性能测试与优化的完整流程。权重加载需 “基础模型 + LoRA 适配器” 协同，基础模型是核心框架，LoRA 作为轻量微调 “插件”，让模型具备定制能力，二者结合才是 “完整可用” 的推理模型。启动推理时，model.generate的参数（如temperature控制风格、max_new_tokens限制长度）如同给模型的 “任务指令”，直接决定输出形态。这让我明白，推理是精细的 “流程控制”，每个环节都影响最终效果。

（二）效果调优：细节决定体验

推理阶段的效果调优是 “二次打磨”。即使 LoRA 微调让模型 “学会本事”，推理参数仍能 “扭转乾坤” 。面对模型 “说废话”，repetition_penalty可惩罚重复内容；对比微调前后身份回答的差异，能验证模型能力是否生效。这让我意识到：模型效果是 “训练 + 推理” 共同作用的结果，推理参数是 “用好本事” 的关键，如同给厨师调整火候，同样的 “技能”，不同参数能做出不同 “味道” 的输出。

二、性能优化：让模型 “跑起来” 的关键

（一）问题驱动：从 “慢” 到 “快” 的突破

在香橙派等边缘设备部署模型，性能是 “硬指标”。初始推理一个 Token 需 0.727 秒，通过禁用多线程、JIT 编译、静态缓存等手段，可逐步优化。JIT 编译通过 “静态图” 加速，虽首 Token 因编译耗时，但长文本生成时优势显著；静态缓存存储中间结果，避免重复计算，适配自回归生成的 “接龙” 逻辑。这让我体会到：性能优化是 “诊断 - 解决” 的循环，需分析设备特性、模型逻辑，针对性突破瓶颈。

（二）技术细节：深入底层的 “打磨”

优化过程充满 “细节博弈” 。手写Top - p采样函数时，用numpy提升效率，遇算子兼容问题则灵活替换mindspore.ops；修改模型代码（如modeling_qwen2.py中补充层结构识别逻辑、重写RotaryEmbedding类适配静态编译），这些底层调整让模型适配硬件与框架。这让我明白：性能优化需深入技术细节，理解框架原理、硬件特性，甚至 “修改模型代码”，才能让模型在边缘设备高效运行。

三、实践认知：理论到落地的 “桥梁”

（一）工具协同：框架与硬件的配合

MindSpore 框架与香橙派开发板的结合，展现了 “软件 + 硬件” 协同的力量。MindSpore 的 JIT 编译、图优化等技术，为模型加速提供支撑；香橙派作为边缘设备，考验模型 “轻量化、高效化” 能力。通过 Gradio 搭建网页聊天界面，实现 “输入 - 生成 - 展示” 的完整交互，让模型从 “代码运行” 变为 “可用工具”。这让我认知到：大模型落地需关注 “工具链” 协同，从框架优化到硬件适配，再到交互呈现，缺一不可。

（二）未来规划：持续探索的方向

学习中了解到昇思与香橙派的 “学习 - 实践 - 比赛” 生态，从课程教学到开源任务、赛事对接，为开发者提供成长路径。这激励我后续持续探索：深入研究算子适配、低精度量化，进一步压缩模型；参与开源实践，将优化技巧迁移到更多模型；尝试复杂场景部署，让模型在边缘设备发挥更大价值。大模型的潜力，不仅在于技术本身，更在于持续探索、落地应用，让 “智能” 真正服务场景。

四、总结：技术、实践与思维的成长

此次学习，不仅掌握了模型推理与优化的技术细节（如 LoRA 协同、JIT 编译、性能调优手段），更培养了 “流程化思维” 与 “问题解决能力” 。从推理流程的精细控制，到性能优化的底层打磨，再到实践工具的协同应用，让我对大模型落地有了清晰路径。未来，将持续深耕技术细节，结合实际场景探索，让模型推理更高效、应用更广泛，在大模型落地浪潮中，贡献自己的实践力量！

话题	回复	浏览量
第五章学习心得活动打卡	11	2025 年7 月 27 日
第五章打卡学习活动打卡	5	2025 年7 月 28 日
模型推理及性能优化打卡活动打卡	6	2025 年8 月 1 日
第三次打卡活动打卡	6	2025 年7 月 25 日
推理优化学习心得，第三节打卡活动打卡	14	2025 年7 月 28 日