昇思学习营-第三章DeepSeek-R1-Distill-Qwen-1.5B 模型推理学习心得

jiao_qiaobo · 2025 年8 月 7 日 08:50

通过本次《昇思+昇腾开发板：软硬结合玩转 DeepSeek-R1-Distill-Qwen-1.5B 推理实战》课程，我首次在香橙派 AIpro 20T 上完成了 1.5 B 大模型的端到端落地，收获颇丰。
环境准备阶段，按官方 Checklist 烧录镜像→升级 MindSpore 2.5.0→配置 swap 与 cgroup，成功把 host 内存压在 4 GB 以内，为 NPU 腾出 16 GB 显存。权重直接加载 FP16，省去 2 GB 内存峰值，启动时间从 3 min 降到 50 s。
推理调优环节，我先用 generate 三行代码跑通基础功能，随后打开 jit 图编译，token 延迟从 1.1 s 降到 0.32 s；再叠加 repetition_penalty=1.2 解决长文本重复；最后关闭多线程，INFERENCE_TIME_RECORD=True 实测首包 143 ms，后续 0.32 s/token，在 20 T 算力下达到可商用水平。
代码实践如下

话题	回复	浏览量
第三次打卡活动打卡	42	2025 年7 月 25 日
昇思学习营第七期·昇腾开发板学习打卡_第03次活动打卡	42	2025 年8 月 6 日
很好的MindSpore关于模型微调和推理课程活动打卡	44	2025 年7 月 23 日
昇思学习营-DeepSeek-R1-Distill-Qwen-1.5B 模型推理学习心得活动打卡	121	2025 年8 月 6 日
昇思学习营第七期·昇腾开发板学习打卡_第一次01 活动打卡	78	2025 年8 月 6 日

昇思学习营-第三章DeepSeek-R1-Distill-Qwen-1.5B 模型推理学习心得

相关话题