昇思学习营-第三章DeepSeek-R1-Distill-Qwen-1.5B 模型推理学习心得

通过本次《昇思+昇腾开发板:软硬结合玩转 DeepSeek-R1-Distill-Qwen-1.5B 推理实战》课程,我首次在香橙派 AIpro 20T 上完成了 1.5 B 大模型的端到端落地,收获颇丰。
环境准备阶段,按官方 Checklist 烧录镜像→升级 MindSpore 2.5.0→配置 swap 与 cgroup,成功把 host 内存压在 4 GB 以内,为 NPU 腾出 16 GB 显存。权重直接加载 FP16,省去 2 GB 内存峰值,启动时间从 3 min 降到 50 s。
推理调优环节,我先用 generate 三行代码跑通基础功能,随后打开 jit 图编译,token 延迟从 1.1 s 降到 0.32 s;再叠加 repetition_penalty=1.2 解决长文本重复;最后关闭多线程,INFERENCE_TIME_RECORD=True 实测首包 143 ms,后续 0.32 s/token,在 20 T 算力下达到可商用水平。
代码实践如下