昇思学习应第七期昇腾开发板学习打卡_03

模型推理流程

  1. 整体分为权重加载、启动推理、效果比较与调优、性能测试、性能优化五步
  2. 权重加载需同时加载基础模型和 LoRA 适配器,启动推理通过 model.generate 实现,需配置生成参数(如 max_new_tokens、temperature 等)

效果调优

  1. 对比微调前后效果,验证 LoRA 适配效果(如模型身份从 “DeepSeek-R1” 变为 “甄嬛”)
  2. 针对长文本重复问题,可添加 repetition_penalty 参数解决

性能优化

  1. 性能测试:设置 INFERENCE_TIME_RECORD=True 获取 token 推理时长,禁用多线程可小幅提速
  2. 关键优化:采用 jit 即时编译,需手动拆分 model.generate 逻辑,结合静态缓存提升效率
  3. 效果:未用 jit 时单 token 约 1.1 秒,使用后降至 0.32 秒,首 token 因编译耗时较长

代码实现

  1. 基于 Gradio 构建聊天界面,支持流式输出
  2. 优化措施包括半精度加载、静态缓存、numpy 实现 Top-p 采样等