【是关于 DeepSeek-R1-Distill-Qwen-1.5B 模型推理流程】
先抱出大模型本体,再给它装上微调学的 “小插件”,这样模型才有你微调后的能力
给模型说清楚 “要处理啥输入、最多说多少字、选词咋选、风格多奔放”,然后喊它开工
简单说就是:先看微调有没有效果,再解决微调后模型 “干活不完美” 的小毛病 ,让模型输出又对又好用
【关于 DeepSeek-R1-Distill-Qwen-1.5B 模型推理性能调优】
你咋给模型推理测速度,发现慢了之后,咋用 “禁用多线程” 的小技巧让它变快一丢丢,这样模型干活效率能高些
jit 即时编译是啥呢?简单说,就是给 Python 函数 “加速补丁”,把函数编译成电脑更容易快速执行的 “计算图”,就像把复杂路线规划成 “高速直达路线”,让运行变快 。
讲 DeepSeek-R1-Distill-Qwen-1.5B 模型推理性能优化 里,用 jit 编译进一步加速的具体操作
- 设置 O2 整图下沉进一步优化:这是 MindSpore 里的优化策略,让模型整体以更高效的 “整图” 方式运行,减少零散计算的耗时。
- model.jit():直接对整个模型用 jit 优化,让模型整体执行更高效。
- mindspore.jit 装饰 decode 函数:除了优化整个模型,专门对解码函数(前面提到的 decode 逻辑 )用 jit 加速,因为解码是模型生成结果的关键步骤,优化它能显著提升速度 。