第五章学习心得

Havoc · 2025 年7 月 30 日 11:08

第五章学习心得：模型推理全流程实战总结

一、整体认知框架

通过本章学习，我系统掌握了从模型加载到推理优化的完整工作流，其核心可抽象为五阶段闭环：

权重加载 → 2. 推理启动 → 3. 效果调优 → 4. 性能测试 → 5. 效率提升

二、关键技术拆解

权重加载双模块机制

基础模型：固定参数的主体架构（如Qwen-1.5B）
LoRA适配器：轻量级微调插件（仅占原模型0.1%参数量）

# 基础模型加载
model = AutoModelForCausalLM.from_pretrained("mindSpore-Lab/DeepSeek-R1...")
# 插件叠加
model = PeftModel.from_pretrained(model, "./output/adapter_model_for_demo")

推理参数工程化配置
通过generate_kwargs实现生成控制：

generate_kwargs = dict(
    temperature=0.1,  # 保守型输出
    top_p=0.9,       # 多样性阈值
    repetition_penalty=1.2  # 防重复机制
)

三、效果调优实战

身份转换验证

原始输出：“我是DeepSeek-R1”
微调后输出：“本宫甄嬛，家父大理寺少卿甄远道”

长文本优化方案

问题：生成500字后出现"设备管理软件…"循环
解决：添加repetition_penalty参数后，生成长度提升至1200字无重复

四、性能调优方法论

基准测试方案

export INFERENCE_TIME_RECORD=True  # 启用token级耗时统计

原始耗时：0.727s/token
禁用多线程后：0.674s/token

JIT编译加速

@mindspore.jit  # 函数级加速
def decode_one_token(...):
    ...

model.jit()  # 全图优化

加速效果：1.1s/token → 0.32s/token（3.4倍提升）

五、开发板适配经验

挑战类型	解决方案
算子缺失	采用ACLOP/numpy混合实现（如Top_p采样函数）
内存溢出	FP16权重加载 + Python进程数限制
静态图编译失败	重构RotaryEmbedding类（参考LLaMA实现）

六、认知提升要点

微调与推理调优的本质差异

微调阶段：改变模型"能力边界"（权重更新）
推理阶段：优化能力"表达方式"（参数配置）

关键参数理解

temperature：控制创新/保守光谱（0.1→严谨报告，0.8→创意文案）
top_p：概率累计筛选（0.9→保留90%可能性选项）

七、未来实践计划

教学应用

5月底参与MindSpore课程案例开发

赛事准备

华为ICT大赛模型优化赛道

社区贡献

提交香橙派适配方案至MindNLP仓库

本章最大的收获是建立了"模型能力开发-效果验证-性能优化"的完整认知框架，特别是理解了微调与推理调优的协同关系。后续计划在医疗问答场景中实践这套方法论。

话题	回复	浏览量
推理优化学习心得，第三节打卡活动打卡	12	2025 年7 月 28 日
第五章打卡学习活动打卡	3	2025 年7 月 28 日
昇思+昇腾开发板：软硬结合玩转DeepSeek开发实战（学习打卡第三天）活动打卡	5	2025 年7 月 29 日
第五章打卡：模型推理与优化实践学习总结活动打卡	4	2025 年7 月 28 日
第三次打卡活动打卡	4	2025 年7 月 25 日

第五章 学习心得

第五章学习心得：模型推理全流程实战总结

一、整体认知框架

二、关键技术拆解

三、效果调优实战

四、性能调优方法论

五、开发板适配经验

六、认知提升要点

七、未来实践计划

相关话题

第五章学习心得