推理学习心得打卡

G_washington · 2025 年8 月 1 日 07:57

一、项目概述

通过本次代码实践，我实现了一个基于 DeepSeek-R1 蒸馏版模型的聊天机器人，核心功能包括：

使用 MindSpore 生态的 MindNLP 库加载大语言模型
通过 Gradio 构建交互式 Web 界面
实现流式文本生成（逐词输出）
支持多轮对话历史管理

二、关键技术收获

模型加载与推理

python

动态下载 MindNLP 专用权重 tokenizer = AutoTokenizer.from_pretrained(“MindSpore-Lab/…”, mirror=“modelers”) model = AutoModelForCausalLM.from_pretrained(“MindSpore-Lab/…”, ms_dtype=mindspore.float16)

学会使用 mirror="modelers" 参数从 MindSpore 社区下载优化后的模型
通过 ms_dtype 指定 FP16 精度，显著提升推理速度

对话历史管理

python

def build_input_from_chat_history(chat_history, msg: str): messages = [{“role”: “system”, “content”: system_prompt}] for user, ai in chat_history: messages.append({“role”: “user”, “content”: user}) messages.append({“role”: “assistant”, “content”: ai}) messages.append({“role”: “user”, “content”: msg})

采用 角色标签模式（system/user/assistant）结构化对话
自动将历史对话拼接为模型可理解的序列

流式文本生成

python

streamer = TextIteratorStreamer(tokenizer, skip_prompt=True) t = Thread(target=model.generate, kwargs=generate_kwargs) t.start() for new_token in streamer: partial_message += new_token yield partial_message # 渐进式返回结果

使用 TextIteratorStreamer 实现 token 级流式输出
通过多线程分离模型生成与结果返回，避免界面阻塞
遇到 </s> 停止符自动终止生成

推理参数优化

python

generate_kwargs = dict( max_new_tokens=1024, do_sample=True, top_p=0.9, # 核采样提高多样性 temperature=0.1, # 低温度值保证稳定性 repetition_penalty=1.2 # 抑制重复生成 )

三、难点与解决方案

历史对话拼接

问题：模型需要严格的对话格式
方案：通过 apply_chat_template 自动添加 <|im_start|>, <|im_end|> 等特殊标记

资源效率优化

使用 FP16 半精度模型（显存占用降低 50%）
设置 max_new_tokens=1024 防止生成长度过大

适配器集成（扩展性）

python

可加载微调后的适配器 # model = PeftModel.from_pretrained(model, “./output/…/”)

注释代码展示了如何集成 PEFT 微调后的适配器

四、Gradio 界面优化

python

gr.ChatInterface( predict, title=“DeepSeek-R1-Distill-Qwen-1.5B”, description=“问几个问题”, examples=[‘你是谁？’, ‘你能做什么？’] # 内置示例问题 ).launch()

仅需 20 行代码构建完整 Web 交互界面
支持示例问题快捷输入
自动生成对话气泡布局

五、改进方向

增加安全机制

添加内容过滤模块
设置最大对话轮次限制

性能优化

启用 pynative_synchronize=True 提升分布式效率
实现 KV Cache 缓存复用

功能扩展

支持文件/图片多模态输入
添加语音交互模块

关键收获：通过本项目掌握了工业级对话系统的核心实现逻辑，特别是流式生成和对话状态管理的设计思想。MindNLP 与 MindSpore 的深度集成展现了国产 AI 框架的成熟度，而 Gradio 则大幅降低了算法落地的门槛。

话题	回复	浏览量
昇思学习营-DeepSeek-R1-Distill-Qwen-1.5B 模型推理学习心得活动打卡	7	2025 年8 月 6 日
第五章模型推理与性能优化学习心得活动打卡	15	2025 年7 月 28 日
昇思学习营-模型推理和性能优化学习心得20250803 活动打卡	8	2025 年8 月 3 日
模型推理和性能优化学习心得打卡活动打卡	3	2025 年8 月 7 日
昇思学习应第七期昇腾开发板学习打卡_03 活动打卡	2	2025 年7 月 28 日

推理学习心得打卡

一、项目概述

二、关键技术收获

动态下载 MindNLP 专用权重 tokenizer = AutoTokenizer.from_pretrained(“MindSpore-Lab/…”, mirror=“modelers”) model = AutoModelForCausalLM.from_pretrained(“MindSpore-Lab/…”, ms_dtype=mindspore.float16)

三、难点与解决方案

可加载微调后的适配器 # model = PeftModel.from_pretrained(model, “./output/…/”)

四、Gradio 界面优化

五、改进方向

相关话题