一、模型推理

修改这个系数能改善ai对话重复回答的问题
实际代码演示:
1.构建对话输入
message中对应用户和deepseek对话
超参
性能测试
采样的案例都可以通过环境变量的控制的方式,改变token生成的间隔时间。
实际代码实现
decode
总结:算子支持度不够,采用ACLOP,内存显存优化采用直接加载FP16,限制PYthon进程数,性能提升,jit及时编译
二、实操展示
在实践界面启动训练完成了实践任务,结果如图所示