昇思学习营第七期-模型推理和性能优化学习心得3

5.1 模型推理和性能优化-Part1

长文本输出内容重复可加repetition_penalty=1.2调优解决该问题。

对话输入

超参

5.1 模型推理和性能优化-Part2

性能优化 ,减少token生成的间隔时间。

可以脚本中添加禁用多线程代码减少推理时间。

from mindspore._c_expression import disable_multi_thread
disable_multi_thread()

5.1 模型推理和性能优化-Part3