长文本输出内容重复可加repetition_penalty=1.2调优解决该问题。
对话输入
超参
性能优化 ,减少token生成的间隔时间。
可以脚本中添加禁用多线程代码减少推理时间。
from mindspore._c_expression import disable_multi_thread disable_multi_thread()