vLLM框架部署MindSpore模型的推理服务流式异步返回

susuwu · 2025 年7 月 7 日 07:25

vllm-mindspore: MindSpore的vLLM插件，支持基于vLLM框架部署MindSpore模型的推理服务。
您好，在官方例子里面没有看到模型流式返回数据的例子，现在只返回一条记录就结束了，后面还有的都没返回，请问有相关例子吗？谢谢！

zhouyifengCode · 2025 年7 月 7 日 09:58

vllm-mindspore的文档里没有直接给流逝输出的案例代码，包括那些具体用vllm-mindspore的文章也没有直接给，样例里的 LLM.generate()确实不支持流逝输出，不过既然兼容了vllm的api调用，可以试试 AsyncLLMEngine.generate()方法行不行，至少原生vllm里面这个方式就是做流式输出的，这个API用法网上搜一下看看有很多

chengxiaoli · 2025 年7 月 7 日 11:04

用户您好，欢迎安装使用MindSpore。请参考上述解答试试~

susuwu · 2025 年7 月 8 日 00:47

尝试过，好像构建对象的时候就出了各种问题，没办法继续下去了，后来我加大了maxtoken，才全部输出了，我在想是不是只有唯一的一条路，用openai的调用方法，但是用Http去请求，这种方式总让人觉得有些不安

longvoyage · 2025 年7 月 9 日 08:51

vllm 支持离线推理和在线推理

离线不太清楚
在线模式的话默认是开启流式输出的
multi-step-stream-outputs 默认true 一次将返回–num-scheduler-steps个token
想要流式返回必须请求json里面设置 “stream”: True 才行

panshaowu · 2025 年8 月 20 日 03:49

vLLM-MindSpore插件中的流式返回功能和vLLM社区版本保持一致，离线推理无该功能，在线推理模式下通过在用户请求消息中设置 “stream”: True参数来打开流式返回功能，例如：

curl http://0.0.0.0:8000/v1/completions -H "Content-Type: application/json" -d '{"model":"/ckpt/qwen3-8b", "prompt": "I love Beijing, because it is a city that has so much to offer. I have visited many places,I love Beijing, because it is a city that has so much to offer. I have visited many places","stream": true}'

话题		回复	浏览量
昇思学习营第七期·昇腾开发板学习打卡3 活动打卡	0	10	2025 年7 月 28 日
昇思学习营第七期·昇腾开发板3 活动打卡	0	13	2025 年7 月 24 日
昇思学习营第七期·昇腾开发板学习打卡_第三次活动打卡	0	33	2025 年7 月 26 日
【昇思学习营第七期·昇腾开发板】20250803_学习打卡_3 活动打卡	0	20	2025 年8 月 5 日
昇思MindSpore同步首发Qwen3-VL-30B-A3B-Instruct模型应用实践-Application Cases	1	63	2025 年10 月 24 日

vLLM框架部署MindSpore模型的推理服务流式异步返回

相关话题