vLLM框架部署MindSpore模型的推理服务流式异步返回

vllm-mindspore: MindSpore的vLLM插件,支持基于vLLM框架部署MindSpore模型的推理服务。
您好,在官方例子里面没有看到模型流式返回数据的例子,现在只返回一条记录就结束了,后面还有的都没返回,请问有相关例子吗?谢谢!

vllm-mindspore的文档里没有直接给流逝输出的案例代码,包括那些具体用vllm-mindspore的文章也没有直接给,样例里的 LLM.generate()确实不支持流逝输出,不过既然兼容了vllm的api调用,可以试试 AsyncLLMEngine.generate()方法行不行,至少原生vllm里面这个方式就是做流式输出的,这个API用法网上搜一下看看有很多

用户您好,欢迎安装使用MindSpore。请参考上述解答试试~

尝试过,好像构建对象的时候就出了各种问题,没办法继续下去了,后来我加大了maxtoken,才全部输出了,我在想是不是只有唯一的一条路,用openai的调用方法,但是用Http去请求,这种方式总让人觉得有些不安

vllm 支持离线推理和在线推理

离线不太清楚
在线模式的话默认是开启流式输出的
multi-step-stream-outputs 默认true 一次将返回–num-scheduler-steps个token
想要流式返回必须请求json里面设置 “stream”: True 才行

vLLM-MindSpore插件中的流式返回功能和vLLM社区版本保持一致,离线推理无该功能,在线推理模式下通过在用户请求消息中设置 “stream”: True参数来打开流式返回功能,例如:

curl http://0.0.0.0:8000/v1/completions -H "Content-Type: application/json" -d '{"model":"/ckpt/qwen3-8b", "prompt": "I love Beijing, because it is a city that has so much to offer. I have visited many places,I love Beijing, because it is a city that has so much to offer. I have visited many places","stream": true}'