今天,通义千问更新了旗舰版Qwen3模型,推出 Qwen3-235B-A22B 非思考模式(Non-thinking)的更新版本,命名为Qwen3-235B-A22B-Instruct-2507。
新的Qwen3模型,通用能力显著提升,包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面,在GPQA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent能力)等众多测评中表现出色。
目前,Qwen3新模型MindSpore版本已上线开源社区,欢迎开发者体验。
昇思开源社区MindSpore Transformers代码仓:
https://gitee.com/mindspore/mindformers/tree/r1.6.0/
魔乐社区vLLM-MindSpore推理版地址:
# 01
下载链接
魔乐社区:
# 02
模型下载
执行以下命令为自定义下载路径 /mnt/data/Qwen3-30B-A3B-Instruct-2507 添加白名单:
export HUB_WHITE_LIST_PATHS=/mnt/data/Qwen3-30B-A3B-Instruct-2507
执行以下命令从魔乐社区下载Qwen3-30B-A3B-Instruct-2507 权重文件至指定路径 /mnt/data/Qwen3-30B-A3B-Instruct-2507 。下载的文件包含模型代码、权重、分词模型和示例代码,占用约 60GB 的磁盘空间:
pip install openmind_hub
from openmind_hub import snapshot_download
snapshot_download(
repo_id="MindSpore-Lab/Qwen3-30B-A3B-Instruct-2507",
local_dir="/mnt/data/Qwen3-30B-A3B-Instruct-2507",
local_dir_use_symlinks=False
)
exit()
注意事项:
-
/mnt/data/Qwen3-30B-A3B-Instruct-2507 可修改为自定义路径,确保该路径有足够的磁盘空间(约 60GB)。
-
下载时间可能因网络环境而异,建议在稳定的网络环境下操作。
# 03
快速开始
/mnt/data/Qwen3-30B-A3B-Instruct-2507推理需要1台(4卡)Atlas 800T/800I A2(64G)服务器服务器(基于BF16权重)。昇思MindSpore提供了Qwen3-30B-A3B-Instruct-2507推理可用的Docker容器镜像,供开发者快速体验。
3.1 停止其他进程,避免服务器中其他进程影响
pkill -9 python
pkill -9 mindie
pkill -9 ray
3.2 下载昇思 MindSpore 推理容器镜像
执行以下 Shell 命令,拉取昇思 MindSpore Qwen3 推理容器镜像:
docker pull swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-30b-2507:20250731
3.3 启动容器
执行以下命令创建并启动容器(/mnt/data/Qwen3-30B-A3B-Instruct-2507用于存放权重路径,若没有/mnt盘则要修改):
docker run -it \
--privileged \
--name=qwen3_30b_2507 \
--net=host \
--cap-add=SYS_PTRACE \
--security-opt seccomp=unconfined \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device=/dev/devmm_svm \
--device=/dev/davinci_manager \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/ \
-v /usr/local/sbin:/usr/local/sbin \
-v /etc/hccn.conf:/etc/hccn.conf \
-v /mnt/data/Qwen3-30B-A3B-Instruct-2507/:/mnt/data/Qwen3-30B-A3B-Instruct-2507/ \
swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-30b-2507:20250731 \
/bin/bash
注意事项:
- 后续操作,除了发起推理请求可以在容器外进行,其余操作均在容器内进行。
# 04
服务化部署
4.1 添加环境变量
在服务器中都添加如下环境变量:
export vLLM_MODEL_BACKEND=MindFormers
4.2 拉起服务
执行以下命令拉起服务:
python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/mnt/data/Qwen3-30B-A3B-Instruct-2507" --trust_remote_code --tensor_parallel_size=4 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.9
4.3 执行推理请求测试
打开新的窗口,执行以下命令发送推理请求。
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "/mnt/data/Qwen3-30B-A3B-Instruct-2507",
"messages": [
{"role": "user", "content": "介绍一下上海"}
],
"temperature": 0.6,
"top_p": 0.95,
"top_k": 20,
"min_p": 0,
"max_tokens": 4096,
"presence_penalty": 1.05
}'
昇思MindSpore AI框架将持续支持更多业界主流模型,欢迎大家试用并在昇思论坛提供宝贵的反馈意见。(https://discuss.mindspore.cn/)