昇思MindSpore基于昇腾硬件快速支持Qwen3-Next-80B-A3B系列模型，内附教程4步实现推理！

chengxiaoli · 2025 年9 月 19 日 01:49

9月11日，阿里云发布语言大模型Qwen3-Next-80B-A3B-Instruct和Qwen3-Next-80B-A3B-Thinking，昇思MindSpore AI框架在模型开源当日即实现快速支持。昇思MindSpore基于昇腾硬件通过提供主流生态接口，依托MindSpore Transformers套件，快速完成模型无缝迁移，并上传至开源社区，欢迎广大开发者下载体验！
昇思开源社区MindSpore Transformers代码仓：
https://gitee.com/mindspore/mindformers

魔乐社区vLLM-MindSpore推理版地址：

Qwen3-Next，该系列定位为“下一代基础模型”，主打极端上下文长度与参数效率。
架构层面引入了三项核心创新。首先是Hybrid Attention，它使用Gated DeltaNet和Gated Attention替代传统注意力机制，以实现高效的长文本建模。其次是High-Sparsity MoE，将激活比例压缩至1:50，大幅减少了单个token的FLOPs而不损失模型容量。最后是Multi-Token Prediction，在预训练阶段同步预测多个token，从而提升性能并加速推理。此外，模型还辅以zero-centered、weight-decayed layernorm等多项稳定化改进，增强了训练的鲁棒性。

基于这些设计，团队训练并计划开源Qwen3-Next-80B-A3B模型。该模型总参数量为80B，但激活参数仅3B，其训练成本不到Qwen3-32B的十分之一，而在下游任务上的表现却更胜一筹。特别是在32K以上长上下文场景中，其推理吞吐量相比32B基线模型提升超过10倍。

01

Qwen3-Next-80B-A3B-Thinking vllm-mindspore 推理指南
1、下载链接
魔乐社区：

2、模型下载
执行以下命令为自定义下载路径/mnt/data/Qwen3-Next-80B-A3B-Thinking 添加白名单。

export HUB_WHITE_LIST_PATHS=/mnt/data/Qwen3-Next-80B-A3B-Thinking

执行以下命令从魔乐社区下载Qwen3-Next-80B-A3B-Thinking 权重文件至指定路径/mnt/data/Qwen3-Next-80B-A3B-Thinking 。下载的文件包含模型代码、权重、分词模型和示例代码，占用约 152GB 的磁盘空间，请预留足够空间。

pip install openmind_hub

from openmind_hub import snapshot_download
snapshot_download(
   repo_id="MindSpore-Lab/Qwen3-Next-80B-A3B-Thinking",
   local_dir="/mnt/data/Qwen3-Next-80B-A3B-Thinking",
   local_dir_use_symlinks=False
)
exit()

3、快速开始
Qwen3-Next-80B-A3B-Thinking推理需要1台（8卡）Atlas 800T/800I A2（64G）服务器服务器（基于BF16权重）。昇思MindSpore提供了Qwen3-Next-80B-A3B-Thinking推理可用的Docker容器镜像，供开发者快速体验。
3.1 停止其他进程，避免服务器中其他进程影响

pkill -9 python
pkill -9 mindie
pkill -9 ray
3.2 下载昇思 MindSpore 推理容器镜像
执行以下 Shell 命令，拉取推理容器镜像：
docker pull swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911

3.3 启动容器
执行以下命令创建并启动容器（/mnt/data/Qwen3-Next-80B-A3B-Thinking用于存放权重路径，若没有/mnt盘则要修改）。

docker run -it
–privileged
–name=Qwen3-Next-80B-A3B-Thinking
–net=host
–cap-add=SYS_PTRACE
–security-opt seccomp=unconfined
–device=/dev/davinci0
–device=/dev/davinci1
–device=/dev/davinci2
–device=/dev/davinci3
–device=/dev/davinci4
–device=/dev/davinci5
–device=/dev/davinci6
–device=/dev/davinci7
–device=/dev/davinci_manager
–device=/dev/hisi_hdc
–device=/dev/devmm_svm
–device=/dev/davinci_manager
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/
-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/
-v /usr/local/sbin:/usr/local/sbin
-v /etc/hccn.conf:/etc/hccn.conf
-v /mnt/data/Qwen3-Next-80B-A3B-Thinking/:/mnt/data/Qwen3-Next-80B-A3B-Thinking/
swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911
/bin/bash

注意事项：

后续操作，除了发起推理请求可以在容器外进行，其余操作均在容器内进行。
4、服务化部署
4.1 添加环境变量
在服务器中添加如下环境变量：

export vLLM_MODEL_BACKEND=MindFormers
export MS_ENABLE_TRACE_MEMORY=off

4.2 拉起服务
执行以下命令拉起服务：

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model “/mnt/data/Qwen3-Next-80B-A3B-Thinking” --trust_remote_code --tensor_parallel_size=8 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.9

4.3 执行推理请求测试
打开新的窗口，执行以下命令发送推理请求测试。

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "/mnt/data/Qwen3-Next-80B-A3B-Thinking",
  "messages": [
    {"role": "user", "content": "介绍一下上海"}
  ],
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20,
  "min_p": 0,
  "max_tokens": 128,
  "presence_penalty": 1.05
}'

02

Qwen3-Next-80B-A3B-Instruct vllm-mindspore 推理指南
1、下载链接
魔乐社区：

2、模型下载
执行以下命令为自定义下载路径/mnt/data/Qwen3-Next-80B-A3B-Instruct 添加白名单。

export HUB_WHITE_LIST_PATHS=/mnt/data/Qwen3-Next-80B-A3B-Instruct

执行以下命令从魔乐社区下载Qwen3-Next-80B-A3B-Instruct 权重文件至指定路径/mnt/data/Qwen3-Next-80B-A3B-Instruct 。下载的文件包含模型代码、权重、分词模型和示例代码，占用约 152GB 的磁盘空间，请预留足够空间。

pip install openmind_hub

from openmind_hub import snapshot_download
snapshot_download(
   repo_id="MindSpore-Lab/Qwen3-Next-80B-A3B-Instruct",
   local_dir="/mnt/data/Qwen3-Next-80B-A3B-Instruct",
   local_dir_use_symlinks=False
)
exit()

3、快速开始
Qwen3-Next-80B-A3B-Instruct推理需要1台（8卡）Atlas 800T/800I A2（64G）服务器服务器（基于BF16权重）。昇思MindSpore提供了Qwen3-Next-80B-A3B-Instruct推理可用的Docker容器镜像，供开发者快速体验。
3.1 停止其他进程，避免服务器中其他进程影响

pkill -9 python
pkill -9 mindie
pkill -9 ray

3.2 下载昇思 MindSpore 推理容器镜像
执行以下 Shell 命令，拉取推理容器镜像：

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911

3.3 启动容器
执行以下命令创建并启动容器（/mnt/data/Qwen3-Next-80B-A3B-Instruct用于存放权重路径，若没有/mnt盘则要修改）。

docker run -it
–privileged
–name=Qwen3-Next-80B-A3B-Instruct
–net=host
–cap-add=SYS_PTRACE
–security-opt seccomp=unconfined
–device=/dev/davinci0
–device=/dev/davinci1
–device=/dev/davinci2
–device=/dev/davinci3
–device=/dev/davinci4
–device=/dev/davinci5
–device=/dev/davinci6
–device=/dev/davinci7
–device=/dev/davinci_manager
–device=/dev/hisi_hdc
–device=/dev/devmm_svm
–device=/dev/davinci_manager
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/
-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/
-v /usr/local/sbin:/usr/local/sbin
-v /etc/hccn.conf:/etc/hccn.conf
-v /mnt/data/Qwen3-Next-80B-A3B-Instruct/:/mnt/data/Qwen3-Next-80B-A3B-Instruct/
swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911
/bin/bash

注意事项：

后续操作，除了发起推理请求可以在容器外进行，其余操作均在容器内进行。

4、服务化部署
4.1 添加环境变量
在服务器中都添加如下环境变量：

export vLLM_MODEL_BACKEND=MindFormers
export MS_ENABLE_TRACE_MEMORY=off

4.2 拉起服务
执行以下命令拉起服务：

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model “/mnt/data/Qwen3-Next-80B-A3B-Instruct” --trust_remote_code --tensor_parallel_size=8 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.9

4.3 执行推理请求测试
打开新的窗口，执行以下命令发送推理请求测试。

curl http://localhost:8000/v1/chat/completions -H "Content-Type:
application/json" -d '{
  "model": "/mnt/data/Qwen3-Next-80B-A3B-Instruct",
  "messages": [
    {"role": "user", "content": "介绍一下上海"}
  ],
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20,
  "min_p": 0,
  "max_tokens": 128,
  "presence_penalty": 1.05
}'

话题		回复	浏览量
昇思MindSpore同步首发Qwen3-30B-A3B-Instruct-2507并上线开源社区前沿分享-Frontier Insights	0	286	2025 年8 月 1 日
昇思MindSpore同步首发Qwen3-VL-30B-A3B-Instruct模型应用实践-Application Cases	1	88	2025 年10 月 24 日
昇思MindSpore同步首发Qwen3-VL系列模型前沿分享-Frontier Insights	0	138	2025 年10 月 17 日
昇思MindSpore开源社区上线智谱GLM-4.5与GLM-4.5-Air大模型推理经验-Inference Experience	1	124	2025 年8 月 18 日
推理镜像（docker）无法下载的问题问题求助 Help 部署 , 生态库	6	72	2025 年12 月 3 日

昇思MindSpore基于昇腾硬件快速支持Qwen3-Next-80B-A3B系列模型，内附教程4步实现推理！

01

02

相关话题