昇思MindSpore基于昇腾硬件快速支持Qwen3-Next-80B-A3B系列模型,内附教程4步实现推理!

9月11日,阿里云发布语言大模型Qwen3-Next-80B-A3B-Instruct和Qwen3-Next-80B-A3B-Thinking,昇思MindSpore AI框架在模型开源当日即实现快速支持。昇思MindSpore基于昇腾硬件通过提供主流生态接口,依托MindSpore Transformers套件,快速完成模型无缝迁移,并上传至开源社区,欢迎广大开发者下载体验!
昇思开源社区MindSpore Transformers代码仓:
https://gitee.com/mindspore/mindformers

魔乐社区vLLM-MindSpore推理版地址:

Qwen3-Next,该系列定位为“下一代基础模型”,主打极端上下文长度与参数效率。
架构层面引入了三项核心创新。首先是Hybrid Attention,它使用Gated DeltaNet和Gated Attention替代传统注意力机制,以实现高效的长文本建模。其次是High-Sparsity MoE,将激活比例压缩至1:50,大幅减少了单个token的FLOPs而不损失模型容量。最后是Multi-Token Prediction,在预训练阶段同步预测多个token,从而提升性能并加速推理。此外,模型还辅以zero-centered、weight-decayed layernorm等多项稳定化改进,增强了训练的鲁棒性。

基于这些设计,团队训练并计划开源Qwen3-Next-80B-A3B模型。该模型总参数量为80B,但激活参数仅3B,其训练成本不到Qwen3-32B的十分之一,而在下游任务上的表现却更胜一筹。特别是在32K以上长上下文场景中,其推理吞吐量相比32B基线模型提升超过10倍。

01

Qwen3-Next-80B-A3B-Thinking vllm-mindspore 推理指南
1、下载链接
魔乐社区:

2、模型下载
执行以下命令为自定义下载路径/mnt/data/Qwen3-Next-80B-A3B-Thinking 添加白名单。

export HUB_WHITE_LIST_PATHS=/mnt/data/Qwen3-Next-80B-A3B-Thinking

执行以下命令从魔乐社区下载Qwen3-Next-80B-A3B-Thinking 权重文件至指定路径/mnt/data/Qwen3-Next-80B-A3B-Thinking 。下载的文件包含模型代码、权重、分词模型和示例代码,占用约 152GB 的磁盘空间,请预留足够空间。

pip install openmind_hub

from openmind_hub import snapshot_download
snapshot_download(
   repo_id="MindSpore-Lab/Qwen3-Next-80B-A3B-Thinking",
   local_dir="/mnt/data/Qwen3-Next-80B-A3B-Thinking",
   local_dir_use_symlinks=False
)
exit()

3、快速开始
Qwen3-Next-80B-A3B-Thinking推理需要1台(8卡)Atlas 800T/800I A2(64G)服务器服务器(基于BF16权重)。昇思MindSpore提供了Qwen3-Next-80B-A3B-Thinking推理可用的Docker容器镜像,供开发者快速体验。
3.1 停止其他进程,避免服务器中其他进程影响

pkill -9 python
pkill -9 mindie
pkill -9 ray
3.2 下载昇思 MindSpore 推理容器镜像
执行以下 Shell 命令,拉取推理容器镜像:
docker pull swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911

3.3 启动容器
执行以下命令创建并启动容器(/mnt/data/Qwen3-Next-80B-A3B-Thinking用于存放权重路径,若没有/mnt盘则要修改)。

docker run -it
–privileged
–name=Qwen3-Next-80B-A3B-Thinking
–net=host
–cap-add=SYS_PTRACE
–security-opt seccomp=unconfined
–device=/dev/davinci0
–device=/dev/davinci1
–device=/dev/davinci2
–device=/dev/davinci3
–device=/dev/davinci4
–device=/dev/davinci5
–device=/dev/davinci6
–device=/dev/davinci7
–device=/dev/davinci_manager
–device=/dev/hisi_hdc
–device=/dev/devmm_svm
–device=/dev/davinci_manager
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/
-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/
-v /usr/local/sbin:/usr/local/sbin
-v /etc/hccn.conf:/etc/hccn.conf
-v /mnt/data/Qwen3-Next-80B-A3B-Thinking/:/mnt/data/Qwen3-Next-80B-A3B-Thinking/
swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911
/bin/bash

注意事项:

  • 后续操作,除了发起推理请求可以在容器外进行,其余操作均在容器内进行。
    4、服务化部署
    4.1 添加环境变量
    在服务器中添加如下环境变量:

export vLLM_MODEL_BACKEND=MindFormers
export MS_ENABLE_TRACE_MEMORY=off

4.2 拉起服务
执行以下命令拉起服务:

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model “/mnt/data/Qwen3-Next-80B-A3B-Thinking” --trust_remote_code --tensor_parallel_size=8 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.9

4.3 执行推理请求测试
打开新的窗口,执行以下命令发送推理请求测试。

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "/mnt/data/Qwen3-Next-80B-A3B-Thinking",
  "messages": [
    {"role": "user", "content": "介绍一下上海"}
  ],
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20,
  "min_p": 0,
  "max_tokens": 128,
  "presence_penalty": 1.05
}'

02

Qwen3-Next-80B-A3B-Instruct vllm-mindspore 推理指南
1、下载链接
魔乐社区:

2、模型下载
执行以下命令为自定义下载路径/mnt/data/Qwen3-Next-80B-A3B-Instruct 添加白名单。

export HUB_WHITE_LIST_PATHS=/mnt/data/Qwen3-Next-80B-A3B-Instruct

执行以下命令从魔乐社区下载Qwen3-Next-80B-A3B-Instruct 权重文件至指定路径/mnt/data/Qwen3-Next-80B-A3B-Instruct 。下载的文件包含模型代码、权重、分词模型和示例代码,占用约 152GB 的磁盘空间,请预留足够空间。

pip install openmind_hub

from openmind_hub import snapshot_download
snapshot_download(
   repo_id="MindSpore-Lab/Qwen3-Next-80B-A3B-Instruct",
   local_dir="/mnt/data/Qwen3-Next-80B-A3B-Instruct",
   local_dir_use_symlinks=False
)
exit()

3、快速开始
Qwen3-Next-80B-A3B-Instruct推理需要1台(8卡)Atlas 800T/800I A2(64G)服务器服务器(基于BF16权重)。昇思MindSpore提供了Qwen3-Next-80B-A3B-Instruct推理可用的Docker容器镜像,供开发者快速体验。
3.1 停止其他进程,避免服务器中其他进程影响

pkill -9 python
pkill -9 mindie
pkill -9 ray

3.2 下载昇思 MindSpore 推理容器镜像
执行以下 Shell 命令,拉取推理容器镜像:

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911

3.3 启动容器
执行以下命令创建并启动容器(/mnt/data/Qwen3-Next-80B-A3B-Instruct用于存放权重路径,若没有/mnt盘则要修改)。

docker run -it
–privileged
–name=Qwen3-Next-80B-A3B-Instruct
–net=host
–cap-add=SYS_PTRACE
–security-opt seccomp=unconfined
–device=/dev/davinci0
–device=/dev/davinci1
–device=/dev/davinci2
–device=/dev/davinci3
–device=/dev/davinci4
–device=/dev/davinci5
–device=/dev/davinci6
–device=/dev/davinci7
–device=/dev/davinci_manager
–device=/dev/hisi_hdc
–device=/dev/devmm_svm
–device=/dev/davinci_manager
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/
-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/
-v /usr/local/sbin:/usr/local/sbin
-v /etc/hccn.conf:/etc/hccn.conf
-v /mnt/data/Qwen3-Next-80B-A3B-Instruct/:/mnt/data/Qwen3-Next-80B-A3B-Instruct/
swr.cn-central-221.ovaijisuan.com/mindformers/qwen3-next-80b-a3b:20250911
/bin/bash

注意事项:

  • 后续操作,除了发起推理请求可以在容器外进行,其余操作均在容器内进行。

4、服务化部署
4.1 添加环境变量
在服务器中都添加如下环境变量:

export vLLM_MODEL_BACKEND=MindFormers
export MS_ENABLE_TRACE_MEMORY=off

4.2 拉起服务
执行以下命令拉起服务:

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model “/mnt/data/Qwen3-Next-80B-A3B-Instruct” --trust_remote_code --tensor_parallel_size=8 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.9

4.3 执行推理请求测试
打开新的窗口,执行以下命令发送推理请求测试。

curl http://localhost:8000/v1/chat/completions -H "Content-Type:
application/json" -d '{
  "model": "/mnt/data/Qwen3-Next-80B-A3B-Instruct",
  "messages": [
    {"role": "user", "content": "介绍一下上海"}
  ],
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20,
  "min_p": 0,
  "max_tokens": 128,
  "presence_penalty": 1.05
}'