昇思MindSpore开源社区上线智谱GLM-4.5与GLM-4.5-Air大模型

chengxiaoli · 2025 年8 月 1 日 07:52

7月28日，智谱AI发布新一代旗舰模型 GLM-4.5，昇思MindSpore通过提供主流生态接口，依托MindSpore Transformers套件和MindSpore-vLLM插件，小时级完成模型无缝迁移，并将版本上传至开源社区，欢迎广大开发者下载体验！

MindSpore Transformers代码仓：https://gitee.com/mindspore/mindformers

MindSpore-vLLM代码仓：

https://gitee.com/mindspore/vllm-mindspore

链接地址：

衡量 AGI 的第一性原理，是在不损失原有能力的前提下融合更多通用智能能力，GLM-4.5 是对此理念的首次完整呈现，并有幸取得技术突破。GLM-4.5 首次在单个模型中实现将推理、编码和智能体能力原生融合，以满足智能体应用的复杂需求。

为综合衡量模型的通用能力，智谱选择了最具有代表性的 12 个评测基准，包括 MMLU Pro、AIME 24、MATH 500、SciCode、GPQA 、HLE、LiveCodeBench、SWE-Bench Verified、Terminal-Bench、TAU-Bench、BFCL v3 和 BrowseComp。综合平均分，GLM-4.5 取得了全球模型第三、国产模型第一，开源模型第一。

GLM-4.5 和 GLM-4.5-Air 使用了相似的训练流程：首先在 15 万亿 token 的通用数据上进行了预训练，此后在代码、推理、智能体等领域的 8 万亿 token 数据上进行针对性训练，最后通过强化学习进一步增强模型推理、代码与智能体能力。

# 01

GLM-4.5 vllm-mindspore 推理指南

1、下载链接

魔乐社区：魔乐社区

2、模型分别下载到2台服务器，存放路径保持一致。

执行以下命令为2台服务器上的自定义下载路径 /mnt/data/GLM-4.5 添加白名单：

export HUB_WHITE_LIST_PATHS=/mnt/data/GLM-4.5

执行以下命令从魔乐社区下载GLM-4.5权重文件至指定路径 /mnt/data/GLM-4.5。2台服务器分别下载，都需要占用约 740GB 的磁盘空间：

pip install openmind_hub

from openmind_hub import snapshot_download

snapshot_download(
    repo_id="MindSpore-Lab/GLM-4.5",
    local_dir="/mnt/data/GLM-4.5",
    local_dir_use_symlinks=False
)
exit()

注意事项：

/mnt/data/GLM-4.5 可修改为自定义路径，确保2台服务器的该路径有足够的磁盘空间。
下载时间可能因网络环境而异，建议在稳定的网络环境下操作。

3、快速开始

GLM-4.5推理需要2台（16卡）Atlas 800T/800I A2（64G）服务器服务器（基于BF16权重）。两台服务器需要提前配置好组网环境，两台设备的卡与卡之间能够互相ping通。昇思MindSpore提供了GLM-4.5推理可用的Docker容器镜像，供开发者快速体验。

3.1 2台服务器分别停止其他进程，避免服务器中其他进程影响

pkill -9 python
pkill -9 mindie
pkill -9 ray

3.2 2台服务器分别下载昇思 MindSpore 推理容器镜像

执行以下 Shell 命令，拉取昇思 MindSpore GLM-4.5推理容器镜像：

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/glm4.5moe-infer:20250728

3.3 启动容器

2台服务器分别执行以下命令创建并启动容器（/mnt/data/GLM-4.5用于存放权重路径，若没有/mnt盘则要修改）。

2台服务器执行命令的区别在于，hostname需要不同。

docker run -it \
--privileged \
--name=GLM-4.5 \
--net=host \
--cap-add=SYS_PTRACE \
--security-opt seccomp=unconfined \
--hostname=worker2 \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci4 \
--device=/dev/davinci5 \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device=/dev/devmm_svm \
--device=/dev/davinci_manager \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/ \
-v /usr/local/sbin:/usr/local/sbin \
-v /etc/hccn.conf:/etc/hccn.conf \
-v /mnt/data/GLM-4.5/:/mnt/data/GLM-4.5/ \
swr.cn-central-221.ovaijisuan.com/mindformers/glm4.5moe-infer:20250728 \
/bin/bash

注意事项：

后续操作，除了发起推理请求可以在容器外进行，其余操作均在容器内进行。

4、服务化部署

4.1 添加环境变量

在2台服务器中都添加如下环境变量：

export vLLM_MODEL_BACKEND=MindFormers
export ASCEND_TOTAL_MEMORY_GB=64

4.2 2台设备设置主机和辅机，通过ray进程关联

选择一台设备作为主节点，执行如下命令 ray stop ray start --head --port=6380。

另一台设备作为辅节点，依次执行如下命令 ray stop ray start --address=主节点IP:6380。

4.3 拉起服务

在主节点容器中拉起服务。355b至少需要16张卡，所以tensor_parallel_size=16

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/mnt/data/GLM-4.5" --trust_remote_code --tensor_parallel_size=16 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.93 --distributed-executor-backend=ray

4.4 执行推理请求测试

打开新的窗口，执行以下命令发送推理请求测试。

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "/mnt/data/GLM-4.5",
  "messages": [
    {"role": "user", "content": "介绍一下北京"}
  ],
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20,
  "min_p": 0,
  "max_tokens": 8192,
  "presence_penalty": 1.05,
  "chat_template_kwargs": {"enable_thinking": true}
}'

# 02

GLM-4.5-Air vllm-mindspore 推理指南

1、下载链接

魔乐社区：魔乐社区

2、模型分别下载到2台服务器，存放路径保持一致。

执行以下命令为自定义下载路径 /mnt/data/GLM-4.5-Air 添加白名单：

export HUB_WHITE_LIST_PATHS=/mnt/data/GLM-4.5-Air

执行以下命令从魔乐社区下载GLM-4.5-Air权重文件至指定路径 /mnt/data/GLM-4.5-Air 。2台服务器分别下载，都需要占用约 220GB 的磁盘空间：

pip install openmind_hub

from openmind_hub import snapshot_download

snapshot_download(
    repo_id="MindSpore-Lab/GLM-4.5-Air",
    local_dir="/mnt/data/GLM-4.5-Air",
    local_dir_use_symlinks=False
)
exit()

注意事项：

/mnt/data/GLM-4.5-Air 可修改为自定义路径，确保该路径有足够的磁盘空间。
下载时间可能因网络环境而异，建议在稳定的网络环境下操作。

3、快速开始

GLM-4.5-Air推理需要1台（8卡）Atlas 800T/800I A2（64G）服务器服务器（基于BF16权重）。昇思MindSpore提供了GLM-4.5-Air推理可用的Docker容器镜像，供开发者快速体验。

3.1 停止其他进程，避免服务器中其他进程影响

pkill -9 python
pkill -9 mindie
pkill -9 ray

3.2 下载昇思 MindSpore 推理容器镜像

执行以下 Shell 命令，拉取昇思 MindSpore GLM-4.5-Air推理容器镜像：

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/glm4.5moe-infer:20250728

3.3 启动容器

执行以下命令创建并启动容器（/mnt/data/GLM-4.5-Air用于存放权重路径，若没有/mnt盘则要修改）：

docker run -it \
--privileged \
--name=GLM-4.5-Air \
--net=host \
--cap-add=SYS_PTRACE \
--security-opt seccomp=unconfined \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci4 \
--device=/dev/davinci5 \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device=/dev/devmm_svm \
--device=/dev/davinci_manager \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/ \
-v /usr/local/sbin:/usr/local/sbin \
-v /etc/hccn.conf:/etc/hccn.conf \
-v /mnt/data/GLM-4.5-Air/:/mnt/data/GLM-4.5-Air/ \
swr.cn-central-221.ovaijisuan.com/mindformers/glm4.5moe-infer:20250728 \
/bin/bash

注意事项：

后续操作，除了发起推理请求可以在容器外进行，其余操作均在容器内进行。

4、服务化部署

4.1 添加环境变量

在服务器中都添加如下环境变量：

export vLLM_MODEL_BACKEND=MindFormers
export ASCEND_TOTAL_MEMORY_GB=64

4.2 拉起服务

执行以下命令拉起服务：

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/mnt/data/GLM-4.5-Air" --trust_remote_code --tensor_parallel_size=8 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.93

4.3 执行推理请求测试

打开新的窗口，执行以下命令发送推理请求测试。

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "/mnt/data/GLM-4.5-Air",
  "messages": [
    {"role": "user", "content": "介绍一下北京"}
  ],
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20,
  "min_p": 0,
  "max_tokens": 8192,
  "presence_penalty": 1.05,
  "chat_template_kwargs": {"enable_thinking": true}
}'

elpsycongroo · 2025 年8 月 18 日 09:33

测试910B2 CANN版本 8.2 RC1 会报算子错误错误日志如下

(MsRayWorkerWrapper pid=309, ip=172.168.200.13) [ERROR] DEVICE(309,ffd01853f040,ray::MsRayWorkerWrapper.__ray_call__):2025-08-18-09:31:35.242.548 [mindspore/ccsrc/plugin/res_manager/ascend/hal_manager/ascend_err_manager.cc:159] TaskExceptionCallback] Run Task failed, task_id: 278009, stream_id: 2, tid: 309, device_id: 4, retcode: 507015 (aicore exception)
(MsRayWorkerWrapper pid=16310) [ERROR] ME(16310,ffd0471bf040,ray::MsRayWorkerWrapper.__ray_call__):2025-08-18-09:31:35.307.224 [mindspore/ops/kernel/ascend/acl/acl_kernel_mod.cc:260] Launch] Kernel launch failed, msg: Acl compile and execute failed, op_type_:StridedSlice```

话题		回复	浏览量
昇思MindSpore同步首发Qwen3-30B-A3B-Instruct-2507并上线开源社区前沿分享-Frontier Insights	0	32	2025 年8 月 1 日
mindIR 部署推理后报错问题求助 Help	26	29	2025 年8 月 21 日
昇思学习营-第三章DeepSeek-R1-Distill-Qwen-1.5B 模型推理学习心得活动打卡	0	7	2025 年8 月 7 日
昇思学习营第七期·昇腾开发板学习打卡_第一次01 活动打卡	0	17	2025 年7 月 24 日
昇思学习营-DeepSeek-R1-Distill-Qwen-1.5B 模型推理学习心得活动打卡	0	7	2025 年8 月 6 日

昇思MindSpore开源社区上线智谱GLM-4.5与GLM-4.5-Air大模型

相关话题