昇思+香橙派+DeepSeek介绍
昇思MindSpore 2.6全面支持类DeepSeek V3/R1 MoE模型高性能训推
- 高性能MOE预训练,性能提升30%
- 类R1高性能推理,吞吐提升2.8x
- 易用性提升,SOTA模型Day0迁移
- 后训练强化学习套件,训推一体
- AI+科学计算的持续演进
昇腾开发板 - OrangePi AIpro
香橙派OrangePi AIpro采用昇腾AI技术路线,具体为4核64位处理器+AI处理器,集成图形处理器,支持8/20 TOPS AI算力,广泛适用于AI边缘计算、深度视觉学习及视频流AI分析等各个行业。满足大多数AI算法原型验证、推理应用开发的需求。
昇思MindSpore+香橙派技术能力进展
- 开发友好:动态图易用性提升,类huggingface风格降低开发调试门槛
- 性能提升:mindspore.jit编译成图,三行代码实现推理性能提升一倍
- 全流程支持:在香橙派上支持模型训推
DeepSeek-R1-Distill-Qwen-1.5B介绍
虽然 V3 和 R1 实力强大,但由于需要 8 张 141GB 显存的 NVIDIA H200
GPU,运行成本高,不适合所有人。
为此,DeepSeek 推出了蒸馏版模型,将 R1 的推理能力以更轻量的方式呈
现。它们不是从头训练,而是:
- 选用 Llama 3.1/3.3 和 Qwen 2.5 的 6 个开源模型
- 用 R1 生成 80 万条高质量推理数据
- 基于这些数据进行监督微调(SFT,无 RL 阶段)
这些模型更易部署,推理能力也依然出色。而DeepSeek-R1-Distill-Qwen- 1.5B是最小规模的DeepSeek蒸馏模型。