昇思学习营第七期·昇腾开发板学习打卡_第一次:
老师上来先介绍了本节课的目标:
-
了解并熟悉MindSpore和相关套件的基础使用
-
掌握基于MindSpore的DeepSeek蒸馏模型的开发、微调、推理、性能优化实践全流程
-
掌握DeepSeek蒸馏模型实践全流程在香橙派开发板上的适配
然后又给我们介绍了deepseek的突出亮点:
由于我们的昇思MindSpore 2.6全面支持类DeepSeek V3/R1 MoE模型高性能训推
所以支持此次的deepseek微调推理任务:
然后又给我们介绍了香橙派的相关知识:
香橙派OrangePi AIpro采用昇腾AI技术路线,具体为4核64位处理器+AI处理器,集成图形处理器,支持8/20 TOPS AI算力,广泛适用于AI边缘计算、深度视觉学习及视频流AI分析等各个行业。满足大多数AI算法原型验证、推理应用开发的需求。
昇思MindSpore+香橙派技术能力进展
虽然 V3 和 R1 实力强大,但由于需要 8 张 141GB 显存的 NVIDIA H200 GPU,运行成本高,不适合所有人。 为此,DeepSeek 推出了蒸馏版模型,将 R1 的推理能力以更轻量的方式呈 现。它们不是从头训练,而是: • 选用 Llama 3.1/3.3 和 Qwen 2.5 的 6 个开源模型 • 用 R1 生成 80 万条高质量推理数据 • 基于这些数据进行监督微调(SFT,无 RL 阶段) 这些模型更易部署,推理能力也依然出色。而DeepSeek-R1-Distill-Qwen- 1.5B是最小规模的DeepSeek蒸馏模型。
下面,我开始学习如何在香橙派上进行模型的开发和适配
对于必要环境的安装
我们可以用下方的命令在终端中输入查看我们的cann是否安装成功。
cat /usr/local/Ascend/ascend-toolkit/8.1.RC1/aarch64-linux/ascend_toolkit_install.info
pip show mindspore
可以看见已经成功安装了2.6.0版本的。
pip show mindnlp
至此,我们需要的开发环境安装完成了。
网络调试:
经验分享:
c. 针对香橙派上Tensor索引/切片报错的处理方式 执行测试用例 pytest -s -v tests\ut\transformers\models\qwen2\test_modeling_qwen2.py::Qwen2ModelTest::test_beam_search_generate_dict_outputs_use_cache
这样就可以解决我们遇到的大部分问题了。












