昇思学习营第七期·昇腾开发板特辑 第一次打卡
昇思+香橙派+DeepSeek介绍
在科技飞速发展的今天,AI技术早已不是实验室里的专属玩具。在宿舍书桌上就能搭建自己的智能助手,用几百块的设备跑动前沿大模型昇思+香橙派+DeepSeek带来真实可能。
DeepSeek
DeepSeek模型自从推出之后就获得了业内极大的反响,其以GPT4-pro三分之一的训练资源来实现比肩的效果,真的十分让人震撼,能取得如此成果,很大的依赖于MoE框架,边思考边训练。
昇思MindSpore和mindnlp
这个就是我们熟悉的老帮手了,对于我们刚刚接触微调和大模型的开发者来说,我们的绝大多数工作都要在开源框架的基础上完成,之前我也接触过LLM以及其他的一些框架和套件,但是MindSpore和mindnlp框架给我的体验感可以来说是最好的,不光提供了大量的接口方便我们进行开发,与上层模型和下层硬件的对接也是十分可观的。
香橙派
性价比极高的板子,在微小的身体上可以运行市面上常见的轻量级模型,可以做训推,对我们开发者来说简直是十分方便便于携带,让我们摆脱了电脑和资源的限制。(注意对不同配置的板子我们应该使用对应的镜像,做大模型开发我们的第一步一定是要认认真真的配好环境)
我们MindSpore和香橙派开发能力的进展,可以看到不管事我们生活中比较新的DeepSeek类模型还是之前的ResNet和FCN类模型,我们都有良好的适配
DeepSeek-R1-Distill-Qwen-1.5B模型开发与适配
可以看到我们V3和R1模型的功能虽然强大,但是所需要的硬件资源也是十分惊人的,所以对于我们这种普通个人开发者来说,使用轻量级蒸馏模型就十分重要,而香橙派的便利性也就显现出来了
我们在之前的开发上也基本就是类似的步骤,首先我们最重要的就是配置环境这一步,之前本人也在环境配置上吃了不少亏,后来也就先配好环境再做后面的适配迁移微调推理了,我们的基本步骤如图所示,一定要注意对于不同的版本框架,我们一定要配套
MindSpore nlp框架对于测试十分重视,对于日志的报错采取了监视来进行精准定位,这个功能我认为是对我们开发者十分友好的,可以有效的为我们解决报错问题提供帮助,不再焦头烂额
之后老师举了算子缺失,loss损失函数报错,以及tensor索引切片报错三个我们在日常微调中经常会遇到的问题,之前用别的框架难以解决的问题,没想到在mindspore框架下解决起来如此简单,真是后悔没有在刚开始学习开发时就采用mindspore环境和套件。