今天主要学习了如何在昇腾开发板上对大模型进行推理优化,包括权重加载、启动推理、效果比较与调优、性能测试、性能优化几个步骤。其中重点在于老师总结的常见的性能优化方法和可能踩得坑。比如遇到开发板不支持的算子时可以考虑使用ACLOP或者numpy代替,在内存显存受限时可以直接加载fp16精度类型、手动限制python进程数和进程内存等,在模型推理阶段可以禁用多线程和使用jit及时编译来提高推理速度。
通过这一章和前面的学习,我了解到了整个微调过程的大致流程,至于可能的坑可能自己现在还没踩过所以体会不是很深,但至少有了大概的概念,知道遇到类似的问题应该从哪些方面去思考。