关于昇思、香橙派和deepseek的知识概要

DeepSeek V3/R1

  • MoE模型结构
  • 慢思考模型
  • 框架
    • 预训练
    • 后训练
    • 推理部署场景

DeepSeek-R1-Distill-Qwen-1.5B

  • 开发与适配
  • LoRA微调
  • 推理与优化

CANN和MindSpore关系

  • CANN开发算子
  • MindSpore使用算子
    • 集成工程模型,简化开发
      • transformers
      • RLHF→强化学习
      • Science→AI for science
      • One

本论坛支持原创内容经验分享,要求可参考:https://discuss.mindspore.cn/t/topic/42,
内容优秀者可参与每月经验分享技术帖活动:https://discuss.mindspore.cn/t/topic/61,
欢迎用户贡献优秀内容并参加~