DeepSeek V3/R1
- MoE模型结构
- 慢思考模型
- 框架
- 预训练
- 后训练
- 推理部署场景
DeepSeek-R1-Distill-Qwen-1.5B
- 开发与适配
- LoRA微调
- 推理与优化
CANN和MindSpore关系
- CANN开发算子
- MindSpore使用算子
- 集成工程模型,简化开发
- transformers
- RLHF→强化学习
- Science→AI for science
- One
- 集成工程模型,简化开发
本论坛支持原创内容经验分享,要求可参考:https://discuss.mindspore.cn/t/topic/42,
内容优秀者可参与每月经验分享技术帖活动:https://discuss.mindspore.cn/t/topic/61,
欢迎用户贡献优秀内容并参加~