第一天打卡内容

本次学习了解了一下以下内容
一、Deepseek 带来的启示与趋势

Deepseek 的 R1 和 V3 模型用更少的训练时间和成本,可以达到和 Open AI 的 Chat GPT 差不多甚至更好的性能。

为了用更少数据、更低成本训练出效果同样不错的模型,现在很多开发者,会去采用蒸馏的方式。

二、RDQ 模型与相关技术

Deepseek 开源后,证实了用 MoE 模型开发的猜想,带动 2025 年大模型爆发式发展。但这也带来新挑战:数据怎么高效分配、算力硬件怎么匹配、能源消耗怎么控制等。

以前的大模型追求 “快思考”,虽然快但精度一般;而以 Deepseek R1 为代表的 “慢思考” 模式,会把思考过程完整展示,虽然耗时,但精度提升明显,现在成了业界研究的新方向。

但在开发中也存在着挑战,预训练阶段:如果用 MoE 模型,训练技术的成本会很高,得保证开发者的优化能力能跟上技术要求。后训练阶段:推理时的算力消耗占比高,而且模型更新特别快,还得解决慢思考模型的复现问题。

三、实用工具:Mindspore 框架

Mindspore 就像一个 “AI 开发全能工具箱”,集成了训练、数据处理、模型开发等全流程所需的功能,能覆盖开发者遇到的大部分场景。可以减少重复劳动,降低开发门槛和成本,让模型开发更高效,尤其适合专业领域的专用模型开发,定位很精准。