作者|沙丘智库研究团队
来源|沙丘社区(www.shaqiu.cn)
2025年2月24至2025年2月28日,DeepSeek举行了“开源周”,开源了五个前沿的代码库,每个代码库都旨在解决AI开发中的关键挑战,标志着开源AI社区的重要里程碑,使高级AI工具的获取更加民主化,并促进全球开发者和研究人员之间的合作。
2025年3月1日,DeepSeek官方又发布了一个“惊喜彩蛋”,深度剖析了DeepSeek-V3/R1推理系统,并披露了DeepSeek-V3/R1推理系统的成本和理论收入数据。
以下是对DeepSeek“开源周”的详细总结。
01
开源周概览
2025年2月21日,DeepSeek发布“开源周”计划,强调了其对透明度和社区驱动创新的承诺。DeepSeek表示,这些在线服务中的基础构建模块已经经过文档化、部署,并在生产环境中经过实战检验。此次发布旨在通过提供增强计算效率、模型优化和大规模数据处理的工具,加速AI开发。
开源周发布的主要内容如下:
02
DAY1:FlashMLA
FlashMLA标志着AI性能优化的重大突破,为英伟达 Hopper GPU提供了一个高效解码内核。FlashMLA的影响如下:
(1)性能优化
· 利用Hopper GPU的3000 GB/s内存带宽和580 TFLOPS计算能力,实现高速AI工作负载;
· 高效处理可变长度序列,最大限度地减少AI应用程序中的性能瓶颈。
(2)高级内存管理
· BF16支持(Brain Float 16),减少内存开销,同时保持计算精度;
· 引入分页KV缓存(块大小为64),简化数据组织和加快处理速度。
(3)开源协作
· 受到FlashAttention 2&3和英伟达CUTLASS等领先AI优化项目的启发;
· 在GitHub上提供,允许开发人员修改、增强和促进其持续发展。
(4)行业影响
· 增强金融、医疗、自主系统中的实时AI决策,在这些领域,速度和精确度非常重要;
· 通过使高性能AI基础设施更易于访问,支持较小的人工智能团队与主要技术参与者竞争。
FlashMLA为人工智能效率设定了新的基准,使开发更快、更智能、更可扩展的AI模型成为可能。随着对实时AI的需求不断增长,FlashMLA有望成为下一代人工智能基础设施的基石技术。
03
DAY2:DeepEP
DeepEP是一个专门为MoE模型训练和推理打造的通信库,旨在解决阻碍MoE架构可扩展性的关键瓶颈,重点是优化通信、减少延迟和提高GPU资源利用率。
DeepEP的主要特点如下:
· 优化通信:DeepEP增强了全对全(all-to-all)的通信,确保系统内更顺畅、更快的交互。这种改进对于提高MoE模型的可扩展性至关重要,特别是在大规模应用中;
· 无缝集成:DeepEP与NVLink和RDMA等高速互连轻松集成,允许高效处理内部节点和节点间通信,这对于实时应用程序来说至关重要,避免延迟对结果造成的影响;
· 双核方法:DeepEP采用了双核策略,用于训练的高吞吐量内核和用于推理的低延迟内核,这种平衡的方法确保了批处理任务的最大速度和实时AI应用程序(如聊天机器人和自主系统)的最小延迟;
· 内存和计算效率:原生FP8调度支持优化了内存使用并提高了计算性能,使AI模型能够有效扩展,同时保证成本可控。
· 开源可访问性:通过开源DeepEP,DeepSeek使高端AI技术访问的民主化。通常缺乏专有解决方案的小型研究团队和初创公司现在可以利用DeepEP构建强大、可扩展的人工智能模型;
· 鼓励协作:开源性质促进了协作环境,使全球开发人员能够对现有的人工智能技术做出贡献、创新和改进,从而加快了人工智能进步的步伐;
无论是开发下一代语言模型、科学模拟还是复杂的决策系统,DeepEP都是一个突破性的工具,重新定义了MoE架构中的可能性。通过优化MoE模型训练和推理的核心挑战,DeepEP真正改变了人工智能开发的游戏规则。
04
DAY3:DeepGEMM
DeepGEMM是一个FP8 GEMM库,专用于执行高效FP8精度矩阵算法,旨在优化人工智能训练和推理的最关键方面,解决持续存在的瓶颈,并释放新的性能和效率水平。
DeepGEMM的主要特点如下:
· FP8支持优化:FP8支持是DeepGEMM的突出功能之一,在提高计算速度的同时显著减少内存使用,这使得它非常适合大规模人工智能模型的训练和推理;
· 最小依赖和JIT编译:DeepGEMM的设计考虑到了简洁性,仅由约300行核心逻辑和最小的依赖关系组成,确保了轻量级和高效的体验。即时编译(JIT)实现了实时优化,在没有传统库膨胀的情况下提供了峰值性能,为开发人员提供了强大的工具;
· 跨架构的多功能性:DeepGEMM支持密集矩阵布局和两种MoE布局,这种灵活性使其适用于从大语言模型到MoE系统的一系列AI架构;
· 表现优于专家调优内核:DeepGEMM在大多数矩阵大小上提供了比许多专家调优的内核更好的性能。这对于从事计算密集型任务的开发人员来说尤其有利。
DeepSeek发布的DeepGEMM不仅仅是一项技术成就,更是迈向更加协作、高效和强大的人工智能未来的重要一步。凭借FP8性能实现更快的计算,JIT编译实现实时优化,以及开源可访问性,DeepGEMM为AI开发人员提供了推动创新边界所需的工具。
05
DAY4:DualPipe&EPLB
DualPipe标志着大规模人工智能模型训练的流水线并行取得了关键进展。通过引入双向流水线并行算法,DualPipe克服了模型训练过程中GPU空闲时间的常见问题。这是通过将计算与通信重叠来实现的,确保GPU保持活动状态并显著减少停机时间。
DualPipe的主要特点如下:
· 简化管道平行度:传统的流水线并行通常会导致GPU空闲期和资源使用效率低下。DualPipe通过引入双向流水线并行克服了这一点,允许计算和通信的重叠。这确保了GPU在整个过程中保持工作,大大减少了停机时间并优化了整体工作流程;
· 解决跨节点通信瓶颈:在跨多个GPU训练大模型时,跨节点通信可能成为一个重大瓶颈。DualPipe通过将通信与计算并行来解决这个问题,确保DeepSeek-V3和R1等模型或MoE模型平稳高效地运行;
· 与EPLB集成以实现负载平衡:除了DualPipe,DeepSeek还为MoE模型引入了EPLB(专家并行负载均衡器)。EPLB确保GPU之间的工作负载分布均衡,防止MoE设置中GPU利用率不足或过载。通过动态调整专家分布,EPLB最大限度地提高了吞吐量,减少了瓶颈,提高了训练效率。
· 加速AI模型开发:对于开发人员来说,这些工具代表了一种改变游戏规则的解决方案,将训练时间从几个月缩短到几周甚至几天;
· 为未来人工智能的发展铺平道路:DeepSeek的工具套件——包括DualPipe、EPLB、DeepGEMM等——形成了一个有凝聚力的生态系统,优化了从模型架构到训练性能的人工智能管道的每一层。通过实现更快、更高效的人工智能模型训练,这些工具正在帮助开发人员突破人工智能应用的界限。
DualPipe和EPLB不仅仅是技术解决方案,它们代表了人工智能模型训练的新时代。通过优化大规模训练的并行性和负载平衡,DeepSeek使开发人员能够在人工智能开发方面取得更快、更高效的进展。这些创新不仅有利于DeepSeek自己的项目,而且有可能推动其他行业大模型应用的突破。
06
DAY5:Fire-Flyer File System (3FS)
DeepSeek在开源周第5天发布的3FS为处理大规模数据的开发人员引入了一种变革性的工具。以下是3FS的重要性:
· “涡轮增压”数据访问:3FS的核心是一个高性能的并行文件系统,旨在以极快的速度处理海量数据集。与可能成为瓶颈的传统文件系统不同,3FS将数据分布在多个节点上,实现了同时访问并大大降低了延迟,实现更快的数据检索,使人工智能训练、大数据处理和其他数据密集型应用程序更加流畅;
· 针对现代硬件进行了优化:3FS旨在最大限度地提高先进硬件的性能,充分利用SSD实现更快的读/写速度,并利用RDMA网络降低延迟。这种组合确保了系统即使在处理大量数据集的情况下也能发挥最佳性能,使其成为人工智能模型训练、大数据分析和其他高性能计算任务的理想解决方案;
· 可扩展的性能:在多节点集群设置中,3FS实现无缝同步,允许跨节点的高效数据访问。3FS在180节点集群中的基准读取速度高达6.6 TiB/s,为数据吞吐量设定了新的标准,使其能够轻松处理要求最严苛的工作负载。
· 加速人工智能和大数据工作流程:对于开发人员来说,3FS具有显著的优势,第一,更快的AI训练。通过提高数据访问速度,3FS有助于减少训练时间,实现更快的实验和更快的模型迭代;第二,高效的大数据处理。3FS凭借其高吞吐量,确保用于模拟、日志处理和分析的数据管道高效运行,从而更快地洞察和提高资源利用率;第三,硬件效率。通过最大限度地提高硬件性能,3FS有助于降低成本,以更少的资源实现更好的结果。
3FS是一个突破性的工具,可以为人工智能和大数据应用程序提供数据访问。其并行文件系统架构针对现代硬件进行了优化,使其成为简化工作流程、加速人工智能训练和高效处理大量数据的关键资产。除了开源外,3FS还为开发人员提供了一个协作平台,以创新和优化他们的系统。
07
DAY6:DeepSeek-V3/R1 推理系统
DeepSeek-V3/R1推理系统是一种旨在优化大规模AI推理任务吞吐量和延迟的解决方案,利用跨节点专家并行(EP)来扩展批处理大小,提高GPU效率,减少内存访问需求,实现了更高吞吐量和更低延迟的双重目标。
(1)Deepseek设计的新功能
DeepSeek-V3/R1推理系统采用大规模跨节点EP来处理具有众多专家的模型的高稀疏性(例如,每层256名专家中只有8名被激活)。该系统在预填充和解码阶段使用不同的并行策略:
预填充阶段:在4个节点上路由专家EP32和共享专家DP32;
解码阶段:在18个节点上路由专家EP144和共享专家DP144。
图片来源:DeepSeek
双批重叠策略通过将请求拆分为两个微批来隐藏通信延迟。在预填充过程中,一个微批的通信与另一个的计算重叠。
在解码过程中,利用一个五阶段的流水线将注意力层细分为两个步骤,确保无缝的通信计算重叠。
负载平衡机制:
· 预填充负载均衡器:平衡核心注意力计算和跨GPU分派发送负载;
· 解码负载均衡器:均衡每个GPU的KVCache使用率和请求计数;
· 专家级并行负载均衡器:在GPU上均匀分配专家级计算工作负载,以最大限度地减少瓶颈。
(2)成本和理论收入分析
图片来源:DeepSeek
· 峰值节点占用率达到278个节点,平均占用226.75个节点(每个节点8个GPU);
· 每日运营成本:87,072美元(基于每个H800 GPU每小时2美元);
· 理论日收入:562,027美元,基于DeepSeek-R1定价;
· 利润率:令人惊讶的545%,尽管由于DeepSeek-V3的免费服务、折扣和较低的定价,实际收入较低;
DeepSeek开源周以DeepSeek-V3/R1推理系统的发布而结束。通过开源代码库,DeepSeek不仅将这些能力赋予给开发人员,还为人工智能的效率、可扩展性和可访问性设定了新的标准。这一举措对人工智能社区的发展将产生持久影响,以前所未有的规模促进协作和创新。
▎更多研究(可前往“沙丘智库”查阅)
银行业DeepSeek大模型应用跟踪报告
回答关于DeepSeek的六个热门问题
DeepSeek带来的变化,企业该如何应对?
2024中国大模型技术采纳现状调研报告
2024年国资央企大模型应用跟踪报告
2024年中国工业大模型应用跟踪报告
2024年AI Agent最佳实践报告
...
*更多生成式AI研究可前往“沙丘智库”小程序查阅
*有任何需求可咨询客服微信:zimu738