发布日期:2025-08-11 06:08 点击次数:65
新智元报谈
裁剪:KingHZ 好困
【新智元导读】DeepSeek公开推理系统架构,资本利润率可达545%!翌日还有更大惊喜吗?
就在刚刚,当 全球认为开源周还是收尾的时刻,真「Open AI」DeepSeek带来了压轴大戏——DeepSeek-V3/R1推理系统,全面揭秘!
糊涂量和蔓延优化:
跨节点高效并行(EP)驱动的批处理扩张
计较与通讯并行处理
智能负载平衡
在线劳动性能数据:
每个H800节点每秒处理73,700/14,800输入/输出token
资本利润率高达545%
DeepSeek示意,但愿本周分享的技艺视力能为开源社区带来价值,共同推动通用东谈主工智能的发展打算。
看到这里,网友齐惊了!
是以,基本免费的DeepSeek资本利润率高达545%,而号称寰球最贵的OpenAI却在蚀本?
系统假想原则
简单来说,DeepSeek-V3/R1推理劳动的优化打算是:提高糊涂量和裁减蔓延。
为了达成这两个打算,团队摄取了跨节点群众并行(Expert Parallelism,EP)技艺。
起初,EP权贵扩大了批处理规模,提高了GPU矩阵计较成果,从而擢升糊涂量。
其次,EP将群众模块散布在不同GPU上,每个GPU仅处理一丝群众模块(减少内存窥探需求),从而裁减蔓延。
关联词,EP也加多了系统复杂度,主要体当今两个方面:
EP引入了跨节点通讯。为了优化糊涂量,需要假想合理的计较使命流,使通讯经过与计较经过随机并行进行。
EP触及多个节点,因此势必需要数据并行(Data Parallelism,DP),并条件在不同DP实例之间进行负载平衡。
为此,DeepSeek通过以下方式支吾这些挑战:
摆布EP技艺扩张批处理规模
将通讯蔓延与计较经过重复处理
达成存效的负载平衡
大规模跨节点群众并行(EP)
DeepSeek-V3/R1中包含大齐群众模块:每层256个群众中仅激活8个,是以模子的高稀少性特色条件摄取极大的全体批处理规模。
这么能力确保每个群众模块赢得填塞的批处理量,从而达成更高的糊涂量和更低的蔓延。因此,大规模跨节点EP技艺成为必不行少的聘用。
DeepSeek摄取了预填充-解码解耦架构(prefill-decode disaggregation architecture),在预填充妥协码阶段离别摄取不同进度的并行计谋:
预填充阶段「路由群众EP32,MLA/分享群众DP32」:每个部署单位起初4个节点,成立32个冗余路由群众,每个GPU证明处理9个路由群众和1个分享群众。
解码阶段「路由群众EP144,MLA/分享群众DP144」:每个部署单位起初18个节点,成立32个冗余路由群众,每个GPU处分2个路由群众和1个分享群众。
计较-通讯重复处理
大规模跨节点EP技艺引入了权贵的通讯支出。
为了缓解这一问题,摄取dual-batch重复计谋,将吞并批央求分割为两个microbatch,以掩蔽通讯资本并提高全体糊涂量。
在预填充阶段,两个microbatch轮流引申,一个microbatch的通讯支出被另一个microbatch的计较经过所掩饰。
在解码阶段,各引申阶段的时长存在不屈衡状态。
为此,需要将贵重力层细分为两个样式,并摄取五阶段活水线(5-stage pipeline)技艺,达成计较与通讯的无缝重复。
达成最优负载平衡
大规模并行(包括数据并行DP和群众并行EP)带来了一个关节挑战:淌若单个GPU在计较或通讯方面过载,它将成为通盘系统的性能瓶颈,导致系统速率着落,同期形成其他GPU资源闲置。
为了最大戒指地提高资源摆布率,DeepSeek的打算是在悉数GPU上达成计较和通讯负载的平衡。
1. 预填充阶段负载平衡器
关节问题:不同数据并行实例之间的央求数目和序列长度各别导致中枢贵重力计较和分发发送负载不屈衡。
优化打算:
平衡各GPU之间的中枢贵重力计较(中枢贵重力计较负载平衡);
平衡每个GPU处理的输入token数目(分发发送负载平衡),幸免特定GPU出现处理蔓延。
2. 解码阶段负载平衡器
关节问题:数据并行实例之间央求数目和序列长度不均导致中枢贵重力计较(与KV缓存使用关联)和分发发送负载的各别。
优化打算:
平衡各GPU之间的KV缓存(KVCache)使用(中枢贵重力计较负载平衡);
平衡每个GPU的央求处理数目(分发发送负载平衡)。
3. 群众并行负载平衡器
关节问题:在夹杂群众模子(Mixture of Experts,MoE)中,存在自然的高负载群众,导致不同GPU上的群众计较使命负载不屈衡。
优化打算:
平衡每个GPU上的群众计较使命量(即最小化悉数GPU中的最大分发接管负载)。
DeepSeek在线推理系统图示
DeepSeek在线劳动统计数据
悉数DeepSeek-V3/R1推理劳动均在H800 GPU上开动,精度与测验保握一致。
具体而言,矩阵乘法和分发传输摄取与测验一致的FP8样式,而中枢MLA计较和组合传输使用BF16样式,确保最好的劳动性能。
此外,由于白昼劳动负载高而夜间负载低,团队采选了一种蜕变的机制:
在白昼岑岭时段,悉数节点齐部署推理劳动; 在夜间低负载时段,减少推理节点并将资源分拨给究诘和测验。
在曩昔24小时内(02月27日中午12:00至02月28日中午12:00),V3和R1推理劳动的共计峰值节点占用达到278个,平均占用226.75个节点(每个节点包含8个H800 GPU)。
假定租借一个H800 GPU的资本为每小时2好意思元,逐日总资本为87,072好意思元。
在24小时统计期内,V3和R1:
总输入token:6080亿,其中3420亿token(56.3%)掷中磁盘上的KV缓存。
总输出token:1680亿。平均输出速率为每秒20-22个token,每个输出token的平均KV缓存长度为4,989个token。
每个H800节点在预填充阶段提供平均约7.37万token/秒的输入糊涂量(包括缓存掷中),或在解码阶段提供约1.48万token/秒的输出糊涂量。
上述统计数据包括来自网页、APP和API的所灵验户央求。
淌若悉数token齐按照下列DeepSeek-R1的订价计费,逐日总收入将达到562,027好意思元,利润率为545%。
R1订价:输入token(缓存掷中)每百万0.14好意思元,输入token(缓存未掷中)每百万0.55好意思元,输出token每百万2.19好意思元。
关联词,实质收入大幅低于此数字,原因如下:
DeepSeek-V3的订价权贵低于R1
独一部分服求达成了营业化(网页和APP窥探仍然免费)
在非岑岭时段自动应用夜间扣头
参考辛苦:
https://x.com/deepseek_ai/status/1895688300574462431