
“3万张卡”、60亿投入后,DeepSeek发了5000亿红包

特约作者 中存算董事长 陈巍,苏扬
编辑 郑可君
DeepSeek在春节期间的惊艳表现,成为中、美科技竞争的新变量。在技术方面,DeepSeek成功地摸索出了一套在“算力受限”的条件下,提升算力效率、实现大模型性能大幅跃升的路径;对行业而言,DeepSeek自信地用开源的方式赋能各行各业;而对用户来说,其免费商业模式也意外地推动了“AI技术平权”和“AI普惠”。
DeepSeek在全球AI产业掀起的技术、资本风暴,伴随而来的是企业和用户们疯狂涌入带来的“泼天”流量。
朱嘉明教授在腾讯科技的《AGI之路系列直播》里曾提到,人工智能未来的发展将会出现分叉:一种是更前沿、尖端、高成本的路线,旨在研究人类未知的领域;一种是走向低成本、大规模的大众化路线,DeepSeek就是这种大众路线的最佳践行者——他们不仅选择了大众路线,也想把更多的人带上这条路。
相比出圈爆火,DeepSeek做了一件更值得被记录在大模型开源史上的事情——通过连续五天的发布,将其一路走来的方法论、“武功秘籍”公之于人,这其中包括:
开源针对Hopper架构GPU(例如H100或H800)加速MLA机制计算的FlashMLA内核
开源加速MoE模型高效通信和并行处理,实现H800带宽翻倍的DeepEP代码库
开源采用CUDA编写,适用于矩阵和MoE模型计算,支持FP8精度的高性能通用矩阵乘法库DeepGEMM
开源V3/R1训练中采用的计算与通信重叠的双向管道/流水线并行算法DualPipe,用以提升资源利用率
开源利用SSD和RDMA网络带宽设计的并行文件系统3FS文件系统,用以提升模型训推效率
现在,我们完全可以将DeepSeek称之为 “OpenSeek” 。
DeepSeek“开源五日”这套动作,给外界的观感是将CUDA、Hopper架构吃透了,甚至可以说DeepSeek的工程师,可能比英伟达的多数研究员更懂CUDA和Hopper,但相关研究的本质还是因为“算力受限”与成本高企。
那么问题来了,春节之后的这段时间,DeepSeek在用户和市场份额上的走势如何,其算力现状是什么,他们究竟需要什么量级的算力,资本支出在什么量级,会给产业上下游带来什么样的机会?
DeepSeek接入潮的负效应:移动端日活减半
根据SensorTower数据,截至2025年2月24日,DeepSeek移动端近30天的平均日活为950万,2月24日日活接近700万,对比2月初1500万的峰值数据,数据接近砍半。
日活用户大幅度减少,与过去一段时间越来越多的终端厂商、云厂以及企业私有化部署所组成的“接入潮”有关。
此前,由于用户扎堆导致DeepSeek官方服务频繁异常,第三方接入后,大量用户被分流至外部场景当中。
但同时,低频用户的热情逐渐消退,也是DeepSeek月活下降的一个重要原因。所以,在多数对大模型感兴趣的人都已下载的情况下,到2月24日,DeepSeek的日下载量下滑至75万左右。相比之下,1月28日,DeepSeek在移动端创下了531万的峰值纪录。
面对如此的流量下滑之势,DeepSeek的未来是否值得担心?答案是否定的。
如果DeepSeek担心用户分流而反噬自己,就不会选择开源核心模型和硬件效率提升的相关方法论,也更不会在行业里率先发起降价潮,你看最近他们又开始降价了,至少现在看,流量变现不是其最核心的目标。
当然,还要考虑另一重因素,我们所看到的流量下滑只是移动端趋势的反应,一是网页端、API接入的数据没有披露,二是用户使用频次这类更细分的数据还未可知。
2000万日活的入场券:预估需要2.78万张GPU
相对其他同尺寸的稠密模型,DeepSeek R1模型的DeepSeekMoE+MLA(多头注意力)架构具备显著成本优势。
单Token激活参数仅37B(670B全参数的5.5%),KV Cache对显存的需求,降低至传统架构的1/3~1/15,理论上显存只需要14GB,而H800和A800这些特供版的显存都是80GB。
注:KV Cache:将需要重复计算的结果进行缓存,需要缓存的值为历史token对应的KV值,用以避免重复计算。
另外,DeepSeek R1/V3还采用了8位(而不是16位的格式)的FP8数据格式,使得所需的显存进一步减少。
具体到部署方面,除了常见的IDC集群部署外,业界也为DeepSeek提供了开源的经济型部署方案。例如清华KTransformers团队针对参数存储进行优化,使用单卡4090运行压缩版671B DeepSeek。所以,这段时间很多人在谈论大众层面的“AI技术平权”,实际上在行业层面,DeepSeek以及清华KTransformers这样的外部团队的探索,以及陆续的开源动作,也可以归结为一种由算力瓶颈驱动的算法平权。
前面提到,DeepSeek移动端大概950万,如果网页端+API也按照这个数据计算(实际上从办公的角度看,web端流量应该更高),保守一点,我们假设其日活2000万,那么这个量级的流量,需要多少模型,需要多少算力?
我们假设平均每个用户每天10次问答,单次平均消耗10秒钟,即1/8640天,这意味着2000万日活对应的单日推理请求总计2亿次,如果排队的话,总耗时为2亿×1/8640,即1个模型跑23148天,显然这种策略不合理,但可以换一种理解方式,部署23148个模型并行跑1天。
考虑到推理集群、时差等因素需要设置一定量的冗余,在23148个模型的基础上,取1.2作为系数估算(实际系数与服务和客户活动曲线有关),即实际部署的并行模型数约为2.78万。
回到模型本身,DeepSeek R1模型一共有256个专家,根据用户群的需求动态调整细粒度专家的分布,这意味需要同时运行2.78万个DeepSeek R1模型副本,以对应2000万日活,人均10次问答(平均每次10秒)的推理需求。按照DeepSeek论文给出的优化部署方案,每个模型的共享专家与8个细粒度专家常驻一个GPU(更精准的描述是Prefill 1+9,Decode 1+2,不影响推算结果),最终需要2.78万张GPU。
可能会有人问:单一GPU不能同时处理多个查询请求吗,实际场景中必须要这么多模型并行吗?
正常情况下,单张GPU同一时刻只能运行一个模型,类似人脑同一时间只能处理一个对话。对单个GPU来说,多个并行查询其实是时分复用排队或众核并行计算(不能处理太大计算)的方式,原则上一次对话,由集群分配给一个GPU或一组GPU尽快算完,然后处理下一个客户的一次对话,这样才会有大量GPU同时计算同时服务不同客户。
注:数据根据前述假设和常规占用率估算,仅供参考,与实际数量不一定符合
养一个大模型团队——60亿元
2021年,DeepSeek母公司幻方量化在美国对华芯片出口管制生效前,前瞻性地采购了10000张英伟达A100 GPU。
受管制之后,英伟达连续为市场推出了H800、H20等多个特供版本,幻方量化也通过正规渠道采购了部分特供版以及其他型号合规的GPU,但具体数量未公开。
一个消息可以佐证这个推测——2024年,幻方旗下AI公司DeepSeek在训练大模型时使用了2048块英伟达H800 GPU集群,运行55天完成模型训练。
考虑到高强度部署和高强度训练接近占满GPU(这里假设上述2048块H800 GPU为白天训练时专用,夜间会调度更多部署用途GPU给训练),则幻方实际的卡数即2.78万张(A100+H20)+2048张H800,总计29848张,大概在3万张卡左右的规模。
注意,这些只是比较保守的预估,与国外技术媒体SemiAnalysis对DeepSeek GPU数量的预估在同一数量级。
3万张卡的对于一家创企来说,规模已经相当大了。作为对比,硅谷的这些小巨头们,像xAI Grok 3、OpenAI GPT4.5这些单一模型的训练,就用到了10万张、20万张GPU。
就算基于性价比考虑,用于客户服务的GPU估计主要为A100、H20,我们假设两者按比例平均后批量采购价约为10万元,2.78万张大概为27.8亿人民币,另外2048张卡为H800,单卡按30万人民币计算,成本约为6亿人民币。
也就是说,幻方量化在GPU成本上的投入,总计应该不低于33.8亿人民币,再考虑到CPU、基础设施建设等相关费用,预计硬件成本至少约为38亿人民币。
在这种规模的硬件投入以及API价格比OpenAI、kimi国内外的同类型产品便宜的情况下,还能做到545%的利润率,确实非常出彩。不过这个利润率只是单纯的从API服务角度计算而来,未直接包含硬件折旧、人力、工程等诸多成本。
目前DeepSeek团队规模约150人(新希望集团董事长刘永好也在近期采访中确认和梁文锋谈话时被告知公司160人左右),主要从中国顶尖高校(如北大、浙大、清华)招聘,对核心研发人员提供年薪超934万人民币(约130万美元,网传消息),远超国内同行水平。若以人均年薪500万人民币保守估算,仅人力成本年支出已达7.5亿人民币。
另外,综合成本计算还要将数据成本、水电及管理费用计算在内,假设水电和管理费用为1.5亿,则DeepSeek的研发成本显著高于行业早期估算的557.6万美元。
综合计算,硬件、人力成本差不多47亿人民币左右,如果叠加配套软件环境开发、数据获取等隐性支出,其总研发投入应超过60亿。
给国产算力带来5000亿的机会
这两天,一些MaaS服务商在说接入DeepSeek亏钱的事情,忽略这种极端案例,总体来说,它给国产算力带来的是一个巨大的机会。
在DeepSeek发布后,华为昇腾、沐曦等国产芯片厂商迅速完成DeepSeek全模型适配,翻译过来就是,一些国产芯片也能较好地用于DeepSeek的推理服务,客户们在英伟达H20之外,多了一个可选项。
根据业内传出来的数据,DeepSeek爆发之后,H20 GPU8卡服务器的价格由从100万以内,冲到了100万以上,涨价幅度接近20%,消费级的4090 GPU则大量断货。
不过,这场接入潮对国产芯片的考验不是它们能不能适配DeepSeek,而是有没有足够的产能来匹配这波“泼天的富贵”,加入“算力游戏”当中。
除了芯片层面的适配之外,服务器提供商这波跟进的也比较快,华为、新华三推出不同配置的DeepSeek大模型一体机服务器,支持从满血版到蒸馏版不同尺寸模型的推理服务。
到目前为止,已经有几十家的服务器提供商推出了相关的一体机产品,根据配置的差异,价格落在10万-100万这个区间。对于那些掌握私有化数据金矿的企业来说,这类一体机提供了API、模型服务商和云厂之外,更符合其私有化部署和安全策略的选择。
关于其市场规模,浙商证券在研报中如此说道——2025年至2027年,DeepSeek一体机在央国企市场将达到1236、2937、5208亿元。注意下,这还只是央国企市场。
所以,DeepSeek的爆火出圈,除了振奋了国产大模型的信心外,也为大模型的普及、落地进行了一场全球性的科普,同时给更多的上下游厂商带来新的机会,这也是开头我们所说的开源——它的能量、力量的表现。
你看,黄仁勋在2025财年第四季度财报电话会议上就说,“感谢DeepSeek,它开源了一个绝对世界级的推理模型”,对于享受这波红利的国产厂商而言,更是如此。