NVIDIA H100 GPU 的供需概况

本篇文章旨在探讨 GPU(尤其是 NVIDIA H100)的市场供需概况。

本文一经发出便引起了巨大的反响。它登上了 HN、Techmeme 以及多家电子邮件通讯的头版,受到了包括 Andrej Karpathy 在内的一些知名人士的推特评论,来自 Inflection 的 Mustafa(他即将上线 10 亿美元的 GPU)和 Stability 的 Emad 也对其进行了评论。本文提到的歌曲也在《纽约时报》中受到了提及,一些资产管理公司和 AI 公司的创始人还与该歌曲的作者取得了联系。如果您尚未阅读本文,希望您会喜欢!




简介

截至 2023 年 8 月,AI 的发展可能会受到 GPU 供应的瓶颈制约。

“AI 热潮被低估的原因之一是 GPU/TPU 的短缺。这种短缺正在对产品发布和模型训练造成各种限制,但这些限制并不容易察觉。相反,我们看到的只是 NVIDIA 价格的飙升。一旦供应能够跟上,AI 将会加速发展。”

—— Adam D’Angelo,Quora & Poe.com CEO,前 Facebook CTO


真的存在瓶颈吗?
Elon Musk 认为:“某种程度上,获得 GPU 比获得毒品要困难得多。”
Sam Altman 表示 OpenAI 受限于 GPU,这延迟了他们的短期计划(微调、专用容量、32k 上下文窗口和多模态)。
小型和大型云服务商的大规模 H100 GPU 集群容量正在枯竭。

目前每个人都希望 NVIDIA 能够生产更多的 A/H100 产品。

—— 某云服务商高管

“我们的 GPU 资源非常短缺,所以越少人使用我们的产品越好。”

“我们希望用户减少我们的产品使用频率,因为我们没有足够的 GPU 资源。”

—— Sam Altman,OpenAI CEO 

这是一个不错的隐喻,凸显全球用户对 OpenAI 产品的喜爱,但 OpenAI 也确实需要更多的 GPU。

对于 Azure/Microsoft 而言:

  1. 在 Azure/Microsoft 内部,他们正在对员工使用 GPU 进行速率限制。员工必须排队等待,就像在上世纪 70 年代大学用大型机一样。我认为 OpenAI 目前正在占用所有的 GPU 资源。

  2. Coreweave 的交易,似乎是将他们的 GPU 基础设施整合到其他地方的一部分内容。

—— 某匿名人士

简而言之,H100 GPU 的供应出现了短缺。据我所知,对于寻求购买数百块或数千块 H100 的公司来说,Azure 和 GCP 的容量实际上已经用完,并且 AWS 也接近用完。
这种“容量不足”情况基于 NVIDIA 为它们提供的分配情况。
关于瓶颈,我们想知道什么?
  1. 造成瓶颈的原因是什么(需求有多大?供应有多少?)
  2. 瓶颈问题会持续多长时间。
  3. 如何解决这一问题?



GPU 之歌

我们在发布本文的同一天还发布了一首歌,这首歌还火了。
如果你还没有听过《GPU Song》,你可以去听一下。

我刚刚看了那个视频,它非常有趣,作者做的很好。

—— Mustafa Suleyman,Inflection AI CEO 

这首歌可以在 Spotify、Apple Music 和 Youtube 上找到。



对于 H100 GPU 的需求

造成瓶颈的原因 —— 需求
  1. 具体而言,什么是人们想买但买不到?
  2. 他们需要多少个这样的 GPU?
  3. 为什么他们不能使用其他型号的 GPU?
  4. 其他产品的名称是什么?
  5. 公司是从哪里购买?什么价格?

谁需要 H100?

“目前似乎有非常多的人都在购买 GPU”。

—— Elon

谁需要或拥有上千块 H100 或 A100 型号的 GPU?
  • 训练 LLM 的初创企业
  • OpenAI(通过 Azure)、Anthropic、Inflection(通过 Azure8 和 CoreWeave9)、Mistral AI
  • CPS(云服务商)
  • 三巨头:Azure、GCP 和 AWS
  • 其他公有云服务商:Oracle
  • CoreWeave 和 Lambda 等大型私有云服务商
  • 其他大型公司
  • 特斯拉
谁需要或拥有上千块 H100 或 A100 型号的 GPU?
正在对开源打模型进行重大微调的初创公司。

高端 GPU 的主要用途是什么?

对于那些使用私有云(例如 CoreWeave、Lambda)的公司和拥有数百甚至数千块 H100 GPU 的企业,几乎所有的用途都与 LLM 和一些扩散模型有关。此外,还有一些公司专注于对现有模型进行微调,其中大部分可能是新创公司,它们正在从零开始构建全新的模型。这些公司正在签署总价值在 1,000 万美元到 5,000 万美元之间的合同,这些合同的执行周期为 3 年,涉及数百到数千块 GPU。
对于那些使用少量 GPU 并按需使用 H100 的公司而言,仍然可能有超过 50% 的 GPU 使用与 LLM 相关。
受其他公司的需求影响,私有云服务商的需求开始增加,这些公司原本通常会选择默认的大型云服务商,但因为这些大型云服务商都无法提供所需资源,所以它们都被淘汰了。
大型 AI 实验室在推理或训练方面,哪个更受限制?

答案取决于这些实验室的产品能有多大吸引力?Sam Altman 表示,如果必须做出选择,OpenAI 更倾向于获得更多的推理能力,但目前 OpenAI 在推理和训练两个方面都面临限制。


人们需要哪  GPU?
大部分是 H100。这是为什么呢?因为无论是推理还是 LMM 的训练,它都是最快的(对于推理而言,H100 通常也是性价比最高的)。

具体而言:8-GPU HGX H100 SXM 服务器。

据我的分析,以相同的工作负荷运行更便宜。如果你能够找到二手的 V100 图形处理器,那么它是一个非常划算的选择,但实际上你找不到。

—— 匿名人士

老实说,我对于它是否具有最佳性价比并不确定。在训练方面,A100 和 H100 的性价比看起来差不多。但在推理方面,我们发现 A10G 的性能已经足够,并且价格要便宜得多。

—— 某私有云高管

过去有一段时间,A10G 性能已经足够。但在当前使用大量 Falcon 40b 和 Llama2 70b 的情况下,不再成立,现在我们需要 A100 型号的 GPU。

确切地说,我们需要两个 A100 型号的 GPU。因此,在推断任务中,互连速度非常重要。

—— 另一家私有云高管

LLM 初创公司最常见的需求是什么?

在进行 LLM 的训练时,通常会选择带有 3.2 Tb/s InfiniBand 的 H100。
公司在 LLM 的训练和推理方面想要什么?

对于 LLM 的训练,公司倾向选择 H100,而在推理方面,则更关注性能与成本之间的平衡。
在选择 H100 还是 A100 方面,性能与成本之间的权衡是一个重要考虑因素。一般而言,H100 会更受青睐,因为它们可以更好地扩展到更多的 GPU,并且可以提供更快的训练时间。对于初创公司来说,速度以及缩短上线时间、训练或改进模型的时间非常关键。

对于多节点训练,所有的请求都要求使用 A100 或 H100 GPU,并且需要使用 InfiniBand 网络连接。唯一的例外是在进行推理时,工作负载只需要单个 GPU 或单个节点。 

—— 某私有云高管

在训练 LLM 时,哪些因素很重要?
  • 内存带宽;
  • FLOPS (tensor cores 或等效的矩阵乘法单元)
  • 高速缓存和高速缓存延迟
  • 诸如 FP8 计算能力等额外功能
  • 计算性能(与 CUDA 核心数量相关)
  • 互连速度(如 InfiniBand)
H100 比 A100 更受青睐的部分原因是更低的缓存延迟和 FP8 计算能力。

H100 GPU 更受青睐,因为它的效率高出 3 倍多,但成本仅增加 1.5-2 倍。结合整个系统的成本来看,H100 GPU / 美元性能表现更出色(可能是 4-5 倍)。

—— 某深度学习研究员

训练和运行 LLM 的其他成本有哪些?
GPU 是训练和运行 LMM 中最昂贵的单个组件,但还有其他成本。
系统内存和 NVMe 固态硬盘价格昂贵。
InfiniBand 网络成本很高。
在运行一个集群的总成本中,可能有 10-15% 会用于电力和托管费用(包括电费、数据中心建筑成本、土地成本和员工成本)—— 这两者之间大致平均分配,电力成本可能占总成本的 5-8%,而其他托管费用(土地、建筑和员工)可能占总成本的 5-10%。

由于网络限制和不可靠的硬件,AWS 难以使用。主要问题在于网络和可靠的数据中心。 

—— 某深度学习研究者

GPUDirect 怎样?
GPUDirect 不是一个关键要求,但可能会有所帮助。

我不会说这是非常关键的,但它确实会影响性能。我猜这取决于瓶颈所在。对于某些架构或软件实现,瓶颈不一定在网络,但如果在网络上,GPUDirect 可以提升 10-20% 的性能,对于昂贵的训练任务来说,这是相当显著的提升。

话虽如此,现在 GPUDirect RDMA 已经非常普遍,几乎可以默认支持。我认为对于非 InfiniBand 网络的支持可能不那么强大,但大多数为神经网络训练优化的 GPU 集群都配备了 InfiniBand 网络和网卡。对性能来说更大的因素可能是 NVLink,因为它比 InfiniBand 更罕见,但只有在采用特定的并行化策略时才显得至关重要。

因此,像强大的网络和 GPUDirect 这样的功能可以让您更轻松,可以保证软件在初始状态下性能更好。但如果更关心成本或正在使用的基础设施,这并不是严格的要求。 

—— 某深度学习研究员

是什么阻止了 LLM 公司使用 AMD 的 GPU?
从理论上讲,一家公司可以购买一批 AMD 的 GPU,但使它们在公司的系统中正常运行需要时间。即使只是 2 个月的开发时间,这也可能导致公司推出的产品比竞争对手晚。因此,当前来看,NVIDIA 的 CUDA 技术被认为是它在市场上的竞争壁垒。 
—— 某私有云高管

我怀疑 2 个月的时间差可能被高估了,很可能并不具有实际意义。 

—— 某 ML 工程师

谁会愿意承担部署 10,000 个 AMD GPU 或 10,000 个未经充分验证的初创公司硅芯片的风险呢?这毕竟是一项价值近 3 亿美元的投资。 

——某私有云高管

MosaicML/MI250 – 是否有人向 AMD 询问过可用性?似乎 AMD 没有生产多余 Frontier 项目所需的数量,而现在 TSMC 的 CoWoS 生产能力已被 NVIDIA 占用。MI250 可能是一个可行的替代方案,但目前不可用。 

—— 某已退休的半导体行业专业人士

H100 Vs A100:H100 相较于 A100 快多少?
相较于 A100,在进行 16 位推理时,H100 大约快 3.5 倍,在进行 16 位训练时,H100 大约快 2.3 倍。

是否每个人都会希望从 A100 GPU 升级到 H100 GPU?
大多数人都倾向于购买 H100 来满足训练和推理需求,而将 A100 主要用于推理。但是,一些人可能会因为成本、容量、使用和新硬件的风险,以及为 A100 GPU 进行了优化的现有软件而犹豫是否进行切换。

A100 GPU 将在未来几年内成为如今的 V100 GPU。目前,由于性能限制,我不知道有谁在 V100 上进行 LLM 的训练工作,但它们仍然用于推断和其他工作负载。类似地,随着更多的 AI 公司将工作负载转移到 H100 GPU 上,A100 GPU 的价格将会下降,但仍然会有需求,特别是用于推理等。 

—— 某私有云高管

我认为也有可能将来有一些筹集了大笔资金的初创公司最终破产,然后会有大量的 A100 GPU 重新流入市场。 

—— 另一家私有云高管

随着时间的推移,人们会进行硬件升级,A100 GPU 将更多地用于推理。
V100 GPU 怎么样?对于大模型来说,更高的 VRAM 显卡适合更大的模型,因此领先的团队更倾向于选择 H100 或 A100。

不使用 V100 GPU 的主要原因是缺乏 brainfloat16(bfloat16,BF16)数据类型。如果没有这个数据类型,训练模型会变得非常困难。OPT 和 BLOOM 性能差的主要原因可以归因于没有这个数据类型(OPT 是在 float16 中进行训练的,BLOOM 的原型大部分是在 fp16 中完成的,这种数据类型没有达到与在 bf16 中进行的训练相一致的数据通用性)

——  某深度学习研究员
H100、GH200、DGX GH200、HGX H100 和 DGX H100 之间有什么区别?
  • H100 = 1x H100 GPU
  • HGX H100 是 NVIDIA 的推理服务器平台,OEMs 会通过它来构建 4-GPU 或 8 GPU 服务器。这些服务器由第三方 OEM 制造(如 Supermicro)。
  • DGX H100 是 NVIDIA 官方的 H100 服务器,搭载了 8 块 H100 GPU。 NVIDIA 是唯一的供应商。
  • GH200 的配置包括 1 块 H100 GPU 和 1 块 Grace CPU。
  • DGX GH200 的配置包括 256 块 GH200,预计将于 2023 年底推出。 只有 NVIDIA 提供。
哪一种最受欢迎? 
大多数公司会购买 8-GPU HGX H100,而不是 DGX H100 或 4GPU HGX H100 服务器。

这些 GPU 的成本是多少?
1 台 DGX H100(SXM)服务器配置了 8 块 H100 GPU,价格为 46 万美元,其中包括必要的技术支持费用。在这 46 万美元中,有 10 万美元是必须支付的技术支持费用。具体规格如下:初创公司可以获得大约 5 万美元的 Inception 折扣,最多可用于 8 台 DGX H100 服务器,总共可以获得 64 个 H100 GPU。
1 台 HGX H100(SXM)服务器配置了 8 块 H100 GPU,价格在 30 万至 38 万美元之间,具体取决于使用规格(网络、存储、内存和 CPU),以及销售商的利润和支持水平。如果规格与 DGX H100 完全相同,可能需要支付更高的价格,即 36 万至 38 万美元(包括支持费用)。
1 台 HGX H100(PCIe)服务器配置了 8 块 H100 GPU,价格大约为 30 万美元,包括支持费用,具体取决于规格。
PCIe 显卡的市场价格大约在 3 万至 3.2 万美元。
SXM 显卡通常不作为单独的显卡销售,因此很难给出价格。一般只作为 4-GPU 和 8-GPU 服务器的一部分进行销售。
需求中大约 70-80% 是对 SXM H100 GPU 的需求,其余的需求是针对 PCIe H100 GPU。而且 SXM 型号的需求比例正在上升,因为在最初的几个月里,只有 PCIe 型号可供选择。鉴于大多数公司购买的是 8-GPU 的 HGX H100(SXM)服务器,每 8 块 H100 GPU 的大致花费为 36 万美元到 38 万美元,其中包括其他服务器组件的费用。
DGX GH200(请注意,它包含 256 块 GH200,每块 GH200 包含 1 块 H100 GPU 和 1 块 Grace GPU)的价格可能在 1,500 万至 2,500 万美元之间 —— 不过这只是一个猜测,并非来自定价表。

需要多少 GPU?
  • GPT-4 可能是在大约 10,000 – 25,000 个 A100 GPU 的基础上训练出来的。
  • Meta 大约有 21,000 个 A 100 GPU,Tesla 大约有 7,000 个 A100 GPU,而 Stability AI 大约有 5,000 个 A100 GPU。
  • Falcon-40B 模型是在 384 个 A100 GPU 上训练出来的。
  • Inflection 通过 3,500 块 H100 GPU 来训练他们的 GPT-3.5 等效模型。
截止到 12 月份,我们将拥有 2.2 万台正在运行的设备,而今天我们已经拥有的运行中的设备数量已远超 3,500 台。 
—— Mustafa Suleyman,Inflection AI CEO
根据 Elon 的说法,GPT-5 可能需要 30,000 到 50,000 个H100 GPU。Morgan Stanley在 2023 年 2 月表示,GPT-5 将使用 25,000 个 GPU,并且还说 GPT-5 已经在 2023 年 2 月已经开始训练,但 Sam Altman 在 2023 年 5 月则表示 GPT-5 尚未开始训练,因此 Morgan Stanley 的信息可能不准确。
GCP 拥有大约 2.5 万块 H100 GPU。Azure 可能拥有 1-4 万块 H100 GPU。Oracle 的情况可能类似。Azure 的大部分的容量都提供给了 OpenAI。
CoreWeave 拥有大约 35,000 至 40,000 块 H100 GPU,但尚未投入使用,这一数量是通过预订数量而估算出来的。
大多数初创企业会订购多少块 H100 GPU?
对于 LLM:用于微调,可能需要几十或上百块 H100 GPU;用于训练,则可能需要数千块 H100 GPU。
这些公司可能想要多少块 H100 GPU?
OpenAI 可能需要 5 万、Inflection 想要 2.2 Meta 可能想要 2.5 万(有消息称 Meta 需求可能更高,达 10 万以上)。大型云服务商(例如 Azure、Google Cloud、AWS 和 Oracle)可能各需要 3 万块 H100 GPU。Lambda、CoreWeave 和其他私有云服务商可能总共需要 10 万块 H100 GPU。Anthropic、Helsing、Mistral 和 Character 可能各需 1 万块。这些数字都是估算和猜测,有些是重复计算了云服务商和租用云服务的最终客户。以上数字总计大约 43.2 万块 H100 GPU。每块 GPU 按 3.5 万美元计算,总价格则为 150 亿美元。这还不包括像字节跳动(TikTok)、百度和腾讯等需要大量 H800 型号 GPU 的中国公司。
也有一些金融公司部署数百块 A100 或 H100 ,然后扩展到数千块 A/H100,例如:Jane Street、JP Morgan、Two Sigma 和 Citadel。
这与 NVIDIA 的数据中心收入相比如何?
2023 年 2 月至 4 月的数据中心收入为 42.8 亿美元。2023 年 5 月至 7 月的数据中心收入可能在 80 亿美元左右,这一猜测主要基于该季度数据中心收入的增长,而不是其他领域的增长。
因此,供应短缺的情况可能需要一段时间才能好转。不过,所有z这些估计可能都被严重夸大了,并且其中的许多公司今天不会立马购买 H100 GPU,他们会随时间的推移而进行升级。此外,NVIDIA 也在积极提升产能。
这似乎是有可能实现的。拥有 40 万个 H100 GPU 似乎不是不可能的,特别是考虑到目前每个人都在进行大规模的 H100 部署,其中有些规模已经达到了 4 到 5 位数级别。 
—— 某私有云高管

总结:H100 需求
在进入下一部分前,有几点需要注意:大多数大型云服务商(Azure、AWS、GCP 和 Oracle)和私有云服务商(CoreWeave 和 Lambda 等)都希望获得更多的 NVIDIA H100 GPU。大多数大型 AI 产品公司也希望获得更多的 H100 GPU,但数量超出了他们的能力范围。一般而言,他们需要带有 SXM 显卡的 8-GPU HGX H100 服务器,每台 8-GPU 服务器大约需要 30-400 万美元,具体取决于规格和支持情况。这之中可能存在需求超过几十万块 H100 GPU 的情况(价值超过 150 亿美元的 GPU)。在供应有限的情况下,NVIDIA 完全可以通过提高价格来清算,并且某种程度上也正在这么做。但重要的是要知道,H100 的分配取决于 NVIDIA 的意愿。



H100 GPU 的供应

造成瓶颈的原因 —— 供应
  1. 生产方面存在哪些瓶颈?
  2. 哪些组件? 
  3. 谁在生产它们?

谁在生产 H100?
台积电。
NVIDIA 是否可以利用其他芯片厂来生产 H100 GPU?
不能,至少目前还不能。NVIDIA 过去曾与三星合作。但在 H100 和其他 5 纳米制程的 GPU 上,他们只能使用台积电的制造服务。这意味着三星目前还不能满足 NVIDIA 对先进 GPU 的需求。未来,他们可能会与 Intel 合作,并再次与三星合作开发先进的 GPU,但这两种情况在短期内都不会有助于缓解 H100 的供应短缺。
不同的台积电节点如何关联?
台积电 5 纳米系列:
  • N5
  • 4N 在这可以被看作是 N5 的增强版,但在性能和特性上不如 N5P。
  • N5P
  • 4N 在这可以被看作是 N5P 的增强版,但在性能和特性上不如 N5。
  • N4
  • N4P
H100 是在哪个台积电节点上制造的?
台积电 4N。这是一种转为 NVIDIA 设计的特殊制程节点,属于 5nm 系列,具有增强型 5nm 的工艺,尽管它并非真正的 4nm 工艺。
还有谁在使用该节点?
是苹果公司,但他们已将主要精力转向了 N3 制程,并预留了大部分 N3 制程的产能。高通和 AMD 是另外两家主要采用 N5 家族制程的大客户。
A100 使用哪个台积电制程节点?
N7。
芯片制造工厂 产能通常需要提前多长时间来预订?

不清楚,可能要 12 个月以上。

积电及其大客户通常共同规划生产需求。这也是为什么台积电和 NVIDIA 可能低估了他们的需求。
—— 某匿名 人士
生产(生产、包装、测试)需要多长时间?
H100 从开始生产到出售给客户通常需要 6 个月的时间(根据交谈得知,希望得到确认)。
瓶颈在哪里?

在台积电,晶圆生产不是瓶颈。前面提到的 CoWoS(3D 堆叠)封装技术是台积电的瓶颈。
—— 退休半导体行业专业人士

H100 内存
是什么影响了 GPU 的内存带宽?
内存类型、内存总线宽度和内存时钟速度。
主要问题在于 HBM(高带宽内存)。制造 HBM 非常困难,因此供应也受到限制。一旦获得了 HBM,设计就可以直观地跟随而来。 
—— 某深度学习研究员
H100 使用 的是 什么 类型的 内存?
H100 SXM 采用的是 HBM3 内存。而 H100 PCIe 实际上使用的是 HBM2e 内存。

H100 上的内存是由哪家公司制造的?
总线宽度和时钟速度是由 NVIDIA 设计的,是 GPU 架构的一部分。
对于 HBM3 内存本身,我认为 NVIDIA 使用了全部或绝大多数来自 SK Hynix 的内存。不确定 NVIDIA 是否在 H100 上使用了来自三星的内存,但应该没有使用美光(Micron)的内存。
就 HBM3 内存而言,SK Hynix 制造的的最多,其次是三星,而美光则远远落后。SK Hynix 似乎已经提高了产量,但 NVIDIA 还在希望他们增加产量,而三星和美光尚未成功提高产量。


在制造 GPU 时还使用了哪些其他材料或组件?

需要注意的是,某些部分受到的瓶颈要明显大于其他部分。
  • 金属元素: 这些元素对 GPU 的生产至关重要。它们包括:
  • 铜:由于具有高导电性而用于电气连接的制造。
  • 钽:由于能保持较高的电荷量,常用于电容器中。
  • 金:由于其耐腐蚀性,可用于高品质电镀和连接器。
  • 铝:常用于散热器,帮助散热。
  • 镍:常用于连接器的涂层,具有耐腐蚀性。
  • 锡:用于焊接组件。
  • 铟:用于热界面材料,具有良好的导热性。
  • 钯:用于某些类型的电容器和半导体器件。
  • 硅(类金属): 制造半导体器件的主要材料。
  • 稀土元素: 这些元素因其独特的性质而被用于 GPU 的各个部分。
  • 其他金属和化学品: 这些材料用于生产的各个阶段,从制造硅晶片到 GPU 最终组装。
  • 基板: 这是安装 GPU 组件的材料。
  • 封装材料: 用于容纳和保护 GPU 芯片。
  • 焊球和焊线: 用于连接 GPU 芯片与基板和其他元件。
  • 被动元件: 包括电容器和电阻器,它们对 GPU 的运行至关重要。
  • 印刷电路板(PCB): 这是安装 GPU 所有元件的电路板,它提供了元件之间的电连接。
  • 热化合物: 用于改善芯片与散热器之间的热传导。
  • 半导体制造设备: 包括光刻机、蚀刻设备、离子注入设备等。
  • 无尘室设施: 这是 GPU 生产过程中的必需设施,以防止硅晶片和其他组件的污染。
  • 测试和质量控制设备: 用于确保 GPU 符合所需的性能和可靠性标准。
  • 软件和固件: 这些对于控制 GPU 的运行以及与计算机系统的其他部分连接至关重要。
  • 包装和运输材料: 这些是将最终产品完好无损地交付给客户所必需的。
  • 软件工具: 用于 CAD 和仿真的软件工具在设计 GPU 的结构和测试功能方面至关重要。
  • 能源消耗: 在 GPU 芯片的制造过程中,由于需要使用高精度的机械设备,因此需要大量电力。
  • 废物管理: GPU 在生产过程会产生废弃物,必须妥善管理和处理,因为所使用的许多材料可能对环境有害。
  • 测试能力: 用于验证功能和性能的定制 / 特殊测试设备。
  • 芯片封装: 将硅晶片组装成可用于更大系统的元件封装。



展望与预测

NVIDIA  披露了什么
NVIDIA 透露,他们将在下半年增加供应量,但除此之外,他们没有披露更多信息,也没有提供具体的数量信息。

我们正在努力满足本季度的供应需求,同时我们也已经采购了大量供应来满足下半年的需求。
我们相信下半年我们的供应量将远远大于上半年。
—— NVIDIA CFO Colette Kress,2023 年 2-4 月财报电话会议

接下来会发生什么?
我认为目前有可能存在一种自我强化的循环,其中稀缺性导致 GPU 容量被视为竞争壁垒,这又促使更多人囤积 GPU,从而加剧了供应的稀缺性。 
—— 某私有云高管
H100   的继任者将会在何时问世?
根据 NVIDIA 历史上发布不同架构之间的时间间隔,新一代 H100 的继任者可能要等到 2024 年末(2024 年中期到 2025 年初)才会宣布。
在那之前,H100 将继续是 NVIDIA 最顶尖的 GPU。(GH200 和 DGX GH200 不算在内,它们不是纯粹的 GPU,都使用 H100 作为它们的 GPU。
是否会推出更高显存的   H100?
也许会有液冷的 120GB H100。
供应短缺将在何时结束?
与我交谈过的一个小组提到,实际上 2023 年底之前的 H100 早已售罄 。




采购 H100

谁在销售 H100?
戴尔、惠普(HPE)、联想、超微和广达等 OEM 都在销售 H100 和 HGX H100。

当需要 InfiniBand 时,需要直接与 NVIDIA 旗下的 Mellanox 联系。

因此,像 CoreWeave 和 Lambda 这的 GPU 云服务商会从 OEM 购买,然后租给初创企业。
超大规模云服务商(如 Azure、GCP、AWS 和 Oracle)更直接与 NVIDIA 合作,但他们通常也与 OEM 合作。

即使是 DGX,也要通过 OEM 购买。顾客可以与 NVIDIA 交流,但仍要通过 OEM 购买,不能直接向 NVIDIA 发出采购订单。

交付周期如何?

8-GPU HGX 服务器的交付时间非常糟糕,而 4-GPU HGX 服务器的交付时间很好。所有人都想要 8-GPU 服务器!

如果一家初创公司今天下订单,他们 何时能够获得 SSH 访问权限?

这将是一个分阶段的部署。比如,如果这是一个 5,000 块 GPU 的订单,他们可能会在  4-5 个月内获得对 2,000 或 4,000 块 GPU 的访问权限,然后再在 6 个月左右获得剩余的 GPU 访问权限。
初创企业会从 OEM 和经销商处购买吗?
实际上并不会。初创企业通常会向 Oracle 这样的大型云服务商租用访问权,或向 Lambda 和 CoreWeave 等私有云服务商租用访问权,还会向 FluidStack 等与 OEM 和数据中心合作的供应商租用访问权。
初创公司 会在何时建立自己的数据中心而不是进行托管?
对于建立数据中心,需要考虑的因素包括建造数据中心的时间、是否拥有硬件方面的人员和经验,以及大量资本的支出。
租用和共用服务器要容易得多。如果你想建立自己的数据中心,你必须实际铺设一根黑色光纤线到你的位置,连接到互联网,每公里大约需要 1 万美元的费用。大部分这种基础设施在互联网泡沫时期已经建立并支付了。现在你可以轻松地租用它,而且成本相对较低。 
—— 某私有云高管
从租用到拥有的范围是:按需云(纯粹使用云服务进行租赁)、预留云、机房托管(购买服务器,与服务商合作托管和管理服务器)、自托管(购买并自行托管服务器)。
大多数需要大量 H100 的初创企业都会选择预订云服务或主机托管。

大型云服务商之间有何不同?
有一种观点认为,Oracle 的基础设施不如三大主流云服务商可靠。作为交换,Oracle 提供了更多的技术支持和时间。
绝对正确,导致了许多不满意的客户 
—— 某私有云高管
我认为 Oracle 在网络方面做得更好。 
—— 另一家私有云高管
一般而言,初创公司会选择提供最佳支持、价格和容量方面综合实力最强的云服务商。

大型云服务商之间的差异主要包括:
  • 网络(AWS 和 Google Cloud 在采用 InfiniBand 方面较慢,因为它们有自己的方法,尽管大多数寻找大规模 A100/H100 集群的初创公司都在寻求 InfiniBand)。
  • 可用性(Azure 的 H100 主要供应给 OpenAI。GCP 在获取 H100 方面有一定困难。)
NVIDIA 似乎倾向于更好地分配资源给那些没有在研发竞争性机器学习芯片的云服务商。(这只是猜测,没有确凿的证据。)三大主流云服务商都在研发机器学习芯片,但 AWS 和 Google 已经推出了与 NVIDIA 竞争的替代产品,抢走了原本可能流向 NVIDIA 的资金。
也是猜测,但我同意 NVIDIA 出于这个原因喜欢 Oracle。 
—— 某私有云高管
一些大型云服务商的定价比其他云服务商更有竞争力。正如一位私有云服务商高管指出的那样,“例如,AWS/AZURE 上的 A100 比 GCP 要贵得多”。
Oracle 告诉我,他们将在今年晚些时候推出上万台H100型号的服务器。他们自豪地宣称与 NVIDIA 有着特殊的合作关系。
但是,当涉及到价格时,他们的报价远高于其他任何供应商。他们没有提供 H100 的定价信息,但对于 A100 80GB 型号,他们的报价接近每小时 4 美元,几乎是与 Google Cloud Platform (GCP) 提供的相同硬件和相同承诺的报价的两倍多。 
—— 某匿名人士
规模较小的云服务商在定价方面更有竞争力,除非在某些情况下,其中一个大型云服务商以股权交换的方式达成奇怪的交易。
就 NVIDIA 的关系而言,可能是:Oracle 和 Azure > GCP 和 AWS。但这只是猜测。
Oracle 是第一个推出 A100 的公司,他们与 NVIDIA 合作托管了一个基于 NVIDIA 的集群。NVIDIA 也是 Azure 的客户。
哪家大型云服务商拥有最好的网络性能?
Azure、CoreWeave 和 Lambda 都在使用 InfiniBand。Oracle 的网络性能很好,达到 3,200 Gbps,但它使用的是以太网而不是 InfiniBand。对于高参计数 LLM 培训等应用,这可能比 IB 慢 15-20% 左右。AWS 和 GCP 的网络没有那么好。
企业会选择哪些大型云服务商?

在一个包含 15 家企业的私有数据点中,所有 15 家企业均采用了 AWS、GCP 或 Azure,而没有一家选择使用 Oracle。

大多数企业将坚持使用现有的云服务商,而初创企业没有很多选择,只能寻求任何可用的供应商。

关于   DGX Cloud,NVIDIA   正在与谁合作?

“NVIDIA 正在与领先的云服务商合作,以 Oracle Cloud Infrastructure(OCI)为起点,并托管 DGX Cloud 基础设施。—— 负责 NVIDIA 的销售,但通过租用现有的云服务商来满足客户需求(首选是与 Oracle 的合作,然后是 Azure 和 Google Cloud,而不是 AWS)。”

Jensen 在上一次财报电话会议上表示:“理想情况下,我们希望 NVIDIA DGX Cloud 占总体比例的10%,而 CSP 云占 90%。

大型云计算公司何时推出 H100 预览版?

CoreWeave 是第一家发布的。NVIDIA 提供了他们较早的分配,可能是为了加强大型云计算之间的竞争(因为 NVIDIA 是投资者)。

Azure 于 3 月 13 日宣布可以预览 H100。

Oracle 于 3 月 21 日宣布 H100 有限量供应。

Lambda Labs 于 3 月 21 日宣布将于 4 月初添加 H100。

AWS 在 3 月 21 日宣布将在几周内开始预览 H100。
Google Cloud 于 5 月 10 日宣布私人预览开始使用 H100。
不同的 公司 分别在 使用哪些云 服务
  • OpenAI: Azure。

  • Inflection: Azure 和 CoreWeave。

  • Anthropic: AWS 和 Google Cloud。

  • Cohere: AWS 和 Google Cloud。

  • Hugging Face: AWS。

  • Stability AI: CoreWeave 和 AWS。

  • Character.ai: Google Cloud。

  • X.ai: Oracle。

  • NVIDIA: Azure。


公司或云服务商如何获得更多  GPU?
最终的瓶颈在于从 NVIDIA 获取分配。
NVIDIA 的分配是如何运作的?
他们会为每个客户分配资源。但举例来说,Azure 说 “嘿,我们希望 Inflection 使用 10,000 块 H100 “,对 Azure 说 “嘿,我们希望 Azure 的云使用 10,000 块 H100 “是不同的 —— NVIDIA 关心的是最终客户是谁。因此,如果 NVIDIA 对某一特定最终客户感兴趣,那么该云服务商可能会获得额外的分配。同时,NVIDIA 也尽可能的希望了解最终客户是谁。他们更倾向于与知名品牌合作或具有强大背景的初创公司合作。

是的,似乎是这样。NVIDIA 喜欢向新兴的 AI 公司确保 GPU 的供应(其中许多公司与他们有密切的关系)。例如,他们投资的 AI 公司 Inflection 正在 CoreWeave 上测试一个庞大的 H100 服务器群,他们也投资了 CoreWeave。 
—— 某私有云高管
如果一个云服务商给 NVIDIA 带来了一个潜在的终端客户,并表示他们准备购买 xxxx H100,如果 NVIDIA 对该终端客户感到兴奋,他们通常会给予分配,如果 NVIDIA 对这一潜在终端客户感兴趣,它们通常会提供额外的分配量;这有效地增加了该云平台所能获得总容量 —— 并且不会抵消原分配给该云服务商的数量。
这种情况较为特殊:CoreWeave 拥有比 GCP 更多数量的 H100 产品,并且它正在从 NVIDIA 处获取大量分配资源。
NVIDIA 不愿意将大量资源分配给试图与他们直接竞争的公司(AWS Inferentia 和 Tranium、Google TPU、Azure Project Athena)。
但归根结底,如果客户向 NVIDIA 提交订单和资金,承诺更大的交易和更多的前期资金,并表明风险较低,那么该客户将获得比别人更多的分配。



结束语

目前,我们受到 GPU 的限制。即使我们正处于 Sam Altman 所说的“这些巨型模型时代的末期”。
这里既有泡沫,也有非泡沫,这取决于你看的角度。部分公司,如 OpenAI,拥 有像 ChatGPT 这样的产品,具有极强的 PMF,但却无法获得足够的 GPU。而其他公司也在购买或预留 GPU 容量,以便他们在未来能够使用或者训练 LLM,但这些 LLM 不太可能达到PMF。
NVIDIA 现在是城堡里的绿色国王。

追踪 GPU 的供需之旅
目前 PMF 最强的 LLM 产品是 ChatGPT。以下是关于 ChatGPT 的 GPU 需求故事:
  1. 用户喜欢 ChatGPT,它可能创造了 5 亿多美元的年收入。
  2. ChatGPT 在 GPT-4 和 GPT-3.5 API 上运行。

  3. GPT-4 和 GPT-3.5 API 需要 GPU 才能运行,并且需要大量的 GPU。OpenAI 希望为 ChatGPT 和它们的 API 发布更多的功能,但他们做不到,因为他们没有足够的 GPU。

  4. 他们通过微软 / Azure 购买了大量 NVIDIA GPU。具体来说,他们最想要的 GPU 是 NVIDIA H100 GPU。

  5. 为了制造 H100 SXM GPU,NVIDIA 使用台积电进行制造,并使用台积电的 CoWoS 封装技术,同时主要使用 SK Hynix 的 HBM3。
OpenAI 并不是唯一一家需要 GPU 的公司(但他们是 PMF 最好的公司, 特别需要 GPU)。其他公司也希望训练大型 AI 模型。其中一些是有意义的,但有些公司是受炒作驱动,不太可能达到 PMF。这也推高了市场对 GPU 的需求。此外,一些公司担心将来无法获得 GPU,所以他们现在就下订单,即使他们现在还不需要。这就有点像 “对供应短缺的预期导致了更多的供应短缺”。
对 GPU 需求的另一个主要贡献者是那些希望创建新 LLM 的公司。以下是希望创造新 LLM 的公司对 GPU 需求的情况:
  1. 公司高管或创始人意识到在 AI 领域存在巨大的机遇。也许他们是一家企业,想要利用自己的数据来训练一个 LLM,然后在外部使用它或出售访问权;也许他们是一家初创公司,希望建立一个 LLM 并销售。

  2. 他们知道自己需要 GPU 来训练大型模型。

  3. 他们与来自大型云服务商(Azure、Google Cloud、AWS)的一些人进行了交流,试图获得许多 H100。

  4. 他们发现无法从大型云服务商那里获得足够的资源分配,并且有些服务商的网络配置也不理想。因此,他们开始与其他服务商洽谈,如 CoreWeave、Oracle、Lambda、FluidStack。如果他们想自己购买 GPU,也许他们还会与 OEM 和 NVIDIA 等公司进行讨论。

  5. 最终,他们获得了大量 GPU。

  6. 现在,他们尝试达到 PMF。
  7. 需要注意的是,这条路并不好走 —— 请记住,OpenAI 在较小的模型上实现了 PMF,然后扩大了规模。但是,现在要想达到 PMF,你必须比 OpenAI 的模型在用户使用方面更出色, 因此,为了达到这个目标,你需要一开始就使用比 OpenAI 更多的 GPU。
预计至少到 2023 年底,H100 的短缺将会影响需要部署数百台或数千台设备的情况。到了 2023 年底,情况可能会更加明朗,但目前看来,短缺问题可能会一直持续到 2024 年的某个时候。
*以上文章翻译自《Nvidia H100 GPUs: Supply and Demand》,如需原文,请与我们联系。
WF Research 是以第一性原理为基础的专业顾问服务机构,欢迎关注和留言!
微信号:Alexqjl

One Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注