近期,AI 硬件初创公司 Groq 引起了广泛关注,他们在推理 API 上所展示的领先开源模型 Mistral 8x7b 给人留下了极为深刻的印象。相比其他推理服务,他们的吞吐量多 4 倍,但收费却不到 Mistral 自身的 1/3。

Groq 针对个体序列展现出了惊人的性能优势,这将使诸如“思维链”等技术在实际应用中更易于使用。此外,随着 AI 系统变得更加自主化,LLM 的输出速度对于 agent 来说变得尤为重要。同样,代码生成器(codegen)也需要大大降低 token 输出延迟。实时 Sora 风格的模型可能会成为一种令人难以置信的娱乐方式,但如果延迟过高,这些服务对终端市场的客户来说可能根本不可行。
因此,Groq 的硬件和推理服务被大肆炒作,被视为对 AI 行业具有革命性意义。虽然对于某些市场和应用而言,Groq 无疑是一个变革者,但速度只是“等式”的一部分。供应链的多元化也是对 Groq 有利的另一个因素:他们的芯片完全在美国进行制造和封装,而 Nvidia、Google 和 AMD 等公司的 AI 芯片则需要从韩国采购内存,并依赖台湾先进的芯片封装技术。
这些对于 Groq 来说是积极的因素,但评估硬件是否具有革命性的主要指标是性能与总拥有成本之比。这一点,谷歌最有发言权。
AI 时代已经来临,能够理解 AI 驱动软件的成本结构与传统软件有着显著的偏差至关重要。芯片微架构和系统架构对这些创新型软件的开发和可扩展性起着至关重要的作用。与开发成本相对较高的前几代软件相比,AI 软件的部署对资本支出、运营支出以及随之而来的毛利润产生了更大的影响,因为它们对硬件基础设施有更高的要求。因此,要想部署 AI 软件,必须高度关注优化 AI 基础设施。拥有基础设施优势的企业也将在部署和扩展 AI 应用方面具有竞争优势。
出自:《谷歌 AI 基础设施的优势:系统比微架构更重要》
谷歌在基础设施方面的优势体现在谷歌 Gemini 1.5 与 OpenAI GPT-4 Turbo 相比,Gemini 1.5 的服务成本明显较低,同时在许多任务中,尤其是长序列代码中,谷歌 Gemini 1.5 表现要更好。虽然在单个推理系统中谷歌使用的芯片数量要多得多,但从性能/总拥有成本的角度来看,谷歌的优势更为显著。
在这种情况下,性能不仅仅是指单个用户每秒处理的原始 token 数,即延迟优化。在评估总体拥有成本(TCO)时,还必须考虑到硬件上并发服务的用户数量。这就是为什么改进边缘计算的硬件以满足 LLM 推理需求时会必须权衡的主要原因。大多数边缘计算系统都无法弥补为运行 LLM 而增加的硬件成本,因为这些边缘系统无法将成本在大量用户之间进行摊销。而对于以极大 batch sizes 为众多用户提供服务、优化 IE 吞吐量和成本来说,GPU 才是最佳选择。
正如在《推理的竞争》中所讨论的,许多公司在使用 Mixtral API 推理服务时确实处于亏损状态。一些公司还制定了非常低的费率限制,以限制他们的亏损。我们在报告中深入讨论了量化和其他硬件 GPU 选择(如 MI300X),但主要结论是,那些提供未修改模型(使用 FP16 精度)服务的公司至少要将 batch size 设置成 64 以上才能实现盈利。我们认为,Mistral、Together 和 Fireworks 正在以保本或微利的状态提供 Mistral 服务。

但其他提供 Mixtral API 的公司情况则截然不同。他们要么在量化问题上撒谎,要么依赖 VC 的资金来获取用户。Groq 在定价方面采取了大胆的尝试,以 0.27 美元每百万 token 的超低价格与这些公司竞争。
它们的定价是否也像 Together 和 Fireworks 一样是基于性能 / TCO 而计算的呢?
亦或是通过补贴来进行炒作?需要注意的是,Groq 的上一轮融资是在 2021 年,去年的 SAFE 额度为 5000 万美元,目前他们正在进行新一轮的融资。
接下来本文会对 Groq 的芯片、系统和成本进行深入研究,并探讨他们是如何实现出色性能的。

Groq 的芯片采用完全确定性的 VLIW 架构,没有缓冲区,在 Global Foundries 的 14 纳米工艺节点上达到了约 725 mm2 的芯片尺寸。该芯片没有外部内存,在处理过程中将所有权重、KVCache 和激活等数据都保留在芯片内部。由于每个芯片只有 230MB 的 SRAM,因此单个芯片实际上无法容纳任何有用的模型。因此,它们必须利用多个芯片来适配模型,并将它们以网络化的方式连接起来。

就 Mixtral 模型而言,Groq 需要连接 8 个机架,每个机架有 9 台服务器,每台服务器含有 8 个芯片。这意味着总共需要 576 个芯片才能建立推理单元,并为 Mixtral 模型提供服务。相比之下,Nvidia 单个 H100 就能满足低批量模型的需求,并且两个芯片就有足够的内存支持更大的 batch size。
用于制造 Groq 芯片的晶圆成本可能不到每片 6,000 美元。相比之下,Nvidia 的 H100 芯片尺寸为 814 mm2,采用台积电的 5 纳米定制变体 4N,这些晶圆的成本接近每片 16,000 美元。然而,与 Nvidia 的架构相比,Groq 的架构在实现高良率方面似乎存在一些挑战,而 Nvidia 的参数良率非常高,他们在大多数 H100 SKUs 中禁用了约 15% 的晶片。
此外,Nvidia 从 SK Hynix 购买了每颗 H100 芯片所需的 80GB 的 HBM,每个成本约为 1,150 美元。Nvidia 还需要向台积电支付 CoWoS 费用,并承担由此带来的良率损失,而 Groq 则不需要任何芯片外内存。因此,Groq 芯片的原材料成本要低得多。Groq 还是一家初创公司,因此他们的芯片产量要低得多,相对固定成本也要高得多,其中包括必须向Marvell支付高额利润以获取定制ASIC服务。
下表列出了三种部署,一种是针对 Groq 的部署,采用他们当前的管道并行性,batch size 设置为 3。据我们了解,他们计划在下周开始在生产中实施这种部署。另外两种分别是针对延迟优化的 H100 推理部署,以及针对吞吐量优化的 H100 推理部署。

上表大大简化了经济效益(忽略了大量系统级成本,我们稍后将深入讨论,同时也忽略了 Nvidia 的巨大利润)。这里的重点是要指出,与经过延迟优化的 Nvidia 系统相比,Groq 在芯片架构上的优势在于每 token 输出所使用的硅材料成本。
8xA100 GPU 可以为 Mixtral 提供服务,并实现每用户每秒约220 个 token 的吞吐量。而 8xH100 在不进行推测解码(speculative decoding)的情况下,每用户每秒可达到约 280 个 token。当使用推测解码时,8xH100 推理单元的吞吐量可接近每用户每秒 420 个 token。虽然吞吐量可能会超过这一数字,但在 MoE 模型上实现推测解码具有一定挑战性。
目前尚不存在针对延迟优化的 API 服务,因为其经济效益很差。目前,API 服务商尚未看到市场上愿意支付 10 倍费用以降低延迟的需求。然而,随着 agent 和其他极低延迟任务的普及,基于 GPU 的 API 服务商很可能会在推出延迟优化 API,以补充他们当前针对吞吐量优化的API。
Groq 将在下周实施他们的 batch 系统,与没有采用推测解码的 Groq 相比,虽然 Nvidia 采用了具有推测解码的低延迟优化系统,但在吞吐量和成本方面仍然远远落后于 Groq。此外,Groq 采用的是较老的 14 纳米工艺技术,并向 Marvell 支付了可观的芯片利润。如果 Groq 能够获得更多资金,并在 2025 年下半年左右投产下一代 4 纳米芯片,那么经济效益可能会发生重大变化。需要注意的是,Nvidia 并不会坐以待毙,据我们所知,他们将在未来不到一个月的时间内发布下一代 B100 芯片。
在一个以吞吐量为优化目标的系统中,经济情况会发生显著变化。根据 BOM 计算,Nvidia 系统每美元的性能提升一个数量级,但每个用户的吞吐量较低。对于吞吐量优化方案,Groq 在架构上完全不具备竞争力。
然而,对于购买和部署系统的用户来说,上述简化分析并不是正确的商业案例分析方法,因为这种分析忽略了系统成本、利润和功耗等因素。接下来,我们将介绍性能 / TCO 的分析法。
一旦我们考虑到这些因素,token 经济学(这个时髦的新词是由 swyx 创造的)的情况就完全不同了。对于 Nvidia 来说,我们将使用此处所解释的 GPU 云经济学,具体内容如下图所示。

Nvidia 的 GPU 主板毛利率非常高。其服务器价格高达 350,000 美元(远高于 H100 服务器的超级分频器成本),其中还包括内存、8 个总带宽为 3.2Tbps 的 InfiniBand 网卡(对于这种推理应用来说并不需要)的巨额成本,以及在Nvidia毛利率之上叠加了相当可观的OEM制造商的利润。
对于 Groq 而言,我们估算的是系统成本,并将芯片、封装、网络、CPU、内存等细节因素考虑在内,同时假定了较低的整体 ODM 利润。我们也不包括 Groq 因销售硬件而收取的利润,因此,虽然看起来是苹果与橘子的对比,但也是 Groq 成本与推理 API 服务商成本的公平对比,因为两者提供的是相同的产品/模型。

值得注意的是,8 个 Nvidia GPU 只需要 2 个 CPU,而 Groq 的 576 芯片系统目前则配备了 144 个 CPU 和 144TBs 的 RAM。
将这些组件成本相加,我们得出每个 Groq LPU 服务器的成本为 35,000 美元,其中包括 8 个 Groq LPU 和上述所有其他硬件。Mixtral Groq 推理部署使用了 8 个机架,每个机架有 9 台服务器,即总共 576 个 LPU 芯片的推理部署成本为 252 万美元。相比之下,典型的 H100 HGX 系统的前期资本支出为 350,000 美元,包括 8 个 H100。大多数基于 H100 的 Mixtral 推理实例只使用 2 个 H100 芯片,因此每台 H100 服务器可部署 4 个推理实例。

假设门槛收益率为18%,使用寿命为 5 年,那么一个 H100 系统(即具有 8 个 H100 GPU 的 H100 HGX)的总摊销月资本成本为 8,888 美元,而每月托管费用为 2,586 美元,TCO 为 11,474 美元,而更大规模的 Groq 系统的总拥有成本为每月 122,400 美元。
虽然整个 Groq 系统(9 台服务器乘以 8 个机架)的月摊销资本成本是 H100 HGX 的 7.2 倍(Groq 为 63,991 美元,H100 HGX 为 8,888 美元),但 Groq 系统在 FP16 时的 FLOPS 性能却是 H100 HGX 的 13.7 倍(Groq 为 108,000 TFLOPS,H100 HGX 为 7,912 TFLOPS)。由于内存墙的存在,基于 H100 的推理系统通常具有较低的 FLOPS 利用率,而 Groq 的架构通过芯片上的 SRAM 避开了内存墙。尽管如此,由于某些原因(无论是缺乏缓冲区还是 VLIW 架构),即使下周推送的 batch size 3 已经实现,Groq 的 FLOPS 利用率都还是低于Nvidia。
推断 API 服务商(如 Nvidia)购买系统时,考虑到 OEM 附加利润,其毛利率通常超过 80%,而 Groq 实际上是以成本价购买系统。尽管他们必须向 SuperMicro 和 Marvell 分别支付系统和芯片的成本,但远未达到 API 服务商及其 GPU 云服务商的水平。因此,Groq 的总拥有成本受资本投入的影响要小得多,Groq 的资本投入占总拥有成本的 52%,而 H100 系统的资本投入占总拥有成本的近 80%。

8xH100 的延迟优化推理部署每百万个 token 的成本为 5.2 美元。2xH100 的吞吐量优化推理部署每百万个 token 的成本为 0.57 美元。相比之下,Groq 的成本为每百万个 token 1.94 美元,比 8xH100 更快、更便宜。
与许多推理服务服务商一样,Groq 目前的商业模式处于负毛利状态,它至少需要将吞吐量提高 7 倍以上才能实现盈亏平衡。与延迟优化推理部署中的 8xH100 设备相比,这个差距非常大。如果采用相同的定价,8xH100 设备与收支平衡相差近 20 倍。
除了销售推理 API 服务外,Groq 的商业模式还包括直接销售系统。如果 Groq 将其系统以 60% 的毛利率出售给第三方运营商,这将与 H100 HGX 的总拥有成本的资本密度大致相当,系统价格将大约为 635 万美元。
Groq 声称他们在功耗方面具有优势,但我们并未看到有明显证据能够支持这一点。即使对于 H100 服务器采取最保守的假设,即 10 千瓦(包括 CPU 和所有 8 个网卡全速运行),也比 576 芯片的 Groq 服务器更高效,后者需要 230 千瓦,即每台 8 芯片服务器需要 3.2 千瓦。虽然 Groq 声称具有每瓦性能优势,但我们并不清楚其计算方式。

我们需要注意的是,虽然 Groq 目前在其 API 业务上处于亏损状态,需要超过 7.2 倍的吞吐量才能实现盈利(包括下周计划实施的 batch 3 改进),但他们声称已经制定了一个改进路线图,可以在未来几个季度内实现盈亏平衡,主要通过以下三个改进途径来实现:
- 继续编译工作,提高吞吐量;
- 采用新的服务器架构,大幅降低包括板卡在内的非芯片成本,使用更少的 CPU 和更少的 DRAM;
- 部署更大规模的系统,通过增加更多的管道实现超线性性能扩展,从而提高 batching 处理能力,并最终支持更大的模型。
虽然这些项目中的每一项都是合乎逻辑的,我们也希望他们能实现这一目标,但 7 倍吞吐量的改进是相当困难的。
我们认为存在几个主要挑战:
目前,最大的 MoE 模型的参数范围在 1-2 万亿个,我们预计谷歌和OpenAI将在明年推出超过10万亿个参数的模型,这将需要数百个 GPU 和数十TB内存的推理系统。虽然 Mixtral 目前是微调、API 服务和本地部署中最重要的模型,但 3 个月后情况将会有所不同。LLAMA 3 和更大规模的 Mistral 模型即将推出。
Groq 公司已经证明他们能够构建适用于少于 1,000 亿参数的模型的系统,即使是像 LLAMA 3 这样大小的模型也很难适应未来理论上的上千芯片系统。Groq 计划在两年内部署 100 万个芯片,每个推理系统的规模都将超过目前部署的 576 个芯片。
这也引出了我们看到的另一个同样艰巨的挑战,即极长的上下文长度。谷歌在 Gemini 1.5 Pro 上展示了一个令人惊叹的功能,能够处理 1,000 万上下文长度的 token。这样的长度足以容纳 10 小时的视频、110 小时的音频、30 万行的代码或 700 万个字。我们预计许多公司和服务机构都能提供具有超大序列长度的模型,以便能够处理代码库和文档库等大量提示信息,因为这种性能远远超越了 RAG 模型,在实际应用中 RAG 模型通常表现不佳。

当然,预处理在初始阶段可能会花费相当长的时间(谷歌数据显示,需要需要整整一分钟才能输出第一个 token),但在这之后,预处理的成本会在众多请求中摊销,大规模的特定于客户的提示信息不需要频繁重新计算。虽然谷歌没有使用扩展为O(n^2)的标准注意力机制,但 Gemini 1.5 Pro 仍然需要数百 GB 甚至是 TB 级别的内存来存储 KVCache。
考虑到 KVCache 的大小要求,我们很难看出 Groq 如何能够实现超大的上下文长度。它需要成千上万芯片的系统,而不是像谷歌、Nvidia 和 AMD 推理解决方案那样只使用 10 或 100 块芯片。
虽然 Groq 在低延迟网络芯片方面的能力令人印象深刻,但要将其扩展到需要数万块芯片的超长上下文,以及像 Gemini Pro 1.5 这样的中等规模模型或像 GPT-5 和 Gemini Ultra 2 这样的超大模型,将会非常困难。
这使得人们开始质疑这些庞大的人工智能建设项目的使用寿命。对于 GPU 来说,由于其灵活性,很容易看到它们在未来 4 年内对新模型仍然有用。但由于 Groq 缺乏 DRAM,随着模型规模的不断增加,其灵活性也会大打折扣。如果这成为一个问题,那么它的系统折旧年限将不再是 5 年,而是更短。这将大大增加成本。
Groq 面临的另一个挑战是,推测解码和 Medusa 等技术的快速发展。Tree/branch 推理法使推测解码速度提高了 3 倍以上。如果这些技术能够在生产级系统上进行有效部署,那么一个 8x H100 系统每秒就能处理超过 600 个 token。
Groq 还表示他们计划在未来实现推测解码,但我们不明白这将如何与他们的确定性架构相配合。一般来说,推测解码需要消耗更多的 FLOPS 以换取通过提高 batch size 来提高带宽效率。Groq 主要受限于 FLOPS 和网络,而不是 SRAM 带宽。Groq 需要将 batch 能力大幅提高到 3 以上,才能有效实现推测解码。
最后,B100 将于下个月宣布推出,并在下半年开始发货,据传闻,其性能 / TCO 改进预计将超过 H100 的两倍。此外,Nvidia 的发展速度非常迅速,预计两个季度后将推出 B200,并在之后两个季度推出 X/R100。Nvidia 的发展目标是不断变化的。
尽管如此,如果 Groq 能够有效地扩展到数千芯片的系统,管道数量将会大幅增加,随着管道数量的增加,将产生额外的 SRAM,从而为更大的 batch size 提供更多的 KVCache。这反过来又能实现大于 10 的 batch size,并有望大幅降低成本。我们认为这是有可能的,但可能性不是很高。现在的关键在于看看 Groq 能否证明我们的预测是错误的,并且能够显著提高吞吐量。
不过,真正重要的问题是,低延迟小型模型推理本身市场是否足够大,如果是,那么在灵活的GPU 基础设施成本接近相同,并且可以相当容易地重新部署用于吞吐量或大型模型应用的情况下,是否值得拥有专门的基础设施。
*以上文章翻译自《Groq Inference Tokenomics: Speed, But At What Cost?》,如需原文,请与我们联系。
WF Research 是以第一性原理为基础的专业顾问服务机构,欢迎关注和留言!
微信:Alexqjl