随着 Scaling laws 的持续,AI 基础设施的建设热度持续攀升。现在,领先的 AI 模型训练集群已达到 10 万 GPU,预计到 2025 年将超过 30 万 GPU。然而,受限于建设周期、许可、法规限制以及电力供应等客观条件的限制,传统只在单个数据中心进行大型模型训练的方法正面临着棘手的性能瓶颈。
Google、OpenAI 和 Anthropic 已分别计划将大型模型训练扩展至多个数据中心集群。Google 凭借其全球领先的计算系统,率先攻克大规模基建的多项关键技术,如机架液冷架构和多数据中心训练等。
Gemini 1 Ultra 模型是在多个数据中心集群上进行训练的。尽管其计算能力(FLOPS)更高,但在合成数据、强化学习和模型架构方面,现有模型仍然落后于 OpenAI 和 Anthropic。然而,随着 Gemini 2 的即将发布,这种情况发生了改变。此外,到 2025 年,Google 预计将具备在多个数据中心集群上进行千兆瓦级训练的能力。但令人意外的是,Google 的长期规划远不如OpenAI和微软激进。

多数企业刚开始采用基于 Nvidia GB200 架构的高密度液冷AI芯片,预计到明年,这一数量将扩展至数百万台。相比之下,Google 已经部署了数百万液冷 TPU,液冷 AI 芯片的容量超过一千兆瓦。在基础设施建设上,Google 明显领先于竞争对手。

如上图所示,AI 训练基地的电力容量接近 300MW,预计明年将增至 500MW。这些设施不仅规模庞大,在能效上也有出色表现。下图显示,大型冷却塔和集中式水循环系统通过水管连接至三个建筑,能够有效散热约 200MW。根据最新的环境报告,该系统使得 Google 在大部分时间无需使用冷水机组,其在 2023 年实现了 1.1 的 PUE,展现了其卓越的能耗管理能力。

上图仅显示了水冷系统,水通过直接冷却系统输送至芯片,再通过液-液换热器将热量传递至中央水系统。这一高效节能的系统类似于 Nvidia GB200 的液-液冷却系统。
而在另外一边,微软目前最大的训练集群(如图所示)不支持液冷。尽管其建筑面积与 Google 相当,但每栋建筑的 IT 容量低约 35%。数据显示,微软的 PUE 为 1.223,不过这种计算方式对空气冷却系统更为有利,因为它未充分考虑服务器内部风扇的功率。在 H100 空气冷却服务器中,风扇功率消耗超过 15%,而在液冷 DLC 服务器中,这一比例低于 5%。因此,微软每瓦特芯片功率需额外消耗约 45% 的功率用于服务器风扇、冷却系统和其他非 IT 负载,而 Google 只需每瓦额外消耗 15%。考虑到 TPU 的高效性,Google 的整体能效优势显得更加明显。

为了在亚利桑那州的沙漠环境中提高能源效率,微软消耗了大量水资源,其水效比达到了 2.24 L/kWh,远超整体平均值 0.49 和 Google 略高于 1 的水平。这种高水耗引起了媒体的负面报道,促使微软在新建数据中心中采用空气冷却冷水机组。尽管这样做将减少用水量,但预计会提高 PUE,从而进一步扩大与 Google 在能源效率上的差距。
因此,根据当前的数据中心设计,Google 的基础设施效率更高,能够更快地建设兆瓦级设施。每栋建筑的容量提高了 50% 以上,同时每单位 IT 负载的电力需求减少,这加速了其数据中心的建设。
PART 01:Google AI 的训练基础设施
Google 以其独特的方式构建基础设施,其单体数据中心已超越微软、亚马逊和 Meta,但这仅仅是其基础设施优势的一部分。在过去的十年中,Google 持续扩大其园区的规模。以位于爱荷华州 Council Bluffs 的园区为例,尽管该园区已运营多年,其西部区域的 IT 容量高达 300MW。其中大部分容量用于传统工作负载,但据推测,部分建筑内部署了大量 TPU。随着东部区域采用最新的数据中心设计进行扩建,预计 Google 的 AI 训练能力将得到显著提升。

Google 最大的 AI 数据中心也相距不远。在俄亥俄州、爱荷华州和内布拉斯加州,Google 分别设有两个主要的数据中心集群。目前,Council Bluffs 地区正在进行大规模扩建,预计其数据中心的总容量将达到现有的两倍。除了之前提到的园区,Google 在该地区还有三个正在建设中的数据中心站点,这些站点正通过高带宽的光纤网络进行升级。

Council Bluffs、Omaha 和 Papillion Iowa 这三个站点彼此之间的距离大约为 15 英里,而 Lincoln Nebraska 站点则相距约 50 英里。Papillion 园区的建为 Google 在 Omaha 和 Council Bluffs 周边地区的运营增加了超过 250MW。截至 2023 年,包括 Papillion 园区在内,该区域的总电力已超过500MW,其中相当一部分专门用于支持 TPU 的运行。

另外两个数据中心虽然目前规模还没有达到其他园区的水平,但正在快速发展:预计到 2026 年,这四个园区的整合将构建成一个千兆瓦级别的大模型训练集群。位于大约 50 英里外的 Lincoln 数据中心预计将成为 Google 旗下最大的独立数据中心。
此外,Google 的大规模 TPU 部署仍在进行中。在俄亥俄州哥伦布附近,另一个千兆瓦级数据中心集群正在规划中 —— 该地区采用与现有园区相似的布局策略,预计到 2025 年底,正在建设的三个园区将实现 1 千兆瓦的目标。

如下图所示,新阿尔巴尼集群有望成为 Google 旗下最大的数据中心集群之一。目前,该集群已经成功部署了 TPU v4、v5 和 v6。

Google 在俄亥俄州、爱荷华州和内布拉斯加州的数据中心集群预计将进一步实现互联,以支持单一 AI 模型训练所需的数千兆瓦的电力供应。
PART 02:微软与 OpenAI 的反击?
微软和 OpenAI 清楚地认识到在近期在基础设施方面的劣势,因此已开始着手实施一项宏伟的基础设施计划,旨在超越 Google。他们正努力在水冷多数据中心训练集群领域击败谷歌。
微软和 OpenAI 正在建设一个接近千兆瓦级的超密集液冷数据中心园区,并与 Oracle、Crusoe、CoreWeave、QTS、Compass 等公司合作,以期在大模型训练和推理能力上超越 Google。
一些园区建成后,将超过 Google 目前的任一园区。实际上,微软在威斯康星州的园区预计将比 Google 在俄亥俄州所有园区的总和还要大,但其建设仍需时间。
OpenAI 和微软的合作计划更加宏伟,他们打算将多个大型数据中心园区相互连接,并在全国范围内实施广泛的分布式 AI 训练。预计微软和 OpenAI 将成为首家部署数千兆瓦级计算能力的公司。他们正与供应链合作伙伴紧密协作,推进当前最具规模的基础设施建设项目。
PART 03:多数据中心分布式训练
在介绍微软和 OpenAI 的基础设施建设之前,先简要介绍一下分布式训练。大型语言模型(LLMs)通常采用同步方式进行训练。训练数据通常被划分为多个小批次(micro-batches),每个小批次由模型的不同副本在各自的 GPU 集群上并行处理。每个副本在处理完其分配的小批次后计算出梯度,并在处理结束时进行同步。
在分布式训练的同步过程中,所有模型副本的梯度通过如 all-reduce 等集体通信操作进行聚合。聚合后的梯度会被平均,并用于同步更新模型的参数。这一过程确保了所有数据副本的参数一致性,从而促进模型的稳定收敛。在此过程中,所有设备必须在继续执行后续步骤之前完成当前步骤,以确保模型状态的同步更新,避免任何设备在模型更新上出现延迟或超前。

当单个训练任务中芯片数量超过 10 万时,通信开销显著增加。同步特性还意味着对延迟有严格要求,并要求必须有一个高效的通信网络来连接所有芯片,因为数据交换是在高峰期进行的。
当尝试使用多个区域的 GPU 执行同一训练任务时,区域间的通信延迟会增加。尽管光纤的传输速度极快,达到每秒 208,188 公里,但信号从美国东海岸传输到西海岸的往返时间(RTT)仍需约 43.2 毫秒。此外,电信设备也会导致额外的延迟。这是一个很大的延迟量,对于标准同步训练来说是难以克服的。
根据阿姆达尔定律(Amdahl’s Law),在工作负载中包含大量同步操作时,随着芯片数量的增加,性能提升的速度会逐渐减缓。这是因为程序中需要同步执行的部分(即那些无法并行化的串行计算)不会因并行处理单元的增加而减少。因此,性能提升存在一个理论上的上限。在某些情况下,即使将 GPU 数量翻倍,整体性能的提升也可能非常有限,甚至可能不足 1%。

除了阿姆达尔定律中提到的将更多 GPU 扩展到单一工作负载的理论限制之外,同步梯度下降算法还面临实际挑战,其中之一是滞后问题。只要有一块芯片慢了 10%,整个训练速度也会相应下降 10%。例如,在下图中,从第 7,500 步到第 19,000 步,字节跳动公司的最大频率使用率(MFU)逐渐下降,因为某些芯片的效率降低,整个工作负载变得滞后。

在识别并解决了落伍者后,他们从检查点重新启动训练任务,使 MFU 恢复到正常水平。可以看到,MFU 从 40% 降至 30%,降幅达 25%。假设系统中有 100 万个 GPU,这种 25% 的 MFU 下降意味着在任何时刻都有 25% 的 GPU 处于闲置状态,仅 IT 资本支一项就相当于超过 100 亿美元的损失。
PART 04:容错训练
容错训练是所有分布式系统的关键组成部分。当数百万级的计算、内存和存储单元并行工作时,故障是不可避免的。此外,由于硬件性能的微小差异,即所谓的“硅彩票”现象,也可能导致性能波动。尽管系统通常具备应对这些挑战的能力,但在大规模计算任务中,如机器学习训练,常常采取与之相悖的策略。
在这种环境下,所有芯片都必须可靠运行。即使在 10 万个 GPU 中只有一个 GPU 出现故障,也可能导致整个系统需要从恢复点重新启动,造成大量 GPU 空闲。而采用容错训练时,单个 GPU 故障只会影响少数其他 GPU,大部分 GPU 仍可继续正常运行,无需从模型权重检查点重新启动。例如,LLAMA 3.1 这样的开源模型,由于缺乏有效的容错机制,导致了大量的时间和成本浪费。
Nvidia 的 InfiniBand 网络也采用了这种可能存在缺陷的原则,即要求每个数据包严格按顺序传输。任何顺序变化或传输失败都会导致数据重传。在一个涉及 10 万个 GPU 集群的报告中指出,网络故障的影响可能非常显著,持续时间以分钟计,而非小时。
目前,实现容错训练的主要开源库是 TorchX(之前称为 TorchElastic),但它存在显著缺陷,未能涵盖长尾故障情况,且不支持 3D 并行性。由于这些限制,几乎所有大型 AI 实验室选择实施自己的容错训练系统以满足特定需求。
不出所料,Google 在容错基础设施方面处于领先地位,通过 Borg 和 Pathways 系统实现了高效的容错训练。这些系统能够处理各种复杂情况,是谷歌紧密垂直整合战略的一部分:Google 不仅设计自己的训练芯片,还构建服务器、编写基础代码,并进行模型训练。这种整合方式类似于汽车制造业,垂直整合越紧密,就能越快速、有效地解决生产中的根本问题。谷歌几年前推出的 Pathways 系统便展示了他们的技术实力。
一般来说,容错性是为单一工作负载扩展 10 万个以上 GPU 集群时需要解决的最重要问题之一。英伟达在 AI 系统可靠性方面远远落后于谷歌,这也是为什么英伟达的工作描述中反复提到容错的原因。

在 CPU 领域,容错技术通常已经相对成熟。例如,谷歌的内部数据库 Spanner 运行着谷歌的所有生产服务,包括 YouTube、Gmail 和已经停运的 Stadia。Spanner 分布在全球范围内,同时具备对存储服务器和 NVMe 磁盘故障的容错能力。即使在谷歌的数据中心中,每小时都有数百个 NVMe 磁盘发生故障,但 Spanner 依然能够为最终用户和内部系统提供稳定的性能和高可用性。
在大型集群中,传统 CPU 工作负载的容错可以通过 MapReduce 框架来实现。MapReduce 是一种建模方式,MapReduce 允许用户通过映射(Map)操作对数据样本进行处理,并将处理结果通过归约(Reduce)操作合并成一个总的聚合值。例如,要统计一篇文章中字母“W”的出现次数,可以采用 MapReduce 框架:首先对文章中的每个单词进行映射,统计每个单词中字母“W”的数量,然后通过归约操作将所有单词中的“W”数量累加。MapReduce 通过监测 CPU 工作节点的状态,一旦发现某个节点发生故障,它能够在其他节点上重新执行失败的映射和归约任务,从而实现容错。

在 CPU 的容错领域,Jeff Dean、Sanjay Ghemawat 以及谷歌的其他世界级分布式系统专家做出了显著贡献。随着机器学习(ML)训练任务的规模日益增长,对具备更强故障容错能力的训练系统的需求也在不断增长。谷歌在构建这类系统的专业技术方面,展现出了其作为技术领导者的竞争优势。
一般来说,GPU 故障呈现出类似浴缸曲线的分布,其中大部分故障出现在集群生命周期的早期(即“初期失效”现象)和晚期。因此,对整个集群进行充分的预热是至关重要的。然而,由于 AI 平台 Neoclouds 旨在最大化其集群生命周期的经济效益,许多平台并未对集群进行适当的预热,这最终导致了用户体验的显著下降。
相比之下,在超大规模服务器和大型 AI 实验室中,大多数集群通常会在高温和温度快速波动的环境中进行长时间的烧机测试,目的是识别并排除早期失效,确保系统进入随机故障阶段。在解决早期问题后,必须在充足的“烧机”时间与避免过度消耗 GPU 和收发器的有效寿命之间找到平衡。
磨损失效阶段是指组件在其寿命末期因长期疲劳而发生故障。这种情况通常是由于组件在全天候使用期间频繁经历中温和高温之间的温度波动所致。在这种剧烈的热循环作用下,尤其是收发器,其磨损程度会显著加剧。

在 CPU 领域,当托管虚拟机的物理主机显示出错误率上升的迹象时,将这些虚拟机迁移至其他物理主机是一种常规操作。一些超大规模计算服务商甚至已经能够实现虚拟机的实时迁移,使得用户几乎无法察觉到这一过程。这种技术通常是通过系统后台复制内存页来实现的。当用户应用程序遇到短暂的性能下降时,虚拟机会迅速切换到另一台正常运行的物理主机上,以确保服务的连续性和稳定性。

CRIU(Checkpoint/Restore In Userspace)是一个广泛使用的 Linux 软件包,主要应用于 Docker、Podman 和 LXD 等主要容器技术中。该工具能够在不同的物理主机间迁移容器和应用程序,并且具备将整个进程状态冻结并保存到存储设备上的能力。之前,CRIU 主要支持 CPU 和 AMD GPU,但 Nvidia 之前未对 CRIU 提供支持,直到今年才开始改变这一状况。
自 2024 年起,Nvidia GPU 引入了 GPU 状态检查点功能,使得 CPU 进程状态、内存数据及 GPU 进程的迁移过程在物理主机间得以简化。

微软在其论文《奇点集群管理器》中阐述了如何利用 CRIU 技术实现 GPU 虚拟机的透明迁移策略。Singularity 从设计之初就旨在支持全球范围内的 GPU 负载调度和管理,已被应用于 Phi-3 训练模型(包含 1024 个 H100 GPU)以及其他众多模型。这标志着微软正致力于使其集群管理技术与谷歌的 Borg 集群管理器相媲美。

遗憾的是,鉴于容错训练的重要性,相关研究方法的公布实际上已暂停。在 OpenAI 及其他企业向硬件领域介绍该问题时,其表述往往显得含糊且保守,目的在于防止分布式系统的关键技术细节外泄。事实上,这些技术在重要性上可能超越了模型架构本身,因为它们均是计算效率的关键因素。

另一个常见问题是静默数据损坏(Silent Data Corruption,SDC),它可能导致计算机在处理过程中产生不易被察觉的错误,而用户或管理员通常对此毫无察觉。这一问题难以解决,因为“无声”意味着错误难以被检测到。在许多情况下,这些无声错误可能是微不足道的,但有时也可能导致输出结果转变为非数字(Not a Number,NaN)或产生异常高的输出梯度。正如下图所示,谷歌的 Jeff Dean 绘制的梯度法线图揭示了某些 SDC 可以通过直观的方式识别,然而并非所有 SDC 都能通过这种方法被检测出来。
部分梯度异常峰值并非源自硬件的无声数据损坏(SDC),而是可能由于数据集规模过大或超参数设置不当(例如,学习率和权重初始化策略)所导致。在 GPU 集群的运行过程中,SDC 问题普遍存在,但受限于资源,许多中小型公司往往难以迅速有效地识别和处理这些问题。

Nvidia GPU 可利用 DCGMI Diagnostics 工具进行 SDC 等 GPU 错误的诊断。该工具能够检测大部分 SDC,然而,仍有可能忽略一些特殊情况,这些情况可能导致数值错误和性能问题。
在对不同云计算平台的 NVIDIA H100 GPU 进行测试时,我们发现使用 DCGM(NVIDIA Data Center GPU Manager)诊断工具的 4 级测试可以通过。然而,NVSwitch 的某些关键计算组件未能正常工作,这可能导致性能下降。特别是在采用 NVLink SHARP 技术的 NCCL(NVIDIA Collective Communications Library)算法执行过程中,我们观察到了异常的集体通信结果。
与其它系统相比,Google 的 Pathways 系统在识别和解决静默数据损坏(SDC)方面表现出色。这得益于 Google 基础设施和训练堆栈的高度整合,使得 Google 能够在大规模训练任务启动前,将 SDC 检查纳入训练过程的准备和收尾阶段。

异步训练曾是深度学习领域广泛采用的一种训练技术。2012 年,Google Brain 团队的杰出工程师 Jeff Dean 发表了题为《Distbelief》的论文,阐述了在大规模 CPU 核心集群上进行深度学习模型训练时采用的异步和同步梯度下降方法。该研究提出了“全局参数服务器”的概念,这一创新被广泛应用于 Google的自动完成、搜索和广告模型的训练过程中。

参数服务器风格的训练在早期模型中表现优异。但随着新模型架构在收敛性方面面临挑战,许多研究团队和组织开始转向全同步梯度下降方法,以简化训练流程。目前,包括 GPT-4、Claude、Gemini 和 Grok 在内的前沿级模型均采用了同步梯度下降技术。不过,为了在大规模训练中更有效地利用 GPU 资源,业界正逐渐探索回归到异步梯度下降的可能性。
PART 05:训练策略
根据阿姆达尔定律,为了在增加更多处理器时避免性能收益递减,一种有效的策略是减少程序中全局同步的需求,并允许更多的工作负载以墙时钟的百分比独立运行。这种方法特别适用于多园区、多地区和跨洲的训练场景,因为不同 GPU 之间的通信延迟和带宽存在差异。
在园区网络环境中,楼宇间距通常小于1公里,这样的近距离导致网络延迟极低,同时享有较高的带宽,因此可以实施频繁的同步操作。相较之下,在更大范围的区域网络内,例如 100 千米内,尽管可能拥有较高的带宽但延迟较高,同步频率较低。此外,不同园区内 GPU 的数量差异是可接受的,因为它们之间的负载平衡非常容易。例如,若 A 园区配备 10 万个 GPU,而 B 园区配备 7.5 万个 GPU,B 园区的批量处理规模可设定为 A 园区的 75%。在执行同步操作时,可以根据不同园区的 GPU 数量,按照比例进行加权平均计算。

这一原则适用于多个区域和跨洲的情况,其中网络延迟较高,因此应进一步减少同步的频率。实际上,这构建了一个具有不同同步级别的层次结构。
例如,这就像你通常会更频繁地与相近的朋友见面,而不是那些居住在其他城市的朋友。同样,你更倾向于与同处一地的朋友保持更频繁的联系,而不是与远在其他地区的朋友。

此外,分层同步梯度下降(Hierarchical Synchronous Stochastic Gradient Descent,H-SGD)的一个优势在于,它能够有效减少个别节点的异常行为对整体训练过程的影响。这些异常行为通常在训练的初期阶段出现,但很快就会自行纠正。因此,通过减少同步的频率,可以降低这些异常行为对整体训练过程的干扰。由于并非在每次迭代中都执行全局同步,个别节点的不稳定表现对整体训练的影响被有效降低。分层同步梯度下降是近年来在多数据中心并行训练中广泛采用的一种创新方法。

杰夫·迪恩在 2012 年发表的 DistBelief 论文中探讨了异步参数服务器的应用,这是另一种极具潜力的技术。在该方法中,模型的每个副本独立处理一部分数据,然后定期与参数服务器通信,以同步并更新全局模型权重。这个过程可以类比于 Git 版本控制系统的工作流程,即程序员在各自的任务上独立工作一段时间后,将更改合并到主分支。然而,如果直接应用这种方法,可能会导致模型的收敛问题。不过,OpenAI 可以通过引入多种优化技术来优化本地模型副本与全局参数之间的数据交换和更新过程。

MetaAI 的 “分支-训练-合并”(Branch-Train-Merge)论文提出了一种与现有大型语言模型(LLM)相似的训练策略:从主模型(主分支)创建分支,在数据集的子集上进行训练,然后将训练成果整合回主模型。我们预计,这种方法的实践经验将对 OpenAI 等公司采用的分布式训练技术产生影响。然而,分支-训练-合并等方法在处理 GPT-3 175B 或 GPT-4 1.8T 等大型模型时面临挑战,因为合并问题尚未得到解决。为了保持收敛,必须投入更多的工程力量来优化合并流程和更新主模型。

为了将这一方法扩展为层次化结构,我们需要构建一个多层次的参数服务器架构。在这种架构中,每个模型副本与其最近的参数服务器进行数据交换,而参数服务器之间也会相互交换数据。在架构的底层,模型副本与其对应的局部参数服务器进行频繁的通信和更新,这样做的目的是为了在局部集群内实现更快速的模型收敛和同步。
为了构建分层的分布式训练架构,需要在分布式系统中按层次组织本地参数服务器,使得每一层在将更新信息传递给上一层之前,先对来自其下层的更新进行整合和优化。这种方法与 Nvidia 推荐的 FP8 精度训练策略有相似之处,该策略建议在存储主权重时采用 FP32 格式,以减少由于使用大量 GPU 而导致的精度损失。然而,在进行如矩阵乘法这样的计算密集型操作前,训练服务器会将数值精度降至 FP8。我们相信,这种方法仍然适用,即参数服务器中的主权重将保持为 FP32,但实际计算将使用 FP8 甚至更低的格式,如 MX6。

为了实现多园区训练,Google 目前使用一种强大的分片器,即 MegaScaler。MegaScaler 能够通过 Pathways 在一个园区内的多个集群以及一个区域内的多个园区之间进行分片,并进行同步训练。MegaScaler 为 Google 在扩大训练工作负载的芯片数量时,提供了显著的稳定性和可靠性优势。
随着行业趋势再次倾向于异步训练,MegaScaler 可能成为关键支撑技术。MegaScaler 基于同步训练原则,即所有数据副本需相互通信以同步信息。将异步训练集成到 MegaScaler 中可能颇具挑战,可能涉及大规模的系统重构。尽管 Pathways 框架在设计时已考虑异步数据流,但目前所有生产实例均采用同步 SGD 训练模式。不过,谷歌具备对这一软件架构进行重构的技术实力。

在跨区域数据中心网络互联时,主要的限制因素包括带宽和网络延迟。长远来看,延迟将成为主要限制因素,这主要是由于光在光纤介质中的传播速度受限,而非带宽问题。光纤网络的建设成本主要受制于获取铺设和挖掘许可,而非光纤本身的成本。例如,在凤凰城与达拉斯之间铺设 1,000 对光纤的成本,相较于 200 对光纤,增加的幅度并不显著。即便如此,考虑到行业内的监管要求和实施时间,大规模铺设光纤是一个逐步的过程,因此,优化带宽使用策略仍然至关重要。

我们预计,未来在多园区、多区域的训练集群上,模型的参数量将超过 100 万亿。假设区域内的园区站点之间的带宽能够达到 5Pbit/s,而区域间的带宽达到 1Pbit/s,这在未来是可行的。在这样高的带宽条件下,园区站点间交换模型权重的时间将大幅缩短,仅需 0.64 秒即可完成,这对于大规模分布式训练而言是一个显著的优势。特别是当需要交换高达 400TB(每 4 字节代表一个参数)的权重时,这样的速度表现是相当出色的。

Nvidia 提供了名为 MetroX 的 InfiniBand 网络交换机,它设计用于在 40 公里范围内连接数据中心。尽管这种技术在 AI 领域的实验室中应用不多,但在非 AI 的高性能计算(HPC)集群中,它已被用于连接 10 公里范围内的不同园区。每个 MetroX 机箱支持 2x100Gbps 的带宽,然而,对于城域网(通常覆盖小于 40 公里的范围)而言,以太网解决方案已经发展得非常成熟。例如,微软这样的公司,尽管在数据中心内部大量使用 InfiniBand,但在数据中心之间的连接上选择了以太网技术。
PART 06:从吉比特到太比特:调制和复用
目前,数据中心内的网络(即 Datacom)通常侧重于通过光纤链路为每个终端设备(即每个 GPU)提供高达 400Gbps 的速度。随着 Nvidia 逐步采用 Connect-X8 系列网络接口卡(NICs),预计在未来一年内将实现 800Gbps 的 AI 数据传输速率。
在电信网络领域,为了满足设施内多个设备和服务器的通信需求,通常会采用光纤链路进行数据传输。尽管运行 800 Gbps 的数据通信收发器在每对光纤上通常只能实现最多 100 Gbps (DR8) 的传输速率,需要多对光纤来实现更高带宽,但在实际应用中,如海底电缆和许多陆地及城域网络部署,电信应用的单模光纤对的传输速度已经超过了 20-40 Tbps。
更高的带宽可通过以下组合实现:
1. 更高阶的调制方案,在特定波长上每个符号可提供更多比特。
2. 密集波分复用(DWDM),将多个波长的光合并到一根光纤上。
在调制技术方面,数据通信领域广泛采用 VCSEL 和 EML 的收发器。这些设备支持 PAM4,这是一种利用光信号强度变化来传输信息的技术,即所谓的强度调制直接检测(IMDD)。在 PAM4 调制中,通过四种不同的光信号强度级别,每个信号级别能够携带两个比特的信息量。

为了实现更高的数据传输速度,可以通过提高符号的发送速率(以千兆波特每秒 Gbd 计)或增加每个符号携带的比特数来实现。例如,400G SR8 收发器能够在 26.6 Gbaud 的速率下发送符号,并通过四阶脉冲幅度调制(PAM4)技术,使得每个符号能够携带 2 比特的信息。这样,每对光纤可以实现 50 Gbps 的传输速率。当 8 对光纤通过一个连接器集成时,整体传输速率可达到 400 Gbps。若进一步将符号速率提升至 53.1 Gbaud,且在 8 个通道上继续使用 PAM4 调制,则整体传输速率可提升至 800 Gbps。然而,相较于采用更高阶的调制方案,单纯地将符号速率翻倍在技术上往往更具挑战性。
16-QAM(16 阶正交振幅调制)是一种在 ZR/ZR+ 光通信和电信领域广泛应用的调制技术。该技术通过编码四种不同振幅的信号波,并利用两个相位差为 90 度的独立载波,能够生成 16 种不同的符号,每个符号携带 4 比特的信息。通过采用双极化技术,即同时使用水平和垂直极化的载波,可以进一步增加符号数量至 256 种,每个符号携带 8 比特的信息。目前,大多数 400ZR/ZR+ 和 800ZR/ZR+ 收发器仅支持双极化 16-QAM(DP-16QAM)调制。然而,在优质光纤上运行的专用电信系统,由于设备尺寸较大,能够支持更高阶的双极化 64-QAM(DP-64QAM)调制,每个符号可携带 12 比特的信息。

为实现基于不同相位的调制方案,必须采用相干光学技术。相干光指的是光源发出的光波在相位上保持一致性,这对于执行相位调制方案至关重要。相位不一致的光源(非相干光源)会产生随机干扰,导致无法准确提取相位调制的信号。
相干光学系统需配备能够处理高阶调制方案的数字信号处理器(DSP),以及可调谐激光器和调制器。在 400ZR 应用中,为了降低成本,通常采用硅光子技术。值得注意的是,可调谐激光器价格较高,因此在一些经济型解决方案中尝试使用成本更低的 O 波段激光器。
ZR/ZR + 光学模块,作为日益流行的收发器类型,采用相干光学技术,专为数据中心互连设计。它们能够在每对光纤上提供更高的带宽,并支持 120 至 500 公里的传输距离。这些模块通常采用 OSFP 或 QSFP-DD 外形规格,与数据通信应用中常用的规格一致,因此可以无缝集成到现有的数据通信网络交换机中。

传统电信系统可以用于数据中心互连,但这通常需要更复杂的电信设备链,占用更多的物理空间。而 ZR/ZR + 插拔式电缆可以直接插入网络端口,避免了多个电信设备的使用。

相比采用 PAM4 调制的强度调制直接检测(IMDD)收发器,应用高阶调制技术如双极化 16 正交振幅调制(DP-16QAM)能显著提升单对光纤的传输带宽,带宽增益可达 8 倍。然而,长距离传输的效率仍受限于光纤特性。为了进一步提升单对光纤的传输能力,可以采用密集波分复用(DWDM)技术。DWDM 通过在单根光纤中同时传输多个不同波长的光信号来实现。例如,将 76 个 C 波段(波长范围1530nm至1565nm)和 76 个 L 波段(波长范围 1565nm 至 1625nm)的信号复用至一根光纤中。

如果在这个系统上每个波长能传输 800Gbps,那么单对光纤的总容量可以达到 121.6Tbps。海底光缆系统通常会尽可能多地利用可用波长以提高传输效率。虽然某些特定的部署可能会使用少于 16 个波长,但使用多达 96 个波长的部署也是常见的。目前,业界对于每对光纤的典型部署目标是实现 20-60 Tbps 的传输容量。
许多光纤部署在初始阶段通常仅激活 C 波段中的少数几个波长,随着客户需求的增长,逐步激活更多的 C 波段波长,最终扩展至 L 波段。这种逐步激活波长的策略使得现有光纤的传输容量得以显著提升。
PART 07:Hyperscalers 的电信网络部署
美国大多数大都市地区仍有大量未被使用的光纤资源,而这些资源可为AI数据中心互联提供所需的巨大带宽,这是充分利用这些光纤的最佳方式。在海底光缆的部署中,联合企业通常只铺设 8-12 对光纤,因为物理光缆的成本与光纤对数呈正比。而在陆地光缆的铺设中,主要成本来自于挖掘壕沟所需的人工和设备(以及某些城市地区的路权),而非光纤本身。因此,当公司在城市地区挖掘陆地线路时,往往会一次性铺设成百上千对光纤,以降低未来的扩容成本。
进行跨洋的数据传输相较于陆地传输面临更多的技术挑战。
在制定光纤业务计划时,通常会考虑到未来的需求增长,因此会预留一定比例的光纤对。这种策略不仅适用于大城市,也普遍应用于主要交通干线、输电线路、铁路以及其他基础设施的周边区域。在进行基础设施建设时,相关单位通常会同步铺设光纤电缆,因为如果已经有施工队在现场,增加光纤铺设的成本很小。
在电信网络领域,超级分销商更倾向于建设自有网络,而非依赖电信供应商。他们通常直接与设备供应商和建筑公司合作,以满足长途通信、地铁线路以及数据中心互联的需求。

数据中心互联是指通过点对点网络将两个相距不超过 50 千米的数据中心连接起来,通常需要铺设大量光纤对。超级分配器可以将 ZR 收发器安装到两个远距离数据中心的网络交换机上,并将收发器调节为不同的光波长,然后通过无源多路复用器(即 DWDM 链路)将多达 64 个收发器的信号组合到一对光纤上。如果使用 400ZR 技术,每对光纤的传输速率可达 25.5 Tbps;或者可以选择将每个 ZR 收发器单独连接到自己的光纤对上。

更复杂的电信系统可以通过使用 DWDM 技术,将更多的 ZR 光学信号复用到较少的光纤对上,从而实现比点对点网络更复杂的连接。然而,这需要占用多个电信设备机架的空间,以容纳 DWDM 系统所需的路由器、ROADM 以及多路复用器/解复用器。
由于光纤铺设的主要成本在于挖掘沟槽,大多数超大规模数据中心运营商通常会铺设超出实际需求的光纤对,以此节省机房内的空间,并避免部署复杂的电信系统。通常,只有在光纤资源有限的地区,他们才会在短距离内采用复杂的电信系统。这种情况在美国以外的地区尤其常见,在光纤资源稀缺的城市,超大规模运营商可能只能获得 2-4 对光纤。

对于长途网络,超大规模用户需采用专门的电信产品,以区别于数据通信。典型的长途网络需配备转发器、DWDM 复用器 / 解复用器、路由器、放大器、增益均衡器及再生站点等基本系统。此外,通常还需配备 ROADM(可重构光分插复用器)和 WSS(波长选择开关)。

在电信领域,转发器的作用与收发器相似,但成本较高且需在较高功率下运作。转发器的线路侧连接至实际的电信网络,而客户端侧则提供多种端口配置,以连接本地客户端设备。例如,转发器在线路侧可能提供 800Gbps 带宽,并在客户端侧提供 4 个 200Gbps 的光学或电气端口,用户可根据需求选择不同的端口容量和电气/光学组合。客户端侧通常连接至数据中心内的路由器或交换机,而线路侧则连接至复用器,通过 DWDM 技术整合多个转发器的信号,并可以采用 ROADM 进行光学切换,以支持比简单的点对点连接更为复杂的网络拓扑结构。

DWDM 通过多路复用器和解复用器(mux/demux)进行工作,它从每个转发器接收波长略有不同的光信号,然后将这些信号组合到一对光纤上。每个转发器都是可调谐的,能够调节至特定波长,并将该波长的光信号复用到同一对光纤上。在使用 ROADM 时,转发器通常先连接到无色多路复用器/解复用器,再连接到波长选择开关 (WSS),从而使 ROADM 可以动态地调整转发器至特定波长,以优化各种网络目标。
为抵消光信号在光纤上长距离传输时的衰减,需使用光放大器。放大器每隔 60 至 100 公里安装于光纤线路,直接放大光信号,无需转换为电信号。每隔三个放大器,需使用增益均衡器,确保不同波长的光信号在不同速度下传播时得以均衡,避免错误。在数千公里的超长距离部署中,信号需经再生,包括将光信号转换为电子信号,重新整形和定时后,由另一组转发器重新传输。
当网络连接两个或更多的点,并且存在多个需要添加或接收流量的站点时,就需要使用 ROADM(可重构光分插复用器)。这种设备可以在网络的特定部分选择性地添加或丢弃特定波长的光信号,无需将信号转换为电子形式进行处理或路由选择。ROADM 可以在主光纤网络中添加或删除特定地点所需的波长,同时允许其他不涉及该地点的波长继续传输而不受阻碍。此外,ROADM 还配备了控制平面,能够主动发现和监控网络状态,了解哪些信道是空闲的、信道的信噪比、预留波长,并能够控制转发器,将线路侧调整到适当的波长。

这些组件通常被集成到一个模块化的机箱中,其外观可能如下所示:

Ciena、Nokia、Infinera 和 Cisco 等是全球电信系统和设备的主要供应商,Lumentum、Coherent、Fabrinet 和 Marvell 等则提供子系统和主动组件。目前,光学设备厂商在数据中心互联中的 ZR/ZR + 光学设备方面具有显著优势。然而,随着超大规模企业和其他运营商需要重视数据中心以外的网络需求,他们可能会显著增加对成本较高的电信设备和系统的投入。
非云客户的电信设备需求已触底,并可能迅速复苏,有助于提升电信供应商业绩。
接下来,我们将讨论 OpenAI 和 Microsoft 雄心勃勃的多数据中心训练计划,以及在这一大规模建设中电信领域的赢家。
PART 08:OpenAI 和微软计划如何打败 Google
如前所述,微软的标准设计(如下图所示)在密度上不及 Google。尽管两家公司的建筑面积相近,但微软的兆瓦容量较低。Google 的设施具备较低的 PUE,这意味着与电力公司签约的电力中,有更大比例可以用于 IT 设备,而用于芯片的比例则较低,更多电力被分配到网络、CPU、风扇等设备。因此,虽然微软也有建设大型园区的经验,但通常需要更长的建设时间,且规模普遍小于 Google。

微软最大的大模型训练区域位于凤凰城,该地点是其最大的训练中心,并将继续保持领先地位。目前,该区域正在扩建至 10 栋建筑。利用已获得许可的各类场地,微软计划按照上图参考设计建设 24 个数据中心。为了进一步提高容量,微软在凤凰城附近的租赁活动非常积极,将显著扩展其在该地区的业务规模。然而,并非所有这些数据中心都将用于大模型训练。

为了在数据中心的规模和性能上超越 Google,微软与 OpenAI 意识到不能再依赖以往的旧有数据中心设计。他们正在密尔沃基通过自建方式,并借助 Compass、QTS、Crusoe、Oracle、CoreWeave 等合作伙伴,在全美范围内大幅增加新设施的建设密度。在密尔沃基和亚特兰大(由 QTS 合作),微软正着手建造全球领先的单体数据中心建筑,采用 100% 液体冷却技术,以支持下一代 AI 硬件。一旦威斯康星州的自建超级园区全部建成,将成为微软或 Google 布局中规模最大的单一数据中心园区。同时,Meta 也在加快推进其在特定地点的数据中心建设计划。

上述卫星图只是了一部分,该设施正处于快速扩展之中。
微软和 OpenAI 庞大的基础设施还包括位于德克萨斯州的另一部分,这部分基础设施的建设是通过与 Oracle 和 Crusoe 在 Abilene 的合作,以及与 CoreWeave 和 Core Scientific 在 Denton 的合作来实现的。

值得注意的是,在构建 AI 集群的过程中,微软开始探索在数字货币挖矿领域寻找机遇。CoreWeave 通过租赁现有的 Core Scientific 挖矿设施进行扩展,而 Oracle 则与 Crusoe 合作,后者在数字货币领域积累了丰富的经验。比特币矿工通常依赖于高密度、高功率的数据中心。许多矿工已签订了大规模的电力合同。例如,Core Scientific 的 10-K 年报显示,其在多个地点的合同电力容量达 1.2GW。相比之下,改造现有的数字货币矿场所需的时间显著短于新建数据中心。

公司正在积极转型,专注于 AI 领域的数据中心合租业务,并已与 CoreWeave 达成一项关键协议。协议涉及提供 382MW 的 IT 电力,且交付时间较为紧迫。根据协议内容,CoreWeave 将采购 GB200 GPU,并租赁给微软,以供 OpenAI 使用。
我们认为,最重要的地点将是位于德克萨斯州 Denton 的矿场。

与 X.AI 的数据中心拥有现场发电机类似,该数据中心也配备了充足的电力基础设施。其中央设有一个 225MW 的天然气发电站,该发电站位于原有加密矿场的核心位置。该矿场将被拆除并进行大规模改造,以安装符合数据中心标准的电力和冷却系统。然而,与 PUE 超过 1.3 的自建数据中心相比,该场地的能源效率仍显不足。
另一个重要的园区正在由 Crusoe 在德克萨斯州 Abilene 开发。Crusoe 公司以其在北达科他州和怀俄明州创新的燃气矿场而闻名,目前正在建设一个千兆瓦级的标准数据中心,并将其首个部分租赁给 Oracle。Oracle 将在该数据中心内安装 GPU 和网络设备,并将其租赁给 OpenAI。我们通过实时低分辨率卫星图像监测园区的扩展进度。

在美国其他地区,多个超大型数据中心也在建设中。

通过实施雄心勃勃的自建计划、积极推进租赁策略、大规模建立合作伙伴关系以及采用创新的超密集设计,微软将拥有多个千兆瓦级的数据中心集群,在大模型训练市场中将取得领先地位。
PART 09:多吉瓦级巨兽集群
微软计划将多个数据中心园区互联,构建一个多吉瓦(GW)级的大规模训练集群。光纤供应商 Lumen Technologies 和 Zayo 已经签署了相关合同,并公开了部分合作细节。
7 月 24 日,Lumen Technologies 和 Zayo 宣布与微软达成协议,将多个数据中心互联。几天后,Lumen 与康宁公司(Corning)签署了协议,预留了未来两年内其 10% 的光纤产能。我们预计,类似的合作协议将会增加,这可能会显著扩展康宁的业务范围。

Lumen Technologies(纽约证券交易所代码:LUMN)于今日宣布,公司因 AI 推动的连接需求激增,已成功获得 50 亿美元的新业务。随着 AI 需求的急剧上升,各行业的大型企业正在加紧争取光纤容量,因为这一资源变得愈发宝贵且面临潜在短缺。与此同时,Lumen 正在积极与客户洽谈,力争进一步获得 70 亿美元的销售机会,以应对日益增长的市场需求。
Lumen Technologies 是一家领先的大型电信公司,业务涵盖了多个领域。其中企业部门尤为重要。Lumen 通过其广泛的光纤网络,直接与企业合作,满足其连接需求,如下图所示。

如前所述,该业务面临光纤容量利用率低下的问题。虽然大量光纤(无论是租赁的还是自有的)已被部署,但仍有相当一部分处于闲置状态,这种现象被称为“暗光纤(Dark Fiber)”。Lumen 是美国主要的暗光纤供应商之一,此外还有 Zayo、AT&T 和 Crown Castle。
企业电信业务正面临诸多挑战。一方面,由于互联网价格的下降,许多企业选择将流量迁移到互联网,从而减少了对 MPLS(多协议标签交换,一种为远程办公室提供数据连接的关键企业级服务)的需求。这一变化导致了价格压力的加大及容量资源的不足。同时,超大规模计算企业的兴起使得电信容量的需求集中于少数大型云计算公司,这些企业倾向于自建电信网络。这一趋势导致了大量光纤资源处于闲置状态,尽管这些光纤能够支持更多波长,但目前仍使用较旧的调制方案和较慢的数据速率。未来,若客户需求大幅增加(例如由于大模型训练需求的激增),将为容量升级提供显著的机会。
维护如此庞大的基础设施需要巨额的资本支出。与许多同行公司类似,Lumen 也面临着现金流问题和沉重的债务负担。目前,公司负债接近 200 亿美元,并且几乎未能产生自由现金流。同时,公司收入增长趋势趋于平稳或出现下降。
多园区大模型训练的兴起显著改变了当前局面,带来了巨大的带宽需求。其中,微软已成为一笔价值 50 亿美元交易的主要客户,此外,另有价值 70 亿美元的交易正在洽谈中。
像 Lumen 这样的公司能够完成如此规模的交易(其中包括可能高达 70 亿美元的交易),是因为他们拥有广泛的未使用光纤网络。这些闲置容量和现有线路使超大型企业能够以经济高效的方式构建大规模、高带宽的网络。更为重要的是,这些基础设施可以显著缩短原本需要数年时间才能完成的项目部署周期,特别是在需要开挖临时隧道的情况下。
对于 Lumen 来说,50 亿美元交易的经济效益包括:
- 该商业架构采用了光纤行业的标准协议,即不可取消使用权(IRU),这种协议实际上类似于资本化租赁。这类协议通常具有 20 年的期限。
- 该交易价值中,85% 至 90% 用于基础设施建设,其余部分则用于运营、维护、电力供应及托管服务。
- Lumen 预计该交易的现金利润率为 30% 至 35%,因此,税前利润预计将达到约 15 亿美元。
- 合同的大部分基础设施费用将在前 3 至 4 年内以现金预付款的形式支付。剩余部分将根据合同规定的里程碑进度逐步支付,并在合同期内按年度进行结算。
尽管与该交易相关的 CAPEX(资本支出)和 OPEX(运营支出)有所增加,导致了 EBITDA 出现下降,但该交易仍使Lumen显著上调了其年度自由现金流的预测。

这可能只是一个开端。预计明年电信行业将实现显著增长,而这家传统电信公司显然正在推动其收入的大幅提升。光纤公司已经开始关注这一机遇,但我们认为实际影响可能超出投资者和行业内公司的预期。考虑到整个交换机、路由器和广域网市场的规模为 750 亿美元,一个公司的 50 亿至 100 亿美元的新增投资有可能引发显著的市场变化。

我们相信,专门用于多个数据中心建设的电信资本支出将超过 100 亿美元。这些支出属于额外投资。同时,电信市场正处于周期性低谷,这为即将到来的周期性反弹提供了新的增长动力。
PART 10:受益公司
除了康宁和 Lumen 外,Fabrinet 在数据中心互连产品方面也表现出色,特别是在其 400ZR 产品线。根据截至 2024 年 6 月的财年第四季度数据,该产品线的收入占光通信收入的 10%。Fabrinet 的电信业务远不止于 400ZR,在 2024 财年第 4 季度,其电信业务占总收入的近 40%。该公司还拥有强大的数据通信收发器产品组合,包括为 Nvidia 生产的 800G 收发器,用于连接计算架构和后端网络中的 GPU。
ZR 光学设备的持续增长是该公司预计下季度电信业务增长的关键原因。随着时间的推移,Fabrinet 有望从 ZR 光学业务收入占比由目前的 10% 增长到 20% 以上中受益。Fabrinet 是唯一一家专注于光学系统和组件的合同制造商,被誉为光学行业的“台积电”,主要凭借其高产量和极强的竞争力而获益。
思科是 Fabrinet 仅次于 Nvidia 的第二大客户,占 2024 财年销售额的 13%。与其他电信客户一起,思科为 Fabrinet 的电信业务带来了巨大的增长动力。此外,Fabrinet 还刚刚获得了 Ciena 的供应商资格,这意味着 Ciena 明年的销量可能会大幅增长。过去,Lumentum 和 Infinera 在 Fabrinet 客户中的占比也曾超过 10%,这两家公司的扭亏为盈也将有助于推动电信业务收入的增长。
Lumentum 是另一家涉足电信领域的公司,该公司的营收预计将实现环比显著增长,这主要得益于对 ZR/ZR+ 光学元件、ROADM 以及 C+L 频段相关产品的强劲需求。
与 Lumentum 相比,Coherent 对未来的展望较为谨慎,预计电信市场在短期内仍将疲软,尽管其 400ZR + 收发器业务表现突出。Coherent 面临电信设备库存问题,导致其电信收入在环比上下降 6%,同比下降 38%。然而,其前瞻性指导暗示电信市场可能接近底部。作为 Finisar 的继承公司,Coherent 拥有深厚的行业背景,但由于整合了多种非光学业务,其电信业务在总收入中的占比已显著下降,我们估计在截至 2024 年 6 月的财年下半年,电信收入仅占总收入的 13%。相比之下,我们认为 Lumentum 在业务组合和资本结构上优于 Coherent。另一方面,如果 Coherent 能够在数据通信领域实现持续增长,并在电信领域取得进展,其债务水平可能会提升股本回报。
Ciena 和 Cisco 都是电信行业的重要企业,生产包括线路卡、收发器、路由器、复用 / 解复用器和 ROADM 在内的各种传统电信设备。Cisco 的产品组合更为多元化,而 Ciena 则主要专注于电信设备的制造。Infinera 同样活跃于电信领域,但不久将被诺基亚收购。
在我们看来,Ciena 在电信 OEM 厂商中拥有最高的曝光度,因为他们更专注于电信网络硬件。Ciena 一直在积极争取云计算客户的支持,现在他们已经开始看到明年建设的巨额订单,并在 2024 财年第二季度的财报电话会议上特别提到这些订单与 AI 流量需求直接相关。虽然该公司的主营业务是传统电信网络设备(如转发器、ROADM 等),而非数据中心互联,但该公司强调已赢得了 18 个 400ZR + 和 800ZR + 的战略性订单。鉴于 Ciena 的业务主要集中在城域网和长途网络领域,因此 ZR 光学器件对 Ciena 来说是一个额外的市场机会。我们相信,他们在城域网、长途网络等细分市场中都占据着非常有利的地位,而旨在促进 AI 培训的电信网络将具有更高的链路密度。Ciena 在内容和数量的增长上都有很大的潜力,而且在所有电信 OEM 厂商中,他们在各类 AI 电信网络建设方面的曝光度最高。
在截至 2024 年 7 月的财年下半年,Cisco 的超大规模客户收入实现了两位数的增长,成功弥补了服务提供商(即电信运营商)需求疲软的影响。公司已获得 10 亿美元的 AI 订单,主要集中在以太网和光学相关产品,并预计在 2025 财年将再获 10 亿美元的 AI 相关订单。虽然在过去一个季度中 Cisco 并未详细提及 ZR 光学或数据中心互连,但自 2021 年收购 Acacia 以来,Cisco 的市场地位在 Coherent DSP 和 ZR 光学等产品领域得到了加强,按理应有所涉及。然而,最近几次财报电话会议中,他们几乎没有提到与 ZR 光学相关的机会。由于 Cisco 的年收入规模庞大,达到 538 亿美元,因此 AI 数据中心互连需求激增对其整体收入的贡献相较于其他电信 OEM 或组件 / 系统供应商而言可能较为有限。
最后要提到的是 Marvell。通过收购 Inphi,Marvell 在 PAM4 DSP 领域取得了显著的市场优势,并扩展了其相干 DSP 产品线,涵盖了 Deneb、Orion 和 Canopus 等产品。
与 PAM4 相比,相干 DSP 在 Inphi/Marvell 的业务中历来占比较小,可能只占总收入的一小部分,但这一状况正在发生变化。Marvell 的 ZR 光学业务不仅依赖其相干 DSP 产品组合,还包括其 COLORZ、COLORZ 400ZR/ZR +和COLORZ 800ZR/ZR + 等数据中心互连收发器。即便与规模更大的 PAM4 业务相比,ZR 业务也在快速扩展,并逐渐成为业务中的重要部分。ZR 收发器的平均销售价格显著高于 IMDD 收发器,并且随着市场需求的增加,ZR 收发器的销量预计将继续大幅增长。
Marvell 在该产品上具有更强的竞争优势,为 COLORZ 系列制定了详细的市场策略,并成功赢得了一位主要超大规模客户的重要订单,多年来持续向该客户大量出货,这一销售趋势仍在显著增长。此外,Marvell 还为该产品拓展了多个新客户。这一成功将远超任何潜在的短期租约问题,Marvell 在这一领域实现了高利润率的收入增长。

以上内容翻译自《Multi-Datacenter Training: OpenAI’s Ambitious Plan To Beat Google’s Infrastructure》,如需原文,请与我们联系。
WF Research 是以第一性原理为基础的专业顾问服务机构,欢迎关注和留言!
微信:Alexqjl