数据中心存储与无损以太网
HPE Aruba Networking 数据中心支持数据中心桥接(DCB)协议,创建无损以太网结构,以支持存储区域网络、大数据分析和人工智能(AI)应用。
目录
以太网存储挑战
传统的 IEEE 802.3 以太网依赖于更高层协议,例如 TCP,以实现可靠数据传输策略。在以太网网络上传输的数据可能在源主机和目标主机之间丢失,这会对对数据丢失敏感的应用造成性能损失。
存储性能对数据包丢失尤为敏感。TCP 可以通过对数据段进行排序和在发生丢失时进行重传,保证传输层的数据交付,但为了存储进行 TCP 重传会显著降低依赖该存储的应用的性能。
存储技术的进步,例如 SSD 闪存和非易失性存储器表达(NVMe)协议,促进了超越传统存储网络协议(如光纤通道)的读写存储性能。存储区域网络(SAN)中的性能瓶颈已从存储介质转移到网络。
远程直接内存访问(RDMA)被开发用于通过专有的 InfiniBand(IB)存储网络在两个网络主机之间提供高性能存储通信。IB 保证介质访问且无数据包丢失,并且需要专用的主机总线适配器(HBA)进行通信。IB HBA 使用专用硬件直接接收和写入数据到主机内存,绕过传统协议的解封装和主机的主要 CPU。这降低了延迟,提升了性能,并释放 CPU 周期用于其他应用进程。
如果可靠性问题得到解决,Ethernet 解决方案提供高速网络接口,成为存储通信的有吸引力的选择。融合以太网(RoCE)是由 InfiniBand 贸易协会(IBTA)开发的协议,用于在低成本以太网网络上扩展 RDMA 的可靠性和增强性能。融合网络适配器(CNA)执行将接收的数据直接写入内存的任务,并使以太网成为底层通信协议。通过修改以太网主机和交换机的行为,创建支持 RoCE 的无丢失数据通信路径。
RoCE 版本 1(RoCEv1)将 IB 第 3 层地址封装和 RDMA 数据直接封装到以太网帧中。以太网取代 RDMA 第 1 和第 2 层功能,并指定一个唯一的 EtherType 值以指示 RDMA 作为以太网载荷。
RoCE 版本 2(RoCEv2)用 IP 替代 IB 第 3 层地址。它将 IB 第 4 层和 RDMA 数据封装到 UDP 头中。这一策略使 RoCEv2 可以在 IPv4 和 IPv6 网络上进行路由。RoCEv2 是最常见的 RoCE 实现。
CX 交换机实现的无丢失以太网优化提升了数据中心在使用 RoCE 和非 RoCE 协议(如标准 iSCSI)应用中的性能。除了存储通信外,RoCE 还提升了数据库操作、大数据分析和生成式 AI 的性能。
非易失性存储器表达(NVMe)是一种设备内数据传输协议,利用多通道数据路径和 PCIe 提供的直接通信,将大量数据以高速低延迟传输。NVMe 专为固态硬盘(SSD)设计,旨在取代已有数十年的串行高级技术附件(SATA)协议。NVMe over Fabrics(NVMe-oF)将 NVMe 扩展到网络主机之间。NVMe-oF 支持多种协议,包括 RoCE。
在以太网上运行 RDMA 的主要挑战是克服链路拥塞问题,这是现代以太网网络中丢包的最常见原因。链路拥塞发生在交换机上接收帧的速度快于出端口的传输速度时。链路拥塞的两个常见原因是:第一,交换机的接收和传输端口速度不同,因此高速端口可以比低速端口更快地接收数据;第二,交换机在多个接口上接收大量帧,目的都是同一出端接口。在这两种情况下,交换机可以将多余的帧排队存储在内存缓冲区中,直到出端口能够传输它们。如果缓冲区满了,额外的入站帧将被丢弃,只要缓冲区保持满状态。这会导致 TCP 重传和应用性能下降。
构建可靠的以太网
可以通过连接一组连续的交换机和主机,采用一套策略来防止特定应用的帧丢失,从而创建无丢失的以太网 fabric。
三种主要的服务质量(QoS)策略管理对缓冲区内存和交换机端口带宽的竞争需求:为应用专用的交换机缓冲区、流控,以及为应用提供的保证介质访问。结合这三种策略,可以实现用于存储和其他应用的无丢失以太网 fabric。
下表显示了 HPE Aruba Networking CX 数据中心交换机支持的关键 DCB 协议。
数据中心桥接组件 | 描述 |
---|---|
PFC:基于优先级的流量控制 | 通过防止缓冲区耗尽,建立不会丢弃数据包的队列。 |
ETS:增强型传输选择 | 定义流量类别的带宽预留,以便无损和有损流量可以在同一链路上共存。 |
DCBx:数据中心桥接交换协议 | 使用链路层发现协议(LLDP)在链路上的设备之间交换PFC和ETS信息,以简化配置。 |
除了上述协议外,CX交换机还支持IP显式拥塞通知(ECN)。IP ECN是一种第3层流量控制方法,允许通信路径中的任何交换机通知流量接收端存在拥塞。在接收到拥塞通知后,接收端会向流量源发送直接的基于IP的拥塞通知,以减缓其数据传输速率。
RoCE的增强版本产生了两个不同的版本。RoCEv1依赖于上表中的基础DCB协议,不支持在路由IP网络上运行。RoCEv2支持RoCE流量的IP路由,包含IP ECN支持,并且是最常被提及的“RoCE”协议版本。
优先级流量控制
以太网暂停帧在IEEE 802.3x规范中引入了链路层流量控制(LLFC),用于以太网网络。当必要时,流量接收端可以请求直接连接的流量源暂停传输一段短时间,以便处理排队的帧,避免缓冲区耗尽。流量源可以在请求的暂停期结束后恢复传输帧。接收端还可以通知源暂停不再需要,从而使源在原定暂停期之前恢复传输。
优先级流量控制(PFC)与服务质量(QoS)队列协同工作,以增强以太网暂停帧功能。PFC可以通过将应用程序与优先级值关联,实现按应用程序暂停流量。当PFC暂停与某个优先级值相关联的流量时,分配给其他优先级的流量不受影响,仍可继续传输。
在链路上,CX交换机和连接设备都必须在本地为应用流量分配优先级,并向链路上的对端指示该优先级。流量优先级可以通过802.1p优先码点(PCP)值或差异服务代码点(DSCP)值进行信令。
PCP优先级标记
IEEE 802.1Qbb标准在802.1Q头中使用802.1p PCP值为应用流量分配优先级。三位的PCP字段允许八个服务类别(CoS)优先级值(0-7)。基于PCP的PFC需要使用带VLAN标签的干线链路,在帧中添加802.1Q头。
下图展示了用于在以太网帧的802.1Q头中指定802.1p CoS优先级的PCP位。
默认情况下,CoS优先级与交换机用于排队的本地优先级一一映射。
DSCP优先级标记
两个数据中心主机之间的无损行为要求路径中的所有主机和交换机都具有一致的PFC配置。如果数据路径中存在仅路由接口,可以通过在IP头中使用DSCP位指定优先级来保持应用优先级。DSCP位还可以用于在802.1Q标签和未标签的交换机接入端口上标记应用流量优先级。
下图展示了IP头中的传统服务类型(ToS)字段中的DSCP位。
六位的DSCP字段允许64个DiffServ优先级值。默认情况下,DiffServ值以每八个一组的顺序映射到八个本地优先级值。
CX交换机支持混合使用CoS和DSCP优先级值,允许每个接口指定信任的QoS标记方法。当不同交换机端口上存在多种策略时,流量可能需要在第2层CoS优先级值和第3层DSCP值之间重新标记。
为应对路由骨干-叶子架构和VXLAN叠加的增长,越来越多的主机和存储设备支持基于DSCP的优先级标记。这实现了在路由域内一致的QoS标记,无需在网络交换机上在第2层CoS值和第3层DSCP值之间进行转换。
除了CoS和DSCP值外,CX交换机还可以对入口流量应用分类策略,根据包头字段值分配优先级(PCP、DSCP和本地优先级)。
当帧被封装用于VXLAN传输时,封装流量的QoS DSCP优先级在外层VXLAN包的IP头中得到尊重,以确保正确的排队。
PFC操作
CX数据中心交换机支持专用的共享QoS缓冲池,用于无损流量。CX 8325、10000和9300型号支持最多三个无损缓冲池。通常,存储流量只定义一个无损队列。每个无损缓冲池都分配有大小、预留容量和相关的本地优先级值。分配给无损缓冲池的缓冲区从设备的总可用缓冲内存中分配,默认分配给单一的有损缓冲池。CX 8100和8360支持为较小数据中心配置单一、固定的无损缓冲池。
接收的帧根据PCP和DSCP值到本地优先级值的映射被分配一个本地优先级。当帧的本地优先级值与无损队列相关联时,它会被放入特殊的无损缓冲池。当端口的共享无损缓冲池分配接近耗尽时,为避免丢包,会通知直接连接的发送端在短时间内停止传输具有该队列相关优先级值的帧。预留空间池存储在暂停传输请求后到达接口的包,属于相关优先级。
CX 8325、9300、10000、8360和8100支持PFC,但在CX 10000上,带有无损队列相关QoS优先级的流量不会被送往Pensando分布式处理单元(DPU)进行策略执行或增强监控。
下图展示了具有两个队列(使用CoS优先级值定义)的一端到端排队关系。所有优先级都映射到默认的有损队列或单一的无损队列。在CX平台上使用两个队列可以提供最佳的队列深度和突发吸收能力。
PFC暂停通知会短暂停止与特定应用相关的传输,依据其关联的优先级队列编号。
存储是无损以太网最常见的应用场景。将上述图示应用于存储场景,所有存储流量都被分配一个PCP值4,映射到本地优先级4。当存储流量在CX交换机上接收时,会被放入专用的存储无损QoS队列。分配给有损队列的流量不会影响存储无损流量的缓冲区可用性。当CX交换机上的存储无损队列接近耗尽阈值时,会发送暂停帧通知发送端仅暂停存储流量。来自发送端的所有其他流量仍会被转发,并在缓冲区可用时放入CX交换机的共享有损队列中。
链路层流量控制(LLFC)
PFC 是首选的流控策略,但它要求数据中心的主机支持适当标记流量优先级。PFC 内置于专用的 HBAs 中,并且是符合 RoCE 规范的必要条件。
LLFC 通过与其他 QoS 组件(用于优先级、排队和传输)结合实现,可以启用无损以太网。许多虚拟和物理存储设备不支持 PFC 或其他 DCB 协议,但 LLFC 在大多数标准以太网网卡(NIC)上得到广泛支持。实现 LLFC 将无损数据传输的优势扩展到不支持 PFC 的主机以及非 RoCE 协议。
在使用 LLFC 的交换机端口接收的所有流量都被视为无损。建议尽量减少从连接到使用 LLFC 链路的主机发送有损流量。
当 CX 交换机向连接设备发送 LLFC 暂停帧时,它会暂停来自该源的所有流量,而不是针对单个目标应用程序。暂停传输为交换机提供时间以传输其无损队列中的帧,并防止帧丢失。
应用流量优先级通常不会从受限于链路层流控的源端信号。在用以标记流量优先级的替代方案中,在 CX 入口端口实现分类策略,以通过匹配定义的 TCP/IP 特性识别应放入无损队列的应用流量。当接口也信任 DSCP 或 CoS 优先级值时,受信任的 QoS 标记将被尊重,并优先于自定义策略的优先级。
增强传输选择(ETS)
ETS 将链路上可用的传输时间的一部分分配给使用其关联优先级队列编号的应用。这有助于确保缓冲区的可用性,通过保证应用流量具有足够的带宽来传输排队的帧。这种行为减少了拥塞和帧丢失的可能性。
带宽的分配在不同的流量类别之间进行划分。CX 交换机使用 QoS 调度配置文件实现 ETS,其中本地定义的队列被视为一种流量类别。通过将流量与本地优先级值关联,将流量映射到本地优先级。可以根据 DSCP 优先级、CoS 优先级或 TCP/IP 特性,使用分类策略将流量映射到本地优先级。
CX 8325、10000 和 9300 交换机采用亏欠加权轮询(DWRR)策略,通过对调度配置文件中的每个队列应用权重,计算队列的带宽分配。以下示例显示了与一组权重相关联的队列的带宽百分比。
队列编号 | 权重 | 保证带宽 |
---|---|---|
队列 0(有损) | 8 | 40% |
队列 1(无损) | 10 | 50% |
队列 2(无损) | 2 | 10% |
在上述示例中,存储流量可以分配到队列 1,从而保证存储流量有能力消耗最多 50% 的链路带宽。当某一类流量未完全使用其分配的带宽时,允许其他类别使用。这使得链路能够以满载运行,同时为每个流量类别提供保证的分配。当链路饱和时,每个类别只能消耗根据其分配的权重分配的带宽.
可以定义多个调度配置文件,但单个端口被分配一个配置文件,以管理其传输调度.
下图展示了在交换机上到达的流量被放入队列,以及每个队列在出端口上的预留带宽。当出端口饱和且每个流量类别的入口速率达到或超过在出端口上配置的预留带宽时,将执行调度强制.
当出端口未超额订阅时,其传输速率可能不同。某一类别未使用的带宽分配可以被另一类别使用。例如,如果端口以其容量的 75% 进行传输,其中 60% 来自队列 0,20% 来自队列 1,5% 来自队列 2,交换机无需强制执行调度算法。队列 0 中的有损流量被允许消耗分配给其他流量类别的未使用容量,并以高于调度规定的速率进行传输.
数据中心桥接交换(DCBx)
支持 DCBx 的主机会动态设置由 CX 交换机广告的 PFC 和 ETS 值。这确保了数据中心主机与连接的交换机之间配置的一致性。DCBx 还通知计算和存储主机应用流量到优先级的映射关系,确保需要无损排队的流量被正确标记。在连接的主机上配置无损以太网变得即插即用,无需手动配置 PFC、ETS 和应用优先级映射,减轻了管理负担.
DCBx 是一种链路层通信协议,使用链路层发现协议(LLDP)共享设置。PFC、ETS 和应用优先级设置通过特定的 LLDP 类型-长度-值(TLV)数据记录由交换机广告。CX 交换机在所有 TLV 中设置 willing bit 为 0,表示其不愿意更改配置以匹配对端的配置。CX 交换机支持 IEEE 和融合增强以太网(CEE)版本的 DCBx.
IP 显式拥塞通知(ECN)
IP ECN 是一种流量控制机制,当路径中的网络交换机或路由器检测到拥塞时,减少主机之间的流量传输速率。IP ECN 可在多个网络设备隔离的主机之间以及在不同路由段上使用。它是 RoCEv2 兼容性的必需条件.
支持 IP ECN 的主机会在 IP 头中设置两个保留的服务类型(ToS)位中的一个为 1。当通信路径中的交换机或路由器遇到拥塞时,会将剩余的零 ECN 位设置为 1,通知流量接收端路径中存在拥塞.
当流量接收端被通知到拥塞时,会通过发送 IP 单播消息向源端发出信号。源端会在短时间内降低其数据传输速率.
IP ECN 在大多数情况下可以平滑流量,减少对 PFC 触发完全暂停的需求,除非作为应对微突发的快速机制。
IP ECN 还可以用于改善非 RoCE 协议(如 iSCSI)的性能。
面向 AI 的数据中心网络
引言
人工智能(AI)已经彻底改变了各行各业,推动了应用的指数级增长。然而,AI 负载对高性能计算、低延迟网络和可扩展存储提出了更高的要求。为满足这些需求,设计并构建了基于全面框架的 AI 支持网络的 AI 优化数据中心网络。
传统的数据中心技术难以满足 AI 负载的需求,迫切需要在计算、存储和网络方面采用前沿解决方案。专业的 AI 数据中心需要定制后端训练和前端推理的 fabric 设计。虽然图形处理单元(GPU)和 InfiniBand 网络已成为关键技术,但 InfiniBand 的单一供应源和专有性质导致成本上升。作为应对,企业正采用以太网作为一种具有成本效益的开源网络替代方案,用于 AI 数据中心,优化 GPU 性能同时降低成本。
为了加快 AI 的普及,数据中心网络在优化 GPU 互连性和性能方面发挥着关键作用。缩短作业完成时间(JCT)对于实现更快的速度和节省成本至关重要。此外,快速响应市场需求对于成功部署 AI 也至关重要。为此,行业正向以以太网为基础的开放、竞争市场转变,推动 GPU 多样性和广泛部署的第二层技术——以太网的发展。这一转变有望减少对单一供应商解决方案的依赖,促进灵活性、可扩展性和成本效益。
生成式 AI 的数据中心网络
生成式 AI(GenAI)的发展使 AI 和机器学习(ML)成为企业业务工具的新组成部分。数据中心是 AI 的引擎,而数据中心网络在连接和最大化昂贵 GPU 服务器的利用率方面发挥着关键作用。
生成式 AI 训练(以作业完成时间(JCT)衡量)是一个大规模并行处理问题。需要高速可靠的网络 fabric 以充分发挥 GPU 的性能。正确的网络和设计是优化投资回报率(ROI)和最大化 AI 应用节省的关键。
用于生成式 AI 负载的典型 AI 优化数据中心网络包括:
- 计算节点: 配备 AI 优化处理器(如 GPU、TPU)的高性能服务器
- 存储: 具有低延迟访问的高容量存储(例如,NVMe、SSD)
- 网络: 高密度、低延迟的交换机和AI优化的网络协议
- 软件: AI 框架(例如 TensorFlow、PyTorch)和网络管理工具
生成式 AI 最佳实践架构
AI 最佳实践架构包括前端、后端和存储 fabric。这些 fabric 具有共生关系,并在此架构中的训练和推理任务中提供独特的功能。
前端网络
生成式 AI 的前端网络在确保 AI 和机器学习(ML)工作负载的高性能、低延迟连接方面起着关键作用。设计考虑包括利用高速以太网交换机,如 100GbE 或 400GbE,来互连 AI 服务器和存储。此外,实施 EVPN-VXLAN 可实现高效的流量管理和扩展性。HPE Aruba Networking CX 系列交换机,结合 HPE Central 和 AFC 管理工具,提供了一个强大且自动化的解决方案。通过采用这些最佳实践,组织可以构建一个针对 AI 工作负载优化的高性能前端网络。
存储网络
高性能存储fabric对于人工智能(AI)和机器学习(ML)工作负载至关重要,要求低延迟和高带宽的连接。HPE存储fabric解决方案采用CX系列交换机,支持100GbE或200GbE连接到存储阵列。在融合以太网fabric解决方案上使用RoCEv2、NVME等协议,为存储流量提供无损传输。
GPU集群
GPU集群,也称为GPU fabric,提供了处理大量数据集和复杂神经网络所需的海量并行计算能力,快速加速训练时间,并实现对新数据的快速高效推理。GPU设计配备了数千个核心,能够同时执行计算,非常适合训练大型生成式人工智能模型所需的并行处理。借助GPU的并行处理能力,训练复杂的生成式人工智能大型语言模型(LLM)所需的时间显著缩短。GPU集群可以通过增加更多GPU节点进行扩展,以应对更大、更复杂的数据集,满足需求。
后端网络
后端网络是连接GPU集群的专业网络,用于分布式大型语言模型(LLM)训练,实现高带宽数据传输和高效的并行计算。这需要高性能的Rail-Optimized或Rail-Only架构网络,具有低延迟、稳健的设计、工作负载与fabric之间无链路超载,以及无损以太网数据中心fabric。
HPE CX系列交换机(100/200/400GbE)满足高带宽和低延迟的需求。诸如全球负载均衡(GLB,用于端到端负载均衡)等AI优化网络协议,能够高效管理AI工作负载中固有的大流量。网络自动化简化管理和配置,适应动态AI工作负载。此外,强大的安全措施保障AI系统和数据的安全,防范漏洞和威胁。
GPU服务器与互连概述
GPU服务器利用内部高带宽PCIe交换机实现高效互连,促进关键组件之间的通信:CPU到GPU、GPU到网络接口卡(NIC)、以及NIC到NIC的双向通信。如GPU服务器架构示意图所示,这些服务器采用超高带宽的NIC适配器(100/200/400/800G)进行网络连接和扩展大量GPU。这一架构专为满足训练大型语言模型(LLMs)的苛刻需求而设计。
NVIDIA NVSwitch是一款高速交换芯片(>900GB/s),通过NVLink接口连接多个GPU。它增强了服务器内部的通信和带宽,同时降低了计算密集型工作负载的延迟。
用于生成式人工智能训练的后端GPU fabric
后端数据中心fabric由多个GPU连接组成集群,实现分布式训练和模型并行。分布式训练将训练过程分散到多个GPU,而模型并行则将模型划分为较小部分,由不同GPU处理。诸如NCCL(NVIDIA集体通信库)和MPI(消息传递接口)等通信协议,促进GPU之间的高效通信。
LLM训练涉及海量数据集和复杂模型,需数千个GPU服务器节点高效处理。高性能网络(100/200/400GbE)确保可扩展且快速的数据传输。节点间的实时通信对于并行处理至关重要。低延迟(<100微秒)实现更快的迭代和收敛。LLM训练计算密集且耗时。冗余和故障转移机制保证不中断处理。服务质量(QoS)确保关键任务获得足够带宽,优化整体性能。
包丢失和拥塞会严重影响大型语言模型(LLM)训练,降低吞吐量,增加延迟,影响模型准确性,导致高作业完成时间(JCT)。可靠的网络应保证最小化包丢失和拥塞,确保及时准确的结果。
RoCEv2协议旨在提供一种低成本的以太网替代方案,替代InfiniBand网络。它利用远程直接内存访问(RDMA)技术,绕过CPU开销,降低延迟并提高吞吐量。如图所示,该协议通过使GPU直接访问其内存,提升数据传输性能。RoCEv2使用PFC和ECN协议,在数据中心实现无损行为。
后端GPU fabric还支持在网络链路上部署全球负载均衡技术,营造无拥塞环境,降低延迟,并支持GPU消息交换通信中典型的低熵大流量。这种低熵大流量需要比企业数据中心网络中常用的ECMP更优的负载均衡方案。现有方案在交换机硬件芯片中实现,能以最高效率运行。软件驱动方案对于中小型LLM训练同样有效。
在设计后端fabric时,首要目标是实现无损架构,最大化吞吐量,最小化延迟和网络干扰,以支持AI流量。为此,有多种设计架构,包括3阶段CLOS、NVIDIA的Rail-Optimized架构和Rail-Only架构。这些架构利用叶子交换机、脊柱交换机和超脊柱交换机。值得注意的是,Rail-Only架构通过仅使用叶子交换机简化设计,构建后端fabric。
Rail-Optimized后端GPU fabric
该架构由叶子-脊柱网络交换机组成,如图所示。GPU服务器按照Rail-Optimized技术连接到叶子/脊柱交换机。Rail-Optimized架构是一种将数据中心基础设施组织成逻辑Rail或路径的设计方法,确保高效的数据流。下图显示了一个包含8台GPU服务器(每台8个GPU)的组。全Rail条带根据叶子交换机端口数,填充尽可能多的GPU,以创建优化的GPU到GPU通信路径。
每个(NVIDIA DXG H100)GPU服务器的第一个GPU将连接到leaf1交换机,第二个GPU连接到leaf2,以此类推。这有助于通过仅使用叶子交换机优化GPU服务器之间的RDMA消息流,当通信发生在这8台GPU服务器内时。只有当消息需要跨越到下一个逻辑Rail的GPU服务器时,脊柱交换机才会使用。下图显示了两个逻辑Rail的GPU服务器的完整布局。
这两种架构的叶子和脊柱交换机都配备了64个400GbE端口。采用1:1订阅方式,32个400GbE端口连接到脊柱,另外32个连接到32台GPU服务器。脊柱使用32个400GbE端口连接每个Rail条带。
fabric实现了无损以太网传输,采用RoCEv2、PFC和ECN协议,确保不丢包。它在网络链路上部署全球负载均衡技术,营造无拥塞环境,降低延迟,并支持GPU通信中典型的大流量。这种低熵大流量需要比企业数据中心网络中常用的ECMP更优的负载均衡方案。
Rail-Only 架构
该架构与Rail-Optimized架构有显著不同,省略了脊柱节点,仅使用叶子节点连接GPU服务器。如图所示,该设计采用八个64x400GbE交换机,支持最多64台GPU服务器。若要扩展GPU容量,需要更高端端口密度的交换机,但此架构在大规模GPU集群中扩展性有限。不过,Rail仅架构适合规模较小、训练LLM较小的企业,能在此框架内良好运行。
该fabric采用RoCEv2、PFC和ECN协议实现无损以太网传输。它在网络链路上部署全球负载均衡技术,营造无拥塞环境,降低延迟,并支持GPU通信中典型的大流量。这种低熵大流量需要比企业数据中心网络中常用的ECMP更优的负载均衡方案。
Rail仅网络架构通过省略脊柱交换机,显著降低成本。与Rail-Optimized架构相比,该设计资本支出(CapEx)降低约50-75%。
验证标准
- 吞吐量:每端口最低100GbE吞吐量
- 延迟:用于实时 AI 应用的延迟小于 10 µs
- 可扩展性:支持1000个以上的AI节点或适用
- 安全性:符合行业标准的安全协议
结论
在为后端训练网络探索的各种设计方案中,基于铁路的架构和仅铁路架构因其成本效益和性能平衡而脱颖而出。对于生成式人工智能(GenAI)训练后端数据中心的fabric,硬件方案提供了最佳性能,但成本较高。软件驱动的方法在功能和部署成本之间提供了更有效的平衡。
寻求紧凑部署 footprint 的中小企业(SMEs)可以利用仅铁路架构,在合理的时间内实现高效训练。与基于铁路的架构相比,这种方法可以将资本支出(CapEx)降低约50%,主要通过消除 spine 交换机的成本实现。
HPE Aruba Networking 提供了全面的产品组合,包括 100/200/400GbE CX 系列交换机,配备 AOS-CX 网络操作系统。这一组合提供了稳健的无损解决方案,支持高效数据中心连接所需的基本协议和特性。
释放您的人工智能项目的全部潜力,采用我们专家设计的网络架构,优化高性能、可扩展性和安全性。最大化吞吐量,最小化延迟,轻松扩展,并通过强大的安全措施保护您的数据。这一变革性解决方案赋能企业实现更快的人工智能应用洞察、增强的协作与生产力,以及面向未来的基础设施,为您赢得成功所需的竞争优势。
存储定位
数据中心中的存储通常以存储区域网络(SAN)、超融合基础设施(HCI)的一部分或作为解耦的超融合基础设施(dHCI)部署。
SAN 由一个或多个专用存储设备组成,通过网络连接到服务器。可以使用基于存储协议(如 FibreChannel)的专有网络连接服务器与存储。然而,基于 IP 的解决方案通过以太网网络提供高带宽、低成本的选择,且采用率不断提高。常见的基于 IP 的 SAN 协议包括 iSCSI 和 RoCE。
HCI 将现成的 x86 基础设施的存储和计算能力解耦,提供类似云的资源管理体验。每个 HCI 环境中的 x86 主机同时提供分布式存储和计算服务。HCI 集群成员上的本地存储可以被其他成员使用。这提供了一个简单的扩展模型,增加一个 x86 节点即可为集群增加存储和计算能力。
HPE SimpliVity dHCI 解决方案将计算和存储资源划分为不同的物理主机桶,以实现单一资源的灵活扩展。在传统的 HCI 模型中,增加 x86 节点时,存储和计算必须同时增加。如果只需要增加其中一个资源,成本可能会很高。例如,如果需要更多计算能力,而存储已充分配置,仍会向集群中添加大量存储。dHCI 支持单独扩展计算和存储,同时使用 x86 硬件提供两者的服务。
以上所有存储模型在使用无损以太网时都能提升性能。
并行存储网络
传统上,存储网络与数据网络并行部署,使用专有网络硬件和协议以支持 FibreChannel 和 InfiniBand 等存储协议的可靠性需求。基于 TCP/IP 的存储模型推动了向低成本以太网基础设施的迁移,使用一套并行的存储以太网交换机成为避免存储与数据主机争夺网络带宽的常用方法。
在通过以太网实现专用存储网络时,仍可能发生拥塞导致帧丢失,因此建议部署完整的 Layer 2 DCB 协议(DCBx、PFS 和 ETS),以最大化存储网络性能。
下图展示了在数据网络旁部署的专用以太网存储网络。即使使用专用存储网络,也建议采用无损以太网协议。
汇聚数据/存储网络
高速架顶(ToR)交换机,具有高端口密度,促进存储与数据网络在同一物理以太网交换机基础设施上的融合。组织可以通过投资单一网络,最大化其预算资源,以同时满足数据和存储需求。
汇聚存储与数据网络需要排队和传输优先级,以确保网络资源合理分配,从而实现高速存储性能。IP ECN 提供额外的流量控制选项,以平滑流量并提升性能。DCBx 有助于自动化 PFC 和 ETS 主机配置。
下图展示了实现两层数据中心模型中无损以太网的协议和定位。
Spine 和 Leaf 网络架构支持线性扩展,减少过载和网络资源竞争。这通过增加 spine 交换机以提升东西向(east-west)网络容量实现。Spine 和 Leaf 网络在数据中心机架之间使用 Layer 3 协议,这需要将 802.1p 优先级映射到 DSCP 值,以确保在整个网络基础设施中对流量的 QoS 优先级保持一致。
iSCSI
iSCSI 是最常用的通用 SAN 解决方案之一。标准 iSCSI 基于 TCP,支持路由 IP 连接,但发起端和目标端通常部署在同一 Layer 2 网络上。无损以太网不是 iSCSI 的必需条件,但可以提升整体性能。许多使用 10 Gbps 或更快网络卡的 iSCSI 存储阵列支持 PFC 和 ETS。
当不支持 PFC 时,可以使用 LLFC 实现无损以太网 fabric。可以部署独立的交换基础设施,以避免存储和计算流量之间的竞争,但无损以太网支持部署单一的汇聚网络,从而降低资本和运营支出。
下图展示了汇聚数据和 iSCSI 存储网络的组成部分。
高可用性
使用无损以太网的应用通常对组织的运营至关重要。为了保持应用的可用性和业务连续性,从机架顶部(ToR)交换机提供的冗余链路可以在链路故障时为连接的主机提供持续的连接。采用提供冗余通信路径和足够带宽的数据中心网络设计,以支持应用。Data Center Connectivity Design指南详细介绍了网络设计选项。
CX 交换机对无损以太网的支持
以下示意图总结了HPE Aruba Networking CX 数据中心交换机对无损以太网和存储协议的支持,以及常用存储协议的功能需求。
HPE 存储验证的 CX 交换机
Single Point Of Connectivity Knowledge (SPOCK) 是一个数据库,汇总了HPE 存储组件(包括CX交换机)的验证兼容性。HPE Aruba Networking CX 8325 和 CX 9300 系列交换机已通过 SPOCK 验证,并获得 HPE Storage Networking Team 的批准。