数据中心连接设计

HPE Aruba Networking 数据中心提供灵活且高度可靠的网络设计,确保所有授权用户能够高效、可靠地访问应用和数据,同时简化运营并加快服务交付。

HPE Aruba Networking 数据中心基于以下交换机型号构建:

  • CX 8xxx 以太网交换机
  • CX 9300 以太网交换机
  • 携带 Pensando 的 CX 10000 以太网交换机
  • CX 63xx 以太网交换机,用于带外(OOB)网络管理。
目录

数据中心拓扑结构

HPE Aruba Networking 数据中心支持在组织内任何位置实现集中式和分布式工作负载。每种设计都支持主机上行链路捆绑,以提供高吞吐量和关键任务工作负载的弹性。2层域可以灵活部署,以满足应用需求并提供虚拟主机的移动性。

CX 交换机为数据中心的3层服务提供了稳健的平台。HPE Aruba Networking 数据中心设计主要采用 CX 8xxx、CX 9300 和 CX 10000 系列以太网交换机,这些交换机在一个容错平台上提供低延迟和高带宽,设计用于承载数据中心流量,采用1U机架形式。

**Aruba Data Center Designs**

Spine-and-Leaf 架构与 VXLAN fabric 概述

最现代且最具弹性的 数据中心设计是基于 EVPN-VXLAN 叠加层的 spine-and-leaf 路由底层架构,适用于拥有不断增长的本地工作负载和跨多个数据中心分布的工作负载的企业。

spine-and-leaf 底层设计通过在叶交换机和 spine 交换机之间使用冗余的 3 层链路,确保高可靠性和水平扩展。这种基于 Clos 的拓扑结构提供等成本多路径(ECMP)路由,用于负载均衡流量,并在链路或交换机故障时支持快速故障转移。完全网状架构只需根据需要添加另一个 spine 交换机,即可实现容量增长。

EVPN-VXLAN 叠加层允许在整个数据中心范围内通过 VXLAN 隧道实现普遍的 2层邻接。这使客户能够在保持传统服务需求的同时实现网络现代化,通过叠加层连接物理分散的 2层段。物理距离较远的数据中心也可以在逻辑上扩展 2层和 3层段。

EVPN-VXLAN 原生支持在数据中心内对资源组进行分段,以支持多租户和按角色(如生产、开发、租户以及需要严格合规的场景)进行主机隔离。

两层架构概述

拥有大量现有本地工作负载且位于单一地点的企业,可以采用两层数据中心设计。该方案通过支持基于标准的协议如链路聚合控制协议(LACP)、生成树协议(STP)和开放最短路径优先(OSPF),确保充足的容量和可靠性。主机通过虚拟交换机扩展(VSX)多机箱链路聚合组(MC-LAG)连接到两个机架顶端交换机(ToR)。每个 ToR 交换机通过 Layer 2 VSX/MC-LAG 链路双连接到数据中心核心。核心与服务器接入层之间采用 Layer 2 支持 VLAN 无处不在,主要通过基于 LACP 的 MC-LAG 防止环路。核心为数据中心主机提供 3层服务和对外网络的路由。

两层数据中心的物理结构为未来迁移到 EVPN-VXLAN spine-and-leaf 数据中心提供了路径。

边缘数据中心概述

已将大部分工作负载迁移到云端、且不再需要大型本地数据中心的企业,可以利用现有的园区网络配线柜或小型服务器机房部署少量本地工作负载。

提供有线连接的 AOS-CX 交换机也可用于提供服务器接入,支持物联网(IoT)设备。

边缘数据中心支持高速和低延迟访问计算和存储资源,适用于不适合云部署的分布式工作负载。

一般设计考虑因素

带外管理

HPE Aruba Networking 数据中心设计采用专用管理局域网(LAN),连接到交换机管理端口和主机的 Lights-Out 管理(LOM)端口。通常,每个机架部署一个专用管理交换机,用于带外管理。专用管理交换机确保自动化、编排和管理的可靠连接,避免在更改数据中心数据平面配置时中断管理访问。

机架顶端设计

在 ToR 位置部署交换机,可以缩短主机与交换机之间的电缆长度。这样可以实现更模块化的解决方案,主机到交换机的布线在机架封装内完成,只有交换机上行链路从封装中引出。这种方法有助于在增加机架时降低复杂性。

在典型数据中心中,每个机架由一对冗余交换机服务。这使得双重连接的主机可以通过 MC-LAG 捆绑连接到两个物理交换机,实现容错和容量提升。CX 交换机支持两种不同策略以支持 MC-LAG:VSX 交换机配对和虚拟交换框架(VSF)交换机堆叠。

VSX 实现分布式和冗余架构,在升级过程中具有高可用性。它将两台交换机的控制平面虚拟化为一个设备,在 2层作为一个设备运行,在 3层作为独立设备运行。从数据路径角度看,每个设备执行独立的转发查找,以决定如何处理流量。部分转发数据库(如 MAC 和 ARP 表)通过专用的交换机间链路(ISL)在 VSX 控制平面上同步。每台交换机独立构建 3层转发数据库。

在部署一对交换机的 VSX 模式时,至少两个端口必须是分配为 ISL 的 LAG 成员,用于支持控制平面功能,并作为交换机对之间的数据路径。ISL 端口应与上行链路端口速率相同。

VSX 需要成员之间的保持连接(keepalive)以检测脑裂状态,即当 ISL 通信不再正常时发生的状态。最佳实践是配置保持连接使用带外管理端口(OOBM),当使用专用管理网络时。也可以使用回环 IP 地址或专用低速物理端口进行保持连接。基于回环的通信支持在冗余路由路径上,提高弹性。

VSF 将 2 至 10 台 CX 6300 交换机组成高可用性交换机堆叠,采用环形拓扑。数据中心使用 VSF 堆叠连接 1 Gbps 连接的主机机架到上游叶子交换机。VSF 堆叠在单一的 2层和 3层控制平面上运行。堆叠中的一台交换机担任 Conductor 角色,管理所有其他堆叠成员。另一台堆叠成员担任 Standby 角色。Conductor 会同步状态和配置,与 Standby 交换机保持一致,以便在故障时接管 Conductor 角色。通过连接到公共管理网络的每个堆叠成员的带外管理端口监测脑裂状态。

为支持最常用的连接速率和向后兼容性,建议选择支持每端口1、10和25 Gbps 接入速率的 ToR 交换机。这些连接速率可以通过升级收发器、DAC 或 AOC 简单实现。

对于高速计算机机架,CX 9300 和 CX 9300S 交换机支持 100 和 200 Gbps 的主机连接,以及 400 Gbps 的交换机上行链路。分线缆和 AOC 支持连接四个基于 QSFP56 的 100 Gbps 主机 NIC、两个 QSFP56 的 200 Gbps 主机 NIC,或两个 QSFP28 的 100 Gbps 主机 NIC 到一个物理 CX 9300-32D 端口。9300S 还可以优化支持 25 Gbps 的主机。

在选择 ToR 交换机时,请牢记以下几点:

  • 服务器连接的数量和类型: 典型的 ToR 交换机支持 48 个面向主机的端口,但在 CX 8360 系列中也提供低密度选项。可以使用 CX 6300 系列连接 1 Gbps 的主机机架。
  • 主机连接速度: 为简化管理,将连接速度相同的主机集中到同一机架和交换机。调整某个接口的端口速度设置可能会影响一组相邻接口。在规划需要多种连接速度的机架时,应考虑接口组的大小。连接速度为 100 Gbps 或 200 Gbps 的高速存储和计算主机需要使用 CX 9300-32D 交换机。
  • ToR 到 spine/core 连接性: ToR 交换机型号支持多种上行端口密度。上行端口的数量和端口速率决定了从主机到数据中心 fabric 或数据中心核心的超额订阅率。例如,在一个采用 100 Gbps 的四 spine fabric 部署中,可以实现非超额订阅的 fabric,用于连接 40 台服务器的机架,速率为 10 Gb。
  • VSX 上行链路消耗: 当使用 VSX 进行冗余时,两个上行链路端口用于 ISL,提供数据路径冗余,不能用于 spine 或数据中心核心连接。
  • DSS 特性需求: 在采用 AMD Pensando 可编程 DPU 实现内联有状态防火墙检测的数据中心设计中,要求使用 CX 10000。
  • 冷却设计: 不同的 ToR 模型可用于端口到电源和电源到端口的冷却。在电源到端口的配置中,可选的空气导管套件可以隔离机架内部服务器的热空气。布线可能会吸收热量并限制气流。短的布线路径和良好的布线管理可以提高气流效率。

主机连接

设计数据中心的关键步骤之一是识别计算主机所需的连接类型。服务器硬件通常配备有以太网 RJ45 端口,用于 Lights-Out 管理设备,例如 HPE iLO。Lights-Out 端口通常使用 Cat5e 或 Cat6 铜质配线连接到管理局域网的交换机。

主机连接通常采用 10 Gb 或 25 Gb,使用 SFP+/SFP28 光纤模块、铜线直连线(DAC)或有源光缆(AOC)。DAC 支持的距离有限,由于线规较粗,管理起来比光缆更困难。AOC 支持比 DAC 更长的距离。AOC 更细、更易于管理。DAC 和 AOC 的成本都低于单独的光学收发器和光纤配线。

支持高速主机连接的设备包括使用 CX 9300 交换机的 QSFP-DD 收发器和 AOC。光学模块和 AOC 都可以将单个高速 400 Gbps 交换端口拆分为多个较低速的 200 Gbps 和 100 Gbps 连接。该交换机支持基于 QSFP56 和 QSFP28 的主机 NIC。AOS-S and AOS-CX Transceiver Guide 提供有关使用拆分线缆和 AOC 的详细信息。

验证主机的网络接口控制器(NIC)和 ToR 交换机是否兼容相同的 DAC 或 AOC 非常重要。当使用单独的收发器和光缆时,应验证收发器与主机 NIC、ToR 交换机及光缆类型的兼容性。主机支持的收发器通常与交换机支持的不同。在规划新的或升级的数据中心时,始终建议咨询结构化布线专业人员。

在部署用于 IP 存储流量的融合网络时,应选择支持存储协议卸载的 NIC 卡。这可以通过减少主机 CPU 的负载,最小化存储流量的延迟。

应用程序可以直接在使用单一操作系统的服务器上托管,通常称为“裸机”服务器。多个主机可以在单一物理服务器上虚拟化,使用虚拟机监控软件层。例如 VMware ESXi 或 Microsoft Hyper-V。

虚拟机监控器包含虚拟交换机,使用 2 层 VLAN 提供与每个虚拟机(VM)的连接。成功的数据中心设计应支持使用未标记和 VLAN 标记端口的 2 层和 3 层连接,以匹配服务器和/或服务器内部虚拟交换机所需的连接。HPE Aruba Networking Fabric Composer 提供对服务器与 ToR 交换机之间配置的可视化和编排,确保连接正确建立。

主机移动性 指在不更改主机网络配置的情况下,在数据中心网络中移动物理或虚拟主机的能力。对于虚拟化主机尤其强大,这确保了计算资源的优化、应用的高可用性以及分布式工作负载的高效连接。EVPN-VXLAN fabric 和两层数据中心支持灵活的主机移动性,允许所有数据中心 VLAN 在所有 ToR 交换机上存在。EVPN-VXLAN 设计通过隧道提供了跨路由底层的二层邻接,并可以在数据中心位置之间逻辑扩展二层邻接。

带 EVPN-VXLAN fabric 的 Spine-and-Leaf

EVPN-VXLAN fabric 提供了一个虚拟的二层网络叠加层,该层与支持它的物理网络底层相隔离。这允许主机在相同的 VLAN 网络段内操作,即使它们被分隔在不同的三层边界上,也可以通过封装流量在隧道中实现。EVPN-VXLAN 中的对称集成路由与桥接(IRB)使叠加网络段之间实现三层路由成为可能。

物理拓扑

下图展示了 EVPN-VXLAN 解决方案中所有角色的物理连接方式。

**Physical Topology**

底层网络设计

EVPN-VXLAN 数据中心网络的底层提供交换机之间的 IP 连接。底层网络确保 VXLAN 隧道流量(叠加网络)可以在叶子交换机的隧道端点之间转发。

底层网络采用基于三阶段 Clos 架构的 Spine-and-Leaf fabric 拓扑。它作为三层路由网络部署,每个叶子通过路由端口连接到每个 Spine。Spine-and-Leaf 底层拓扑优化性能,提供高可用性,并减少延迟,因为每个叶子到其他所有叶子交换机的路径最多只有一跳,且负载均衡。

**Underlay Network**

Spine-and-Leaf 拓扑提供了灵活且可扩展的网络设计,能够在不影响现有网络的情况下实现增长。可以从一个小型的一两个机架的 fabric 开始,逐步增加容量,无需更换现有硬件。通过在新机架中添加叶子交换机,增加计算和网络附加存储(NAS)容量。增加 Spine 交换机以提升叶子交换机之间的东西向 fabric 容量。

此拓扑大致类似于基于机箱的交换机架构,其中叶子交换机类似于接口线卡,Spine 类似于提供线卡之间数据容量的机箱 fabric。

HPE Aruba Networking 数据中心通常使用 OSPF 作为底层路由协议,在所有 fabric 交换机之间分发底层 IP 可达性信息。OSPF 是一种广泛使用、理解良好的内部网关协议(IGP),提供简便的配置和快速收敛。当添加 EVPN-VXLAN 叠加时,底层路由表较小,主要由回环 IP 地址组成,用于建立叠加路由协议邻接和 VXLAN 隧道端点的可达性。底层的 OSPF 路由还支持选择合适的叠加路由协议,以支持多 fabric 环境。建议使用单一 OSPF 区域和点对点接口,以简化配置。

在连接 Spine 和 Leaf 交换机的底层接口上设置最大传输单元(MTU)为 9198 字节,以避免在添加 VXLAN 封装时产生的巨型帧被分段。

服务器接入交换机不参与路由底层网络。它们仅通过二层链路连接到上游的叶子交换机。

Spine 设计

Spine 层提供高速、路由连接,连接叶子交换机。在 Spine-and-Leaf 架构中,每个叶子交换机都连接到每个 Spine 交换机。每个叶子到 Spine 的连接应使用相同的链路速率,以确保在 fabric 内有多个等成本路径。这支持基于 ECMP 的路由负载均衡,并确保在链路故障时仍能保持连接。

所有 Spine 交换机必须是相同型号。Spine 交换机型号的端口容量决定了单个 Spine-and-Leaf 实例中最大叶子交换机的数量。对于冗余的 ToR 设计,最大叶子机架数为 Spine 交换机型号端口数的一半。

典型的 Spine-and-Leaf 网络通常以两个 Spine 开始,以确保高可用性。增加 Spine 以提升 fabric 容量和容错能力。每增加一个 Spine,都会降低整体 fabric 容量的影响:

  • 2 个 Spine:容量减少 50%
  • 3个 Spine:容量减少 33%
  • 4个 Spine:容量减少25%

最大 Spine 数量由具有最少上行链路的叶子交换机型号决定。在冗余的 ToR 设计中,最大 Spine 数量为具有最少上行链路的叶子交换机的上行端口数减去两,因为其中两个上行链路用于 ToRs 之间的 VSX 交换链路(ISL)。在单一 ToR 设计中,最大 Spine 数量等于具有最少上行链路的叶子交换机的上行端口数。每个 ToR 交换机必须连接到每个 Spine,以确保 ECMP 的有效运行。

基于 CX 9300 的 Spine 在使用分线缆时提供高密度机架支持。一个 CX 9300 可以将单个 400 Gbps Spine 端口分线为四个 100 Gbps 连接的叶子交换机端口,使用单模光纤。它还可以支持每个 Spine 端口连接两个 100 Gbps 叶子交换机,使用多模光纤和 AOC。这使得 CX 9300 能够在其物理端口数基础上,将支持的机架数量翻倍或四倍。

在叶子角色中使用 CX 9300 支持极端水平的 CX 9300 Spine 扩展。当将 9300-32D 叶子交换机的可用端口的一半用于主机连接时,可以实现由 14 个 Spine 组成的 5.6 Tbps 网络,以支持冗余的 ToR 设计。在单一 ToR 设计中,可以实现由 16 个 Spine 组成的 6.4 Tbps 网络。如果所需的机架数量允许,CX 9300 Spine 和叶子交换机的组合可以支持连接多个链路到每个 Spine。这种部署模型支持包含连接存储和计算主机的超高速机架,速率为 100 Gbps。

在选择交换机时请考虑以下因素:

  • 确定机架的介质和带宽需求。
  • 确定是否安装单一或冗余的 ToR 交换机。
  • 确定当前计算和存储需求所需的机柜数量。
  • 确定支持计划中的机柜所需的 Spine 交换机。
  • 设计数据中心网络时,容量不超过 50% 以留出增长空间。

在决定物理放置 Spine 交换机的位置时,应考虑它们与 Leaf 交换机的距离以及所使用的连接介质类型。Spine 到 Leaf 的连接通常采用 40 Gb 或 100 Gb 光纤,使用四通道 SFP(QSFP)收发器或 AOC,线缆和收发器集成,类似于 DAC。CX 9300-32D 可以支持高达 400 Gbps 的 Spine 到 Leaf 连接,适用于高速数据中心应用。

叠加数据平面网络

叠加网络通过 VXLAN 隧道实现,为直接连接到 Leaf 交换机的工作负载提供 Layer 2 和 Layer 3 虚拟化网络服务。VXLAN 网络标识符(VNI)用于识别 VXLAN 叠加拓扑中的分布式 Layer 2 和 Layer 3 段。对称 IRB 使叠加网络能够支持所有 Leaf 节点之间连续的 Layer 2 转发和 Layer 3 路由。

VXLAN 隧道端点(VTEP)是 Leaf 交换机中的功能,负责点对点隧道的起始和终止,形成叠加网络。VTEP 在 UDP 数据报中将 Layer 2 以太网帧封装和解封装在 VXLAN 头中。源 VTEP 分配一个 VNI,以通知目标 VTEP 与封装帧相关联的 VLAN 或路由表。当在机架中部署 VSX 冗余 Leaf 交换机时,单个逻辑 VTEP 被实现。VTEP IP 地址通过 OSPF 在底层网络中分配。Spine 交换机提供叠加隧道的 IP 传输,但不参与 VXLAN 流量的封装/解封装。

**VXLAN Frame**

下图展示了 VXLAN 数据平面网络,即 Leaf 交换机 VTEP 之间的全网状 VXLAN 隧道。

**Overlay Network**

服务器接入交换机不包含 VTEP 或参与 VXLAN 转发。它们通过扩展 fabric 叶子交换机上的 VLAN 来支持数据中心主机连接到叠加层。

一个 Layer 2 VNI 代表一个广播域,类似于传统的 VLAN ID。一个 Layer 2 VNI 与 fabric 中各个交换机上的 VLAN 相关联,并将一组分布式 VLAN 统一拼接成单一的 Layer 2 广播域。当带有 Layer 2 VNI 的 VXLAN 封装帧到达 VTEP 终端时,交换机会解封装该帧,并根据与 VNI 相关联的 VLAN 的 MAC 地址表进行原生转发。

**L2 VNI Broadcast Domain**

一个交换机通过实现虚拟路由与转发实例(VRFs)支持多个路由域。每个 VRF 由一个唯一的路由表、基于路由表转发流量的成员接口,以及构建路由表的路由协议组成。不同的 VRF 可能包含重叠的 IP 地址范围,因为各个路由表是独立的。EVPN-VXLAN 叠加层必须至少包含一个非默认 VRF,作为叠加 VLAN SVIs 和路由接口的容器。可以使用多个 VRF 来实现多租户的隔离和策略执行。

一个 Layer 3 VNI 将 VXLAN 封装的流量与 VRF 相关联。当带有 Layer 3 VNI 的 VXLAN 封装包到达 VTEP 时,包会被解封装,并使用相关联的 VRF 的路由表进行转发。

Symmetric IRB 使用分布式 IP 网关模型。fabric 主机 VLAN 的网关是 anycast IP 地址。使用 HPE Aruba Networking 的 Active Gateway 功能,将相同的虚拟 IP 地址分配给 fabric 中每个交换机上的相同 VLAN。还会将一个分布式虚拟 MAC 地址与虚拟 IP 相关联。这一策略支持在连接到不同机架的交换机的 hypervisor 之间移动活动的虚拟机(VM)客体。

在使用 Active Gateway 在所有叶子交换机之间创建分布式叠加 IP 网关地址时,Active Gateway IP 地址通常也会分配给每个交换机上的 VLAN SVI,以节省 IP 地址。当使用 ping 命令时,不支持将 Active Gateway IP 作为源地址,也无法将唯一的 VLAN SVI 地址用作源 IP。在测试主机可达性时,必须指定唯一的源 IP 地址,例如分配给相同 VRF 的环回 IP,以验证可达性。

来自必须进行路由的主机的流量会命中分配给其直接连接的叶子交换机的虚拟网关 IP 地址。源 VTEP 和目标 VTEP 都执行路由功能,源 VTEP 会分配一个 L3 VNI,以通知目标 VTEP 转发所需的 VRF。

**L3 VNI Routing Domain**

边界叶子交换机提供 EVPN fabric 主机与外部网络(如园区、广域网或 DMZ)之间的连接。通常在边界叶子和外部网络之间放置防火墙,以执行南北向安全策略。

服务器接入层

服务器接入交换机通过经济实惠的 Layer 2 交换机模型,将 EVPN-VXLAN 叶子扩展到一组高密度、低速连接的主机。它们不直接参与底层路由或叠加虚拟化。

服务器接入交换机通过 VSX 或虚拟交换框架(VSF)为连接的主机提供 Layer 2 冗余。启用 VSF 的交换机作为一个逻辑堆叠在相邻的机架上操作,支持冗余的 MC-LAG 连接到下游主机,并通过带外管理端口监控堆叠成员的状态,以防止脑裂情况。

在已建立的数据中心中迁移到 EVPN-VXLAN 叠加层时,现有的 ToR 交换机可以作为服务器接入交换机通过 Layer 2 连接到 EVPN-VXLAN 叶子,作为迁移策略的一部分。这允许在不需要更换现有 ToR 交换机的情况下,灵活地将现有机架基础设施迁移到新的 EVPN-VXLAN 叠加层。

**Server Access VLAN Extension**

叠加控制平面

VXLAN 控制平面分发用于共享主机可达性和动态构建 VXLAN 隧道的信息。在 VXLAN 网络中,端点之间的可达性需要将连接到 fabric 的端点与其各自的 VTEP 和 VNIs 相关联,跨所有 fabric 交换机成员。这些可达性信息由源 VTEP 用于在 VXLAN 头中分配 VXLAN VNI,以及在 IP 头中指定目标 VTEP IP。

连接的主机通过以太网链路层协议在其上行叶子交换机上学习。跨 VXLAN fabric 的叠加可达性信息通过多协议边界网关协议(MP-BGP)作为控制平面协议,使用 EVPN 地址族进行分发。BGP 同时广告主机的 IP 和 MAC 前缀。这种方法最小化了泛洪,同时实现了对所有主机的高效、动态的发现。

使用动态填充端点信息的分布式控制平面可以带来以下好处:

  • 它避免了在大型 spine-and-leaf 环境中由于流量复制而消耗大量带宽的泛洪与学习技术。
  • 网络配置被简化为 fabric 叶子 VTEP 交换机自动发现 fabric 内的对端 VTEP 交换机,构建动态 VXLAN 隧道。
  • 分布式控制平面在数据中心 fabric 交换机之间提供冗余和一致的拓扑状态。
  • 分布式控制平面允许使用分布式网关在 ToR 交换机上实现最优转发。这使得默认网关地址在整个 fabric 中保持不变。

使用带有 EVPN 地址族的 MP-BGP 提供了一个基于标准的、高度可扩展的控制平面,用于共享端点可达性信息,并原生支持多租户。多年来,服务提供商一直使用 MP-BGP 来提供大规模的安全 Layer 2 和 Layer 3 VPN 服务。通过采用带有路由反射器的 iBGP 设计,简化了网络操作,使得对等仅在叶子交换机和两个 Spine 之间建立。当建立多 fabric 环境时,单个 fabric 控制平面需要使用 iBGP。一些较为重要的 BGP 控制平面术语包括:

  • 地址族(AF): MP-BGP 通过将不同的地址类型分类到地址族(IPv4、IPv6、L3VPN 等)中,支持交换网络层可达性信息(NLRI)。用于在 MP-BGP 之间广告 IP 和 MAC 地址信息的 Layer 2 VPN 地址族(AFI=25)和 EVPN 后续地址族(SAFI=70)。EVPN 地址族包含用于在 VTEP 之间建立 VXLAN 隧道的可达性信息。
  • 路由区分符 (RD): 路由区分符使 MP-BGP 能够在同一地址族内携带重叠的 3 层和 2 层地址,通过在原始地址前添加唯一值实现。RD 仅是一个数字,没有固有的含义。它不会将地址与路由或桥接表关联。RD 值通过确保在两个不同的 VRF 中为相同地址范围宣布的路由可以在同一 MP-BGP 地址族中进行广告,从而支持多租户。
  • 路由目标(RT): 路由目标是用于将地址与路由或桥接表关联的 MP-BGP 扩展社区。在 EVPN-VXLAN 网络中,将公共 VRF 路由目标导入和导出到 MP-BGP EVPN 地址族,可以建立跨多个 VTEP 定义的一组 VRF 的第 3 层可达性。第 2 层可达性通过在第 2 层 VNI 定义中导入和导出公共路由目标,在分布式的第 2 层 VNI 之间共享。此外,还可以通过使用 IPv4 地址族在 VRF 之间泄露第 3 层路由,即从一个 VRF 导出路由目标,然后由其他 VRF 导入。
  • 路由反射器 (RR): 为了优化在 VTEP 之间共享可达性信息的过程,在 Spine 上使用路由反射器以简化 iBGP 对等。此设计使所有 VTEP 具有相同的 iBGP 对等配置,并消除需要完全网状 iBGP 邻居的需求。

MP-BGP EVPN 地址族由几种路由类型组成。

  • 路由类型 2 共享 MAC 地址和主机 IP 可达性信息。
  • 路由类型 5 共享由部分 fabric 交换机可达的 IP 前缀,最常用于从边界叶子到其他叶子交换机共享默认路由和外部前缀。
  • 路由类型 3 在 fabric 内部动态共享 VTEP IP 和 VNI 值以建立 VXLAN 隧道。

路由类型 2 MAC 广告与基于路由目标值的 VLAN 相关联。在 fabric 中所有交换机上,应导入和导出相同的路由目标值以对应相同的 VLAN ID。这确保了 Layer 2 可达性的完整传播。使用 iBGP 控制平面时,可以自动推导 VLAN 路由目标,以简化配置并确保整个 fabric 的一致性。

下图展示了使用 iBGP 控制平面共享 EVPN 路由类型 2 MAC 地址可达性的示例。

**iBGP control plane route-type 2 advertisement**

以下截图显示了一个 EVPN 学习到的 MAC 地址示例,该地址已安装在 MAC 地址表中,并关联其 VTEP。

**MAC address table with VXLAN target**

路由类型 5 IP 前缀与基于路由目标值的 VRF 相关联。在 fabric 中所有交换机上,应导入和导出相同的路由目标值以对应相同的 VRF。这确保了 Layer 3 可达性的完整传播。

多 fabric 底层

MP-BGP EVPN 控制平面对等和 VXLAN 隧道终止需要在多 fabric 拓扑中的位置之间建立对回环接口的 IP 可达性。外部 BGP(eBGP)通常在站点之间共享回环/ VTEP 可达性。

MP-BGP 使用 AS 号来识别 BGP 讲者之间的管理关系。具有相同 AS 号的 BGP 对等体属于同一管理域,被视为内部对等体(iBGP)。不同 AS 号的 BGP 对等体被视为外部对等体(eBGP)。内部和外部 BGP 对等体具有不同的默认行为和要求。通常在组织内部不同网络段之间使用 eBGP,因为默认的 eBGP 对等行为对网络设计非常有用。

下图展示了两 fabric 拓扑中边界叶子交换机之间的一组 eBGP IPv4 地址族对等关系。站点之间的 Layer 2 连接由城域以太网电路提供。每个边界叶子交换机上的路由接口与远程 fabric 中的每个边界叶子交换机建立对等关系。共享回环 IP 地址,以建立 MP-BGP EVPN 对等关系和 VTEP 隧道终止。

eBGP IPv4 simple underlay peering

底层 eBGP 对等关系通常遵循网络位置之间的物理链路。这些链路可能与控制平面 EVPN 对等关系不完全一致。暗光纤和城域以太网电路是站点之间常用的连接方式。

随着互联 fabric 数量的增加,主站点所需的高速电路数量可能超过边界叶子交换机上的端口数。 Spine 交换机上的可用高速端口可以作为多 fabric 底层的一部分。WAN 路径和 MP-BGP IPv4 对等关系会根据每个环境的变量和设计偏好而变化。

多 fabric 叠加控制平面

MP-BGP EVPN 被用作多 fabric 叠加中的控制平面,就像单一 fabric 叠加一样。

iBGP 在每个 fabric 内部使用。每个 fabric 内的叶子交换机与位于两个 Spine 交换机上的一对路由反射器建立 MP-BGP EVPN 地址族对等关系。

eBGP 在 fabric 之间使用,以允许 VXLAN 流量重新封装并在第二个隧道中转发,并利用有助于多 fabric 环境的有用默认行为。

当单个位置存在多个 fabric 时,通常只使用一组边界叶子交换机通过可用的 WAN 路径与外部 fabric 建立 MP-BGP EVPN 地址族对等关系。任何在站点之间对等的边界叶子都称为边界领导者。

下图展示了两 fabric 拓扑中的 MP-BGP EVPN 对等关系。

**Multifabric BGP control plane peerings**

定义了额外的路由目标值,用于控制 fabric 之间的可达性信息的安装。在初始创建时,每个 VLAN 和 VRF 被分配一个 fabric 内路由目标。管理员配置一个额外的全局路由目标,在 fabric 之间共享,用于扩展 VLAN 和 VRF 网络段。这一策略允许不应在所有 fabric 中扩展的网络段独立存在,并保持为本地专用 fabric 叠加的一部分。

例如,如果三个 fabric 在各自的叠加中都具有 VLAN 20,则可以为两个 fabric 分配 EVPN 路由目标(RTs),以共享 VLAN 20 的主机可达性,而第三个 fabric 不共享。以下示例路由目标分配实现了这一目标。

  • Fabric 1,VLAN 20 — 本地 RT: 65001:20,全局 RT: 1:20
  • fabric 2,vlan 20 — 本地 RT: 65002:20,全局 RT: 1:20
  • fabric 3,VLAN 20 — 本地 RT: 65003:20

当在不同的 fabric 之间扩展路由 IP 前缀时,全球路由目标(Global route targets)也会被分配给 VRF。

多 fabric 数据平面网络

VXLAN 隧道扩展了跨多个 EVPN-VXLAN fabric 的 2层 和 3层 域。这些 fabric 可以位于同一数据中心的不同 pod 中,也可以在不同的园区中的不同数据中心,或者在更远距离的物理数据中心中。数据中心 fabric 之间的连接被称为数据中心互联(DCI)。

使用相同的 VNI 值在所有 fabric 之间扩展 2层 和 3层 网络段。例如,VLAN 20 的相同 2层 VNI 值和 VRF 1 的相同 3层 VNI 必须在所有 fabric 中保持一致。

fabric 之间的 VXLAN 隧道仅在边界 Leaf 交换机之间建立,以最大化本地和多 fabric 的扩展性。在边界 Leaf 交换机之间建立完整的隧道网格,避免了在所有 fabric 中的所有 VTEP 之间建立 VXLAN 隧道的需求。

下图展示了两 fabric 拓扑中的 fabric 之间和内部的 VXLAN 隧道。

**Inter-fabric VXLAN tunnels**

在本地 fabric 内,主机之间的 VXLAN 隧道流量在单一源 VTEP 进行封装,并在单一目的地 VTEP 解封装。在单一 fabric 内,任何两个主机之间都存在一个逻辑隧道。所有 VTEP 之间的完整 VXLAN 隧道网格支持这种转发模型。

在多 fabric 拓扑中,不同 fabric 之间的主机流量最多可以经过三个 VXLAN 隧道。默认情况下,CX 交换机不允许在 VXLAN 隧道中接收的流量被转发到另一个 VXLAN 隧道。必须禁用此行为以实现多 fabric 主机的可达性。为了防止单个 fabric 出现转发环路,可以只在 iBGP 和 eBGP 动态学习的隧道之间禁用 VXLAN 重新封装。在 fabric 内,iBGP 用于发现 VXLAN VTEP 并动态建立 VXLAN 隧道。eBGP 用于发现 VTEP 并在 fabric 之间建立 VXLAN 隧道。

当 overlay 主机在 fabric 之间通信时,流量在源主机的直接连接的 leaf 交换机上进行封装,目的 VTEP 设置为同一 fabric 的 border leaf。源 fabric 的 border leaf 会用目的地 fabric 的 border leaf 的 VTEP 重新封装流量。目的地 fabric 的 border leaf 会用直接连接到目的主机的 leaf 交换机的 VTEP 作为目的地再次封装流量。

**Inter-fabric VXLAN Host Communication**

在多 fabric 拓扑中,fabric 之间的 border leaf 交换机建立完整的 VXLAN 隧道网格,通常由三个或更多 fabric 组成。

两层数据中心

两层设计采用传统协议,部署、操作和故障排除都较为简单,无需专门的 overlay 协议或设计知识。该架构适用于中小型数据中心,但在更大的环境中也可以按每个 data center pod 实施。

VSG 使用“两层”来指代由扁平路由/二层核心层与仅二层接入交换机之间的多机箱 LAG 组成的拓扑结构,与使用路由链路连接 Spine 和 Leaf 层的 Spine-and-Leaf 网络不同。

二层数据中心中的主机信息通过传统的桥接学习和 ARP 方法进行填充。

拓扑概述

两层数据中心网络在数据中心核心层实现汇聚和三层服务,在二层接入层实现端点连接。所有接入交换机都通过 MC-LAG 与核心交换机相连,以实现负载共享和容错。

二层两层设计的物理布局与两 Spine 的 Spine-and-Leaf 架构一致,为未来迁移到使用三层 Spine-and-Leaf 作为底层的 EVPN-VXLAN 叠加层提供了路径,同时保护在两层网络设备上的投资。

**L2 Two-Tier Network Overview Diagram**

核心设计

核心层作为一对高密度、高带宽端口的VSX交换机部署。这要求两个核心交换机为相同型号,并运行相同的固件版本。

核心交换机的端口容量定义了在两层架构中支持的最大机架数。对于冗余的ToR设计,最大机架数为核心交换机型号的总端口数减去VSX和园区链路(忽略余数)之差的一半。例如,使用两个VSX链路和两个园区上行链路的32端口交换机可以支持14个冗余的ToR机架: (32 - 4) / 2 = 14。在非冗余、单交换机的ToR设计中,支持的机架数等于核心交换机型号的端口数减去VSX和园区链路。

核心交换机型号还定义了数据中心骨干的最大容量。具有优势的路由层3 Spine-and-Leaf架构相较于基于2层的两层架构,可以通过增加Spine交换机实现东-西吞吐能力的逐步扩展。例如,向两Spine结构中添加一个Spine可以将容量提高50%,添加两个Spine则可以将容量翻倍。在L2两层设计中,核心只有一对VSX交换机支持机架间通信。L2两层数据中心的容量规划至关重要,因为大规模容量升级通常需要硬件更换。

接入到核心的连接通常采用40 Gbps或100 Gbps光纤,使用四通道SFP(QSFP)收发器或AOC。当在核心和接入角色中都使用CX 9300时,支持400 Gbps的接入到核心互联,以满足更高速的数据中心应用。

通过升级到更高速的收发器或在核心与接入层之间的MC-LAG中捆绑更多链路,可以增加核心与接入层之间的初始容量。然而,增加每个LAG中的链路数量会显著减少支持的机架数,因为会增加核心端口的消耗。

有时,部分机架需要更高容量的链路连接到核心,以提供高带宽的集中式服务。请注意,核心与接入交换机之间链路容量不一致会影响主机的迁移能力,因为需要更高带宽的虚拟机(VM)应仅连接到部分交换机。

核心层为接入交换机提供2层汇聚点。在不同机架中同一VLAN的主机之间的流量将通过在核心与接入交换机之间配置的MC-LAG干道上的VLAN进行传输。在一个两层实例中,通过将所有数据中心VLAN分配给核心与接入交换机之间所有MC-LAG链路,使用802.1Q VLAN标签,可以实现无处不在的2层主机迁移。

在VSX上的Active Gateway支持在两个核心交换机上使用相同的IP地址,消除了对VRRP等冗余网关协议的需求。

核心层为数据中心主机提供所有的3层功能,并作为连接外部网络和服务的接口点。

接入交换机设计

在两层架构中,每个ToR接入交换机通过MC-LAG连接到两个核心交换机,以实现链路负载均衡和故障容错。

建议使用VSX的冗余机架顶对,以增强下游主机的故障容错能力,利用MC-LAG实现。虽然通过实现MC-LAG和LACP,接入与核心交换机之间的2层连接是无环的,但为了防止数据中心管理员在机架内意外创建环路,配置了Spanning-Tree协议(STP)作为备份环路避免策略。核心VSX对配置了STP优先级,以确保其被选为STP根桥。

MC-LAG在核心与接入交换机之间提供比多实例生成树(MST)更好的链路利用率,因为所有冗余链路都保持激活状态以传输流量。流量通过基于哈希的算法在单个LAG成员链路上进行转发,算法在每个流上进行细粒度处理。虽然MST实例也允许使用多条链路在接入与核心之间提供容错和流量平衡,但其负载均衡策略需要静态配置,并限制在每个VLAN基础上通过单一冗余链路进行主动转发。


返回顶部

© Copyright 2025 Hewlett Packard Enterprise Development LP