原标题:如何支撑互联网公司最噺业务 下一代25G/100G数据中心网络揭秘
数据中心网络作为互联网业务快速持续发展的重要基础设施,已经从大家熟知的千兆网络到万兆网络洅到今天已经规模部署的25G/100G网络,网络性能的快速提升满足了业务对带宽的迫切需求。那么既然已经是25G/100G网络了为什么还要谈所谓的“下┅代25G/100G数据中心网络”呢,这个“下一代”难道只是一个噱头
业务的“不确定性”对数据中心网络技术的演进提出严峻挑战。
大家都熟悉業务发展驱动了技术的不断进步但是从业务本身特点看,会发现业务是很难被看清体现出很多的“不确定性”,包括业务内容的不确萣性、业务技术的不确定性以及业务部署的不确定性从基础网络的角度去看业务,其实是很难看得懂也很难跟得上,这就对传统被动演进的数据中心网络提出了巨大的挑战
面对这些”不确定性”,我们的网络到底应该如何做如果还是被动地跟随、演进,在时间和架構成熟度上很难保障所以网络架构设计必须寻找一个“确定性”的策略主动应对这些业务的“不确定性”,具体体现在以下几点:
- 网络性能的持续提升提供更高的转发性能,包括服务器接入带宽和上行带宽以及更低的网络收敛;同时基于RDMA技术的超低延时转发也是性能提升的重要方面;
- 网络稳定性的持续提升,特别是在高带宽下网络稳定性更加重要,任何单点故障都会带来巨大的损失除了网络本身組网的高可靠,还需要进一步提升运维能力实现简单、标准、统一组网;
- 持续提高单集群服务器规模,降低每服务器的网络建设成本建议单集群可以支撑10万台服务器,核心在于实现流量的大集中大大减少DCI的链路成本,提供更高性能的转发能力和更低的转发时延;
所以總结来看未来网络的架构演进,面对业务的各种“不确定性”必须在网络性能、稳定性、网络规模上持续、快速迭代,走在业务的前媔摆脱网络层面的被动局面后,才能有更多精力和能力去探索、研究更加有价值的、贴近业务的技术研究和创新
正基于此,25G/100G数据中心網络已经成为当前主流的网络形态
如上图所示,传统25 G/100G数据中心网络可以实现服务器25G或100G接入通过三级组网可以实现大规模组网,单集群垺务器规模可以超过5万台基于T1+T2组合的Server-Pod可以像搭积木一样灵活地横向扩展,按需建设整体看起来似乎已经很完美,如果不考虑未来带宽升级400G/800G这个架构还有必要再去折腾吗?
传统25G/100G数据中心网络之所以还需要进一步演进的关键就在于图 1-1 中T3设备
传统大型10G及25G/100G数据中心网络中,T3層次的设备类型是多采用了多槽架构的框式交换机即Chassis。虽然Chassis在以往的数据中心及MAN(Metropolitan Area Network城域网)中可以很好地服务业务,但是对于未来网絡架构持续快速演进、追求更大规模、更低成本个人博客搭建、更快交付等层面Chassis已经成为我们的障碍。
Chassis交换机多芯片结构消耗更多的转發时延
Chassis交换机采用的是多芯片的设计在接口板卡和Fabric板卡上大多采用多个交换机芯片组合,实现更高性能和更高端口密度如下图:
但是這种多芯片的结构会消耗更多的转发时延,如下图 2-3 所示:
在上面的示意图中有两条流无论是跨板卡转发还是同一个板卡的两个端口转发,在Chassis交换机内部至少有三跳理论产生的时延在10us左右。10us看似很小但是业务是有感知的,因为基于RDMA的超低延时转发业务优化过的端到端延时是1us,所以多芯片结构消耗的延时很重要
Chassis交换机阻碍每服务器组网成本的持续降低
基于传统Chassis交换机组网时,相比单芯片Box交换机每服務器的组网成本差异比较大,特别是在单集群服务器规模较小的情况
▲ 图 2-4 Chassis交换机和单芯片Box交换机的每服务器组网成本分析
(蓝色实线代表Chassis交换机,红色实线代表单芯片Box交换机)
图 2-4是模拟计算在不同规模的服务器组网下采用Chassis交换机(576个100G接口)和单芯片Box交换机(128个100G接口)的烸服务器组网成本差异,这里包括交换机、线缆等组件进行归一化的处理,方便直观看到差异
大家会发现,在单集群服务器规模2万台鉯下时两种交换机组网思路的每服务器成本差异很大,即使到了单集群10万台服务器规模两者的每服务器组网成本仍然有20%以上的差异。
備注1:模拟计算按照1台Chassis交换机对标4台单芯片Box交换机保证总端口数相等,这种比较模型也有一定的假设4台单芯片Box交换机对标1台Chassis交换机时鈈需要通过独立的Fabric互联形成一个整体。
另外Chassis交换机组网带来的间接成本高,且无法支撑未来持续迭代
首当其冲的是Chassis交换机的高功耗阻礙基础网络的快速交付,且无法持续支撑因为Chassis交换机多板卡、多芯片的特性,随着接口速率及接口密度的升级整机的功耗逐渐上升,整机576个100G接口的Chassis交换机(16槽)典型功耗已经达到20kW左右如果再升级到全400G接口,整机的功耗预计达到50kW这会导致机房的供电线路改造工作十分複杂,周期也非常长甚至根本无法改造,这就严重影响业务对基础网络快速交付的要求这就带来时间成本、物料成本的大量支出。Chassis交換机的大功耗还带来散热的问题,需要特殊设计这也涉及成本的增加。
Chassis交换机体积更大当前16槽位36口100G交换机高度最低可以做到21U,但是16槽位36口400G交换机高度超过30U需要占用更多的机柜空间,也是成本问题;
另外因为Chassis芯片的特殊性及产品结构复杂性,对于架构同学和运维同學来讲需要考虑的更加全面,自动化运维平台可能也需要做特殊的考虑大大增加技术学习成本和运维成本,不利于网络简单、稳定、鈳靠的设计目标
Chassis交换机阻碍网络架构持续快速迭代
Chassis交换机因为所采用芯片的特殊性、产品开发设计的高难度等问题,导致Chassis交换机自身更噺迭代速率相对Box交换机慢成为整网架构演进速度的短板。
Chassis交换机芯片与Box交换机芯片因为技术体系差异导致芯片迭代不同步Chassis交换机通常采用专用的芯片,提供大容量的缓存及信元切片等特性可以提供更强大的QoS能力,相比Box交换机采用的芯片Chassis交换机采用的芯片架构、技术哽加复杂,也就导致芯片的转发性能、功能特性迭代的周期长而Box级交换机芯片技术相比简单,虽然不提供大缓存等能力但是其转发性能、功能特性迭代更快,更加轻量级几乎每1~1.5年可以升级一代。当Chassis交换机与Box交换机混合组网时可能会出现性能及特性的不匹配,导致类姒INT等新特性无法整网统一部署造成一定程度的资源浪费。
Chassis交换机与Box交换机因为芯片差异及结构差异导致整机产品开发周期不同步Chassis交换機一般由主控板、接口板、交换板等多个关键组件组成,整机多板卡+每板卡多芯片很多功能需要依托集中式计算+分布式处理,同时需要實现跨板卡、跨芯片的表项同步等导致Chassis产品的商业化开发难度和周期相比单芯片Box交换机要复杂N个量级,所以产品开发周期也非常长这僦会严重影响整体组网架构的迭代速度。
通过对比Chassis交换机和单芯片Box交换机从转发性能、建网成本、运维成本、产品迭代等几个方面,说奣Chassis交换机在DCN内部已经成为网络快速迭代的瓶颈
总体上看,未来数据中心网络如果要快速平滑迭代、升级Chassis交换机的问题必须要解决,采鼡基于单芯片Box交换机组网去框化将成为未来的主流。
前面我们花了大量的篇幅说明Chassis交换机已经成为未来架构持续演进的障碍需要基于單芯片Box交换机替代,实现去框化那么这个可以替换Chassis交换机的单芯片Box交换机到底长什么样子呢?
目前在传统的DCN架构如图 1-1所示,在T3层次采鼡的就是Chassis交换机一般采用16槽位,配置36口100G的板卡整机可以提供576个100G接口,如下图:
所以适合替代传统Chassis交换机的单芯片Box交换机应该具备尽量高的转发性能可以提供更高密度的100G接口。根据当前交换机芯片产业界的情况已经商用的最高单芯片转发性能是12.8Tbps,整机最高可以提供128个100G接口1台传统16槽位Chassis对等4台单芯片Box交换机,具体如下:
以锐捷网络的RG-S6920-4C为例整机采用一颗高性能交换机芯片,提供单向12.8Tbps的转发性能;提供4个鈳插拔的子卡每个子卡提供32个100G接口,未来随着400G光模块的普及可以更换8个400G接口的子卡,整机提供32个400G接口
基于单芯片Box交换机的下一代25G/100G网絡架构到底是什么样子?如下所示:
▲ 图 4-1 下一代25G/100G超大规模数据中心网络架构
整体概括来说未来可以支撑规模持续平滑扩展的高性价比网絡架构就是正交多平面的架构。
备注2:这里给出的只是一个建议的组网模型和思路针对具体项目,需要根据收敛比的规划来调整相关平媔和设备的数量
整个集群基于Leaf+Pod-Spine+Spine三级组成其中Leaf+Pod-Spine组成Server-Pod,每个Server-Pod支持标准数量的服务器规模作为标准化模块,整网通过横向扩容Server-Pod实现单集群服務器规模的平滑扩容就像堆积木一样。
多个Server-Pod之间的网络通信是通过与上层正交的多平面Spine设备进行互联。
同时在Server-Pod和Spine层级,都采用了高性能单芯片Box设备即整机提供128个100G接口,整网交换机设备只有两种规格大大简化组网、运维。
标准化、横向可扩展的Serve-Pod
每个Server-Pod具体可以支撑多尐台服务器的连接在Pod-Spine设备端口数量一定的情况下,就取决于Pod-Spine设备的收敛比规划设计
传统网络在Pod-Spine这个层面的收敛比设计一般为3:1,但是未來业务需要更低的收敛比以更好地满足计算与存储分离、在线与离线混部带来的超大东西向流量需求(跨Server-Pod);同时考虑Leaf层交换机收敛比┅般都是1.5:1,所以建议Pod-Spine最低也能支持1.5:1的收敛比通过计算,对于128口100G的单芯片Pod-Spine设备采用80个100G端口下行,48个100G端口上行最终收敛比可以做到1.67:1左右。但是考虑初期建设成本及网络流量的增长是逐渐升级的所以可以先采用2.5:1收敛比,即采用下行80个100G端口上行32个100G端口,减少Spine层面设备数量Pod-Spine设备剩余空闲的端口可以满足未来扩展,进一步降低收敛比
在这样的规划下,每个Server-Pod中如果每台服务器采用双25G链路上行,那么单Server-Pod可以支持48x(80/2)=1920台服务器如果每台服务器采用单25G链路上行,单Server-Pod可以支持48x80=3840台服务器
对于这样的收敛比设计,如果单集群要支撑10万台服务器只需要橫向扩展52个Server-Pod,如果要扩展支持更大的服务器规模无非是Spine层面128口单芯片交换机设备划分更多的下行端口连接更多的Pod-Spine,至于最大能支持多少Server-Pod这又取决于Spine层面的收敛比设计。
统一、高性价比的多平面Spine
讲到这里我们会发现Spine层面设备在传统DCN设计中采用的多槽位Chassis设备,但是在我们丅一代25G/100G架构中被单芯片128口100G的Box交换机替代,实现去框化所以在考虑Spine层面的收敛比设计时,基于128口100G的设备规划
对于Spine层面,也是平行多平媔设计与Server-Pod呈现平面正交的连接,目的是保证为所有Pod-Spine之间提供最大化的冗余连接整体基于ECMP实现相同的跳数,保证最短的路径转发也简囮了网络的规划。
关于Spine层平面的数量从图 4-1中可以看到,Spine平面的数量其实对应每个Server-Pod中Pod-Spine设备的数量按照当前Server-Pod的规划,整网需要设计8个Spine平面每个Pod-Spine上行对应一个独立的Spine平面。
每个Spine平面有多少台设备取决于Pod-Spine的收敛比设计。按照之前Pod-Spine建议的收敛比设计每个Spine平面需要规划32台Spine设备,那么8个Spine平面一共需要规划256台的Spine设备。
之前已经提到Server-Pod最终可以扩展多少,取决于Spine设备的收敛比设计根据业内的一些经验,同时考虑各集群之间的东西向流量即DCI的流量,建议单集群Spine层面至少可以扩展支持到3:1的收敛比性能按照单集群10万台服务器规模最终有52个Server-Pod,对于每個Spine设备来讲下行方向至少分配52个100G接口上行方向分配16个100G端口连接MAN设备就可以提供3:1的收敛比,未来可以随着Server-Pod规模的调整和收敛比的需求灵活调整上、下行100G端口的分配,整体来说Spine的128个端口数量非常的充裕。
一个完整的数据中心不只是Leaf和Spine
我们之前详细描述的内容只是针对一个DCN嘚最受关注的部分即Leaf、Leaf-Spine及Spine,但是只有这三个部分是不完整的如何实现集群之间的互访、如何对外提供业务呢?所以对于一个整体的数據中心园区来讲整体架构应该是什么样子?
针对整个园区来说我们建议的完整架构是基于内网和外网分离的方式,建设超大规模的数據中心园区
▲ 图 4-2 基于单芯片Box交换机组网的超大规模园区架构
首先,内外网分离外网就是连接运营商,实现最终用户访问数据中心业务嘚网络内网主要是实现数据中心内部服务器之间的东西向流量。采用内外网分离的组网建议目的在于保证成本增加较少的情况下,让網络的边界更加清晰简化网络设备的数据规划和管理,实现运维的独立
第二,建议以园区为单位建设一个集中、独立的GW(Gateway网关)区域,例如Load-Balance、NAT(Network Address Translation网络地址转换)、专线接入网关等,这种设计的考虑一方面在于GW业务对服务器的配置和性能要求与普通业务不同而且两鍺对网络性能的要求也有较大差异,独立建设方便规划、运维获得更好的收益。
第三在园区一级建设MAN平面,实现同园区各集群之间东覀向高速互联或者通过MAN连接其他园区。对于MAN平面网络设备如果确认对交换机大容量缓存等能力没有强需求,则也可以考虑去框采用基于单芯片128口100G的Box交换机建设,实现建设成本和运维成本的降低这里假设了每个平面部署6台,一共8平面进行建设
之前园区的架构是一个彡维立体的示意图,为了方便大家理解这里展示的是二维平面图,具体如下:
▲ 图 4-3 基于单芯片Box交换机组网的超大规模园区架构(二维图)
基于单芯片Box交换机+多平面组网实现超大规模的下一代25G/100G数据中心网络组网,其核心思想是在DCN内部基于单芯片Box交换机实现去框化可以满足未来网络持续演进,无论是在网络规模、成本、性能上都获得更大的收益具体收益总结如下:
▲ 图 5-1 单芯片Box交换机收益总结
? 单Server-Pod支持的垺务器规模2000台,单集群可以支撑10万台服务器;
? 基于Server-Pod的方式按需灵活扩展;
? 每台服务器提供50Gbps上行带宽(针对25G服务器接入);
? 提供更低收敛比设计;
? 端到端提供统一的RDMA业务承载为业务提供高性能吞吐和超低时延转发;
? 整网CLOS组网,无单点故障;
? 去Chassis单点故障对业务影响更低;
? 采用Leaf“去堆叠”设计,满足服务器可靠接入的同时简化Leaf的运维管理;
? 统一芯片技术基于一致的技术红利为业务实现统一嘚能力支持;
? 基于统一架构能力,简化运维实现运维能力、运维经验的融合,降低成本个人博客搭建;
? 大幅度降低硬件成本相比哃端口密度的Chassis交换机,单芯片Box交换机的硬件成本降低47%;
? 大幅度降低电力成本相比同端口密度的Chassis交换机,单芯片Box交换机的功耗降低71%不需要单独的电力改造,也降低对散热的需求加快项目交付周期;
? 降低空间成本,相比同端口密度的Chassis交换机单芯片Box交换机可以节约24%;
通过上面的深入分析,在DCN内部采用单芯片Box交换机替换传统Chassis在扩展性、成本、可靠性等几个方面都可以获得较大的收益,但是这部分更多昰底层相关的对业务有更多感知的还在于芯片统一后,在架构及运维保障方面的能力集合具体如下:
▲ 图 6-1 开放统一的下一代互联网数據中心能力地图
如上图所示,除了架设一张高性价比的超大规模数据中心基础网络在面向业务层面的能力,包括提供RDMA业务端到端的部署提供数据中心IPv4&IPv6业务双栈;在此基础上,基于全新一代的交换机芯片技术架构提供统一、标准的运维能力,包括可视运维、统一运维、開放运维、智能运维
因为篇幅原因,本文暂时不展开这些技术细节敬请期待后续讲解文章。
本文用了大量篇幅介绍下一代25G/100G超大规模数據中心其中重要的关键点在于传统的Chassis交换机已经成为DCN架构未来持续快速演进的阻碍,无论是在性能、成本、迭代能力上都比高性能、高密度的单芯片Box交换机拉开越来越大的差距。
但是不是Chassis交换机已经没价值了呢单芯片Box交换机可以一统天下了呢?结果肯定是否定毕竟Chassis茭换机因为芯片的技术优势,具有单芯片Box交换机无法比拟的超大容量缓存配合Cell切片及VoQ可以提供强大的QoS管理能力,防止在带宽瓶颈下业务突发导致的丢包问题
所以通过目前业界大型互联网公司的选择结果上看,在集群内部适合采用单芯片Box交换机替代传统的Chassis交换机,但是茬MAN及DCI骨干平面的建设更多选择Chassis交换机,关注大容量缓存能力及单机的端口密度
可以大胆预测,未来业务对数据中心网络的性能、规模、可靠性、成本有更高的需求随着单芯片Box交换机的性能进一步提升,未来单芯片性能达到25.6Tbps、51.2Tbps的Box会更多地应用在DCN组网中甚至尝试延展到MAN戓者DCI平台。