注: 本文轉(zhuǎn)載于行業(yè)媒體光纖在線
原文作者:肖明 (現(xiàn)任天孚通信研發(fā)和戰(zhàn)略副總經(jīng)理)
1/2019,最近和幾個(gè)業(yè)內(nèi)朋友聊天時(shí),發(fā)現(xiàn)很多人對(duì)于數(shù)據(jù)中心使用什么底層網(wǎng)絡(luò)架構(gòu),如何演進(jìn),會(huì)需要什么類型的光電接口,什么數(shù)量級(jí),怎么計(jì)算需求等等問題存在很多疑惑。心血來潮想結(jié)合過往的經(jīng)驗(yàn),寫點(diǎn)東西,權(quán)當(dāng)拋磚引玉,僅供大家參考和討論,個(gè)中偏頗之處還請(qǐng)大家指正。
首先要提到的是摩爾定律(Moore’s law),其在數(shù)據(jù)中心的演進(jìn)中表現(xiàn)的非常明顯。幾乎每2年數(shù)據(jù)中心的交換帶寬在價(jià)格不變的情況下翻倍,從而滿足快速增長的超級(jí)應(yīng)用對(duì)于帶寬的需求,尤其是視頻類的應(yīng)用。比如字節(jié)跳動(dòng)(今日頭條的母公司)旗下在北美的小視頻App,Tik Tok,流量指數(shù)級(jí)暴漲讓其數(shù)據(jù)中心服務(wù)商阿里云在北美不斷忙于升級(jí),當(dāng)然也是“痛并快樂著”。
這里以谷歌的數(shù)據(jù)中心拓?fù)浼軜?gòu)為例,(以后有機(jī)會(huì)再一起探討Facebook,Microsoft等的數(shù)據(jù)中心架構(gòu))。谷歌數(shù)據(jù)中心在過去十來年已經(jīng)演進(jìn)了好幾代,主要是基于Clos網(wǎng)絡(luò)拓?fù)浼軜?gòu),從一開始的Firehose,逐漸演化到Watchtower,Saturn,到近些年不少場合被提到的Jupiter。交換設(shè)備接口速率也從1GbE演進(jìn)到了40GbE/100GbE,400GbE也正在小量應(yīng)用中。圖1給出了谷歌數(shù)據(jù)中心拓?fù)浼軜?gòu)的演變示意,表1則給出了每個(gè)世代的架構(gòu)參數(shù)。更具體的內(nèi)容可以參考知乎上的文章【1】。
Clos網(wǎng)絡(luò)架構(gòu)最早是由Charles Clos于1952年設(shè)計(jì)出的,用多級(jí)的小型交換機(jī)陣列構(gòu)建一個(gè)“無阻塞”的網(wǎng)絡(luò),有這么幾個(gè)特點(diǎn):
? 主要為三級(jí)交換架構(gòu)
? 每一級(jí)的每個(gè)單元都與下一級(jí)的設(shè)備互聯(lián)
? 支持遞歸,帶寬可無限擴(kuò)展,對(duì)任意一臺(tái)服務(wù)器,能使用網(wǎng)卡的最高帶寬與數(shù)據(jù)中心任意一臺(tái)服務(wù)器通信
? 向后兼容,兼容現(xiàn)有的以太網(wǎng)及應(yīng)用
? 到指定的目的地,路由選擇在第一級(jí)是可以有多個(gè)路徑,但后續(xù)交換單元之間只存在唯一一條路由
Clos網(wǎng)絡(luò)架構(gòu)比較簡單,不少白盒機(jī)廠商用Broadcom的交換芯片就可以生產(chǎn)出性能不錯(cuò)的高端交換機(jī)?,F(xiàn)在越來越多的數(shù)據(jù)中心在使用Clos網(wǎng)絡(luò)拓?fù)浼軜?gòu)。
傳統(tǒng)數(shù)據(jù)中心中南北向(關(guān)于網(wǎng)絡(luò)中南北東西的解釋可以參考【2】)的流量較大,但隨著分布式計(jì)算需求的興起,東西向的流量快速加大,一方面分布式計(jì)算導(dǎo)致服務(wù)器之間的訪問需求大幅增加;另一方面,應(yīng)用也變得越來越復(fù)雜,比如物聯(lián)網(wǎng)中的某個(gè)用戶發(fā)起請(qǐng)求,中心服務(wù)器可能需要從眾多邊緣數(shù)據(jù)中心或者服務(wù)器抽取一些數(shù)據(jù),處理后再返回到用戶,如此東西向的流量就變得越來越大,甚至大過南北向流量。這也就是為什么最近幾年數(shù)據(jù)中心之間的互聯(lián)需求增長幅度要快于數(shù)據(jù)中心內(nèi)部互聯(lián),見表2,Cisco global cloud index 2016-2021,
Jupiter是基于一個(gè)40Gbps的數(shù)據(jù)中心網(wǎng)絡(luò),其架構(gòu)有這個(gè)幾個(gè)特點(diǎn):
1. Centauri TOR(Top of Rack)交換機(jī)每一個(gè)基礎(chǔ)單元是一個(gè)4U的機(jī)箱,每一個(gè)含有640G(16x40G)的交換芯片,共計(jì)4x16x40G的交換容量。如果按3:1南北向分配,則可以配置為48x40G容量南向到服務(wù)器,16x40G北向到fabric network,或者以10Gbps為基礎(chǔ)速率,192x10G南向和64x10G北向。當(dāng)然,也可以做1:1分配,南北向各32x40G,如圖2。
2. 中間區(qū)塊(Middle Blocks)由4個(gè)Centauri交換機(jī)組成,其交換容量為4x4x(16x40G),但每個(gè)中間區(qū)塊都由2級(jí)(two-stage)Clos交換機(jī)組成,每一級(jí)可以配置為64x40G北向到Spine交換機(jī),64x40G或者256x10G南向連接32個(gè)TOR交換機(jī)。
3. 每個(gè)匯聚區(qū)塊(Aggregation Blocks)由8個(gè)中間區(qū)塊構(gòu)成,其交換容量為8x(64x40G)即512x40G北向到Spine交換機(jī),南向8x(256x10G)即2048x10G到TOR交換機(jī)。
4. Spine交換機(jī)由2-stage Clos交換機(jī)組成,即2x(64x40G)與匯聚區(qū)塊互聯(lián)。
這樣對(duì)于一個(gè)Jupiter數(shù)據(jù)中心,其架構(gòu)為256個(gè)Spine交換機(jī),南向與64個(gè)匯聚區(qū)塊互聯(lián),每個(gè)匯聚區(qū)塊南向與32個(gè)TOR交換機(jī)互聯(lián),也就意味著總共需要2048(=64x32)個(gè)TOR機(jī)柜;每臺(tái)機(jī)柜可以有最多48臺(tái)服務(wù)器,滿配也就是說98304臺(tái)服務(wù)器;每臺(tái)服務(wù)器可配置2個(gè)高速網(wǎng)卡,即一個(gè)Jupiter數(shù)據(jù)中心會(huì)需要196,608個(gè)10G高速網(wǎng)卡。
從以上的架構(gòu)來看,想必大家已經(jīng)可以自己算出來光電接口的數(shù)量了。這是以最大基礎(chǔ)速率40Gbps的Google Jupiter數(shù)據(jù)中心舉的例子,當(dāng)然如果最大基礎(chǔ)速率是100Gbps或者400Gbps,同時(shí)服務(wù)器網(wǎng)卡最小速率為25Gbps或者50Gbps,大家可以依此方式做相應(yīng)的推演。
當(dāng)然,數(shù)據(jù)中心未來的演進(jìn)還是有不少挑戰(zhàn)的。比如電交換的速率逐漸會(huì)遇到瓶頸,以Broadcom的Switching ASIC為例,從早先2011年發(fā)布的640G交換容量的Trident,到2014年發(fā)布的1.2T Trident 2,2015年發(fā)布的3.2T Tomahawk,到2017年末發(fā)布2018年3季度量產(chǎn)的基于16nm CMOS工藝的12.8T Tomahawk 3,技術(shù)路線圖發(fā)展還是很快的,但后面的25.6T及以上交換芯片的推出時(shí)間存在很多不確定性,主要是因?yàn)樾酒腂GA封裝PIN腳密度,IO數(shù)量快速提升難度很大。
如上圖4,因?yàn)楣韫饧夹g(shù)的引入,一臺(tái)刀片服務(wù)器的尺寸可以大幅削減60%以上,同時(shí),速率大幅提升以及功耗的大幅下降是顯然易見的好處。這也就直接驅(qū)動(dòng)主流的芯片公司甚至具體設(shè)備商們,最近幾年大量投入在硅光技術(shù)(Silicon Photonics,SiP),以及2.5D/3D的芯片封裝技術(shù)等。關(guān)于硅光技術(shù),以后再找機(jī)會(huì)做專題討論。
另外,也有幾個(gè)問題會(huì)限制數(shù)據(jù)中心的發(fā)展速度,比如IEEE在PCIe總線接口標(biāo)準(zhǔn)的演進(jìn)太慢,目前主流仍然是PCIe 3.0,每個(gè)lane的速率僅為8Gbps,不少業(yè)內(nèi)專家也在呼吁直接跳過PCIe 4.0去發(fā)布PICe 5.0,每個(gè)Lane的速率達(dá)到32Gbps,這樣光電速率可以匹配。其它問題,比如SERDES演進(jìn)(25G-50G),數(shù)據(jù)中心制冷(傳統(tǒng)風(fēng)冷到液冷),Serverless等等,也都是不小的話題。
總的來說,未來的數(shù)據(jù)中心架構(gòu)是朝著“模塊化、扁平化、易擴(kuò)展”這幾個(gè)方向在發(fā)展,超大型云服務(wù)商們也越來越重視數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的演進(jìn)和優(yōu)化,物聯(lián)網(wǎng),5G一定會(huì)催生出超級(jí)應(yīng)用,從而推進(jìn)數(shù)據(jù)中心的快速發(fā)展。希望有機(jī)會(huì)與業(yè)內(nèi)人士多多探討這方面的話題。下篇將更多探討光電互聯(lián)接口在數(shù)據(jù)中心的應(yīng)用。
參考文章:
1 Google過去十年發(fā)展數(shù)據(jù)中心網(wǎng)絡(luò)的經(jīng)驗(yàn) 陳宇飛 https://zhuanlan.zhihu.com/p/29945202
2 網(wǎng)絡(luò)的東西南北:拋棄SDN,迎接網(wǎng)絡(luò)虛擬化? https://www.csdn.net/article/2014-01-23/2818233-SDN-Network-Virtualization
3 “Jupiter Raising: A Decade of Clos Topologies and Centralized Control in Google’s Datacenter Network”
4 “Cisco global cloud index 2016-2021 white paper”
5 “Facebook’s Data center Network Architecture”
6 肖明,2016年,“Future Data Center and High Speed Optics Interconnection”