技術(shù)文章|超大數(shù)據(jù)中心架構(gòu),光電互聯(lián)接口數(shù)量及類型淺談
發(fā)布日期:2019-03-27 來源:天孚通信 肖明 點擊: 6893
注: 本文轉(zhuǎn)載于行業(yè)媒體光纖在線
原文作者:肖明 (現(xiàn)任天孚通信研發(fā)和戰(zhàn)略副總經(jīng)理)
1/2019,最近和幾個業(yè)內(nèi)朋友聊天時,發(fā)現(xiàn)很多人對于數(shù)據(jù)中心使用什么底層網(wǎng)絡架構(gòu),如何演進,會需要什么類型的光電接口,什么數(shù)量級,怎么計算需求等等問題存在很多疑惑。心血來潮想結(jié)合過往的經(jīng)驗,寫點東西,權(quán)當拋磚引玉,僅供大家參考和討論,個中偏頗之處還請大家指正。

首先要提到的是摩爾定律(Moore’s law),其在數(shù)據(jù)中心的演進中表現(xiàn)的非常明顯。幾乎每2年數(shù)據(jù)中心的交換帶寬在價格不變的情況下翻倍,從而滿足快速增長的超級應用對于帶寬的需求,尤其是視頻類的應用。比如字節(jié)跳動(今日頭條的母公司)旗下在北美的小視頻App,Tik Tok,流量指數(shù)級暴漲讓其數(shù)據(jù)中心服務商阿里云在北美不斷忙于升級,當然也是“痛并快樂著”。
這里以谷歌的數(shù)據(jù)中心拓撲架構(gòu)為例,(以后有機會再一起探討Facebook,Microsoft等的數(shù)據(jù)中心架構(gòu))。谷歌數(shù)據(jù)中心在過去十來年已經(jīng)演進了好幾代,主要是基于Clos網(wǎng)絡拓撲架構(gòu),從一開始的Firehose,逐漸演化到Watchtower,Saturn,到近些年不少場合被提到的Jupiter。交換設備接口速率也從1GbE演進到了40GbE/100GbE,400GbE也正在小量應用中。圖1給出了谷歌數(shù)據(jù)中心拓撲架構(gòu)的演變示意,表1則給出了每個世代的架構(gòu)參數(shù)。更具體的內(nèi)容可以參考知乎上的文章【1】。

圖1:谷歌數(shù)據(jù)中心拓撲架構(gòu)的演變示意

表1:谷歌數(shù)據(jù)中心每個世代的架構(gòu)參數(shù)
Clos網(wǎng)絡架構(gòu)最早是由Charles Clos于1952年設計出的,用多級的小型交換機陣列構(gòu)建一個“無阻塞”的網(wǎng)絡,有這么幾個特點:
? 主要為三級交換架構(gòu)
? 每一級的每個單元都與下一級的設備互聯(lián)
? 支持遞歸,帶寬可無限擴展,對任意一臺服務器,能使用網(wǎng)卡的最高帶寬與數(shù)據(jù)中心任意一臺服務器通信
? 向后兼容,兼容現(xiàn)有的以太網(wǎng)及應用
? 到指定的目的地,路由選擇在第一級是可以有多個路徑,但后續(xù)交換單元之間只存在唯一一條路由
Clos網(wǎng)絡架構(gòu)比較簡單,不少白盒機廠商用Broadcom的交換芯片就可以生產(chǎn)出性能不錯的高端交換機?,F(xiàn)在越來越多的數(shù)據(jù)中心在使用Clos網(wǎng)絡拓撲架構(gòu)。
傳統(tǒng)數(shù)據(jù)中心中南北向(關(guān)于網(wǎng)絡中南北東西的解釋可以參考【2】)的流量較大,但隨著分布式計算需求的興起,東西向的流量快速加大,一方面分布式計算導致服務器之間的訪問需求大幅增加;另一方面,應用也變得越來越復雜,比如物聯(lián)網(wǎng)中的某個用戶發(fā)起請求,中心服務器可能需要從眾多邊緣數(shù)據(jù)中心或者服務器抽取一些數(shù)據(jù),處理后再返回到用戶,如此東西向的流量就變得越來越大,甚至大過南北向流量。這也就是為什么最近幾年數(shù)據(jù)中心之間的互聯(lián)需求增長幅度要快于數(shù)據(jù)中心內(nèi)部互聯(lián),見表2,Cisco global cloud index 2016-2021,

表2:Cisco global cloud index 2016-2021
Jupiter是基于一個40Gbps的數(shù)據(jù)中心網(wǎng)絡,其架構(gòu)有這個幾個特點:
1. Centauri TOR(Top of Rack)交換機每一個基礎單元是一個4U的機箱,每一個含有640G(16x40G)的交換芯片,共計4x16x40G的交換容量。如果按3:1南北向分配,則可以配置為48x40G容量南向到服務器,16x40G北向到fabric network,或者以10Gbps為基礎速率,192x10G南向和64x10G北向。當然,也可以做1:1分配,南北向各32x40G,如圖2。

圖2:Centauri TOR(Top of Rack)交換機配置
2. 中間區(qū)塊(Middle Blocks)由4個Centauri交換機組成,其交換容量為4x4x(16x40G),但每個中間區(qū)塊都由2級(two-stage)Clos交換機組成,每一級可以配置為64x40G北向到Spine交換機,64x40G或者256x10G南向連接32個TOR交換機。
3. 每個匯聚區(qū)塊(Aggregation Blocks)由8個中間區(qū)塊構(gòu)成,其交換容量為8x(64x40G)即512x40G北向到Spine交換機,南向8x(256x10G)即2048x10G到TOR交換機。
4. Spine交換機由2-stage Clos交換機組成,即2x(64x40G)與匯聚區(qū)塊互聯(lián)。
這樣對于一個Jupiter數(shù)據(jù)中心,其架構(gòu)為256個Spine交換機,南向與64個匯聚區(qū)塊互聯(lián),每個匯聚區(qū)塊南向與32個TOR交換機互聯(lián),也就意味著總共需要2048(=64x32)個TOR機柜;每臺機柜可以有最多48臺服務器,滿配也就是說98304臺服務器;每臺服務器可配置2個高速網(wǎng)卡,即一個Jupiter數(shù)據(jù)中心會需要196,608個10G高速網(wǎng)卡。

圖3 Jupiter數(shù)據(jù)中心架構(gòu)
從以上的架構(gòu)來看,想必大家已經(jīng)可以自己算出來光電接口的數(shù)量了。這是以最大基礎速率40Gbps的Google Jupiter數(shù)據(jù)中心舉的例子,當然如果最大基礎速率是100Gbps或者400Gbps,同時服務器網(wǎng)卡最小速率為25Gbps或者50Gbps,大家可以依此方式做相應的推演。
當然,數(shù)據(jù)中心未來的演進還是有不少挑戰(zhàn)的。比如電交換的速率逐漸會遇到瓶頸,以Broadcom的Switching ASIC為例,從早先2011年發(fā)布的640G交換容量的Trident,到2014年發(fā)布的1.2T Trident 2,2015年發(fā)布的3.2T Tomahawk,到2017年末發(fā)布2018年3季度量產(chǎn)的基于16nm CMOS工藝的12.8T Tomahawk 3,技術(shù)路線圖發(fā)展還是很快的,但后面的25.6T及以上交換芯片的推出時間存在很多不確定性,主要是因為芯片的BGA封裝PIN腳密度,IO數(shù)量快速提升難度很大。

圖4:引入硅光技術(shù)的刀片服務器
如上圖4,因為硅光技術(shù)的引入,一臺刀片服務器的尺寸可以大幅削減60%以上,同時,速率大幅提升以及功耗的大幅下降是顯然易見的好處。這也就直接驅(qū)動主流的芯片公司甚至具體設備商們,最近幾年大量投入在硅光技術(shù)(Silicon Photonics,SiP),以及2.5D/3D的芯片封裝技術(shù)等。關(guān)于硅光技術(shù),以后再找機會做專題討論。

圖5:硅光內(nèi)部
另外,也有幾個問題會限制數(shù)據(jù)中心的發(fā)展速度,比如IEEE在PCIe總線接口標準的演進太慢,目前主流仍然是PCIe 3.0,每個lane的速率僅為8Gbps,不少業(yè)內(nèi)專家也在呼吁直接跳過PCIe 4.0去發(fā)布PICe 5.0,每個Lane的速率達到32Gbps,這樣光電速率可以匹配。其它問題,比如SERDES演進(25G-50G),數(shù)據(jù)中心制冷(傳統(tǒng)風冷到液冷),Serverless等等,也都是不小的話題。
總的來說,未來的數(shù)據(jù)中心架構(gòu)是朝著“模塊化、扁平化、易擴展”這幾個方向在發(fā)展,超大型云服務商們也越來越重視數(shù)據(jù)中心網(wǎng)絡架構(gòu)的演進和優(yōu)化,物聯(lián)網(wǎng),5G一定會催生出超級應用,從而推進數(shù)據(jù)中心的快速發(fā)展。希望有機會與業(yè)內(nèi)人士多多探討這方面的話題。下篇將更多探討光電互聯(lián)接口在數(shù)據(jù)中心的應用。
參考文章:
1 Google過去十年發(fā)展數(shù)據(jù)中心網(wǎng)絡的經(jīng)驗 陳宇飛 https://zhuanlan.zhihu.com/p/29945202
2 網(wǎng)絡的東西南北:拋棄SDN,迎接網(wǎng)絡虛擬化? https://www.csdn.net/article/2014-01-23/2818233-SDN-Network-Virtualization
3 “Jupiter Raising: A Decade of Clos Topologies and Centralized Control in Google’s Datacenter Network”
4 “Cisco global cloud index 2016-2021 white paper”
5 “Facebook’s Data center Network Architecture”
6 肖明,2016年,“Future Data Center and High Speed Optics Interconnection”
新聞中心
NEWS
服務熱線
86-512-66560886
地址:蘇州高新區(qū)長江路695號
傳真:86-512-66256801
郵編:215129
熱點新聞
-
2025-02-19
-
2024-11-25
-
2024-11-14
-
2024-10-30
-
2024-10-17