Facebook宣布正在打造架頂100Gbit/s的以太網(wǎng)交換機(jī),以用于其下一代數(shù)據(jù)中心上。很多大互聯(lián)網(wǎng)公司都在設(shè)計(jì)自己的系統(tǒng),務(wù)必緊隨先進(jìn)的計(jì)算和半導(dǎo)體技術(shù)的步伐。
Facebook的Wedge100是一個(gè)32×100G交換機(jī),據(jù)傳用的是Broadcom最新Tomahawk交換芯片,最大總吞吐量達(dá)3.2Tbit/s。和以往一樣,F(xiàn)acebook會(huì)開(kāi)源自己的硬件設(shè)計(jì),以供他人制造和使用。預(yù)計(jì)Wedge100將運(yùn)行一個(gè)名為FBOSS的開(kāi)源Linux軟件,F(xiàn)acebook目前在40G交換機(jī)上用的就是FBOSS。
今年8月,F(xiàn)acebook光學(xué)專家描述過(guò)一個(gè)利用100G單模光纖調(diào)制解調(diào)器將100G成本降到1美元/Gbyte的設(shè)計(jì)。該設(shè)計(jì)將距離要求從2公里放寬到了500米,同時(shí)也放寬了工作溫度和產(chǎn)品壽命規(guī)格。它是基于QSFP28可插拔外形,用了4個(gè)25Gbit/s的線路。
Facebook沒(méi)有提供Wedge100部署時(shí)間的細(xì)節(jié),也沒(méi)有給出如何處理來(lái)自100GTOR交換機(jī)匯總數(shù)據(jù)的細(xì)節(jié)。
不到18個(gè)月前??,網(wǎng)絡(luò)巨頭Facebook曾公布過(guò)旗下正在設(shè)計(jì)40Gbit/s的TOR以太網(wǎng)交換機(jī),此為Wedge第一代。此項(xiàng)工作是在2013年底與交換芯片制造商會(huì)面后開(kāi)始的。
Facebook將上述設(shè)計(jì)重新定向?yàn)樗^的“6-pack”的匯聚交換機(jī)。該系統(tǒng)是Facebook一年前宣布新數(shù)據(jù)中心架構(gòu)的重要組成部分。
今年三月,F(xiàn)acebook展示了自己的基于BroadcomTridentII芯片的16×40GWedge,然后又將其設(shè)計(jì)成線路卡和一個(gè)雙插槽卡,用于創(chuàng)建128×40GE6-pack匯聚交換機(jī),基于可以升級(jí)到100G接口版的10G的通道,通道可升級(jí)到25G。
當(dāng)時(shí),F(xiàn)acebook的工程師表示正在弄32×100GE交換機(jī),并有計(jì)劃用到100G和400G光鏈路。
一名Facebook工程師在電子郵件表示,“我們現(xiàn)在在生產(chǎn)線上使用成千上萬(wàn)的Wedge40TOR交換機(jī),我們預(yù)計(jì)將繼續(xù)在相當(dāng)長(zhǎng)一段時(shí)間內(nèi)使用它。”
他表示,“我們?nèi)蕴幱谑褂肳edge100初期階段,等一切就緒后就可以用到我們的下一代數(shù)據(jù)中心上。我們的最終目標(biāo)是在我們所有的數(shù)據(jù)中心的架頂上使用Wedge。”
與來(lái)自Arista和Dell的同款100G芯片比,F(xiàn)acebook設(shè)計(jì)針對(duì)自己的數(shù)據(jù)中心系統(tǒng)做的優(yōu)化想必更嚴(yán)謹(jǐn)些,價(jià)格想必更便宜些。和其他網(wǎng)絡(luò)巨頭一樣,F(xiàn)acebook設(shè)計(jì)自己的龐大計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng),其規(guī)模之大可以想象。
大型數(shù)據(jù)中心的容量已接近計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的極限。各種基于50G結(jié)構(gòu)的400G交換機(jī)仍在實(shí)驗(yàn)室里,800G以太網(wǎng)標(biāo)準(zhǔn)也是最近才定稿。
TheLinleyGroup高級(jí)分析師BobWheeler表示,“那種用16x25Gbit/s技術(shù)的400G以太網(wǎng)提供的價(jià)值不大,而50Gbit/s技術(shù)是關(guān)鍵”,對(duì)下一代系統(tǒng)來(lái)說(shuō)是這樣。他表示,“有些供應(yīng)商目前正在制56Gbit/sPAM4PHY樣品。光模塊可望在2017年投產(chǎn)。”
Facebook在一篇博客文章公布了Wedge100的進(jìn)展。博文還提供了目前40G交換機(jī)的可用性程度的一些細(xì)節(jié)以及其在使用時(shí)遇到的挑戰(zhàn)。
博文指,“常常見(jiàn)到的交換機(jī)失效模式是,CPU出現(xiàn)過(guò)載后滯后于控制平面的職責(zé),比如發(fā)送路由協(xié)議報(bào)文或?qū)SIC編程這一類的職責(zé),這時(shí)通信就會(huì)出現(xiàn)中斷。”
博文稱,“在我們的早期測(cè)試過(guò)程中,我們遇到一些情況,凸顯出保護(hù)CPU和控制平面是非常重要的。我們現(xiàn)在的配置對(duì)從交換機(jī)ASIC發(fā)往CPU的流量設(shè)了硬性限制。此外,我們將控制平面流量的優(yōu)先級(jí)別設(shè)得比交換機(jī)高,以盡量保證組件的控制平面處于運(yùn)行狀態(tài)。“
更多資訊請(qǐng)關(guān)注工業(yè)以太網(wǎng)頻道