雖然數(shù)據(jù)中心的運營從未如此繁忙,但作為企業(yè)碳減排目標的一部分,數(shù)據(jù)中心運營團隊面臨著減少能耗的壓力。而且,急劇上漲的電價正在給數(shù)據(jù)中心運營商帶來預(yù)算壓力。
隨著數(shù)據(jù)中心專注于支持人們越來越需要的工作和生活的基本技術(shù)服務(wù),數(shù)據(jù)中心的運營如此繁重也就不足為奇了。在沒有放緩跡象的推動下,人們看到與視頻、存儲、計算需求、智能物聯(lián)網(wǎng)集成以及5G連接推出相關(guān)的數(shù)據(jù)使用量大幅增加。然而,盡管工作量不斷增加,但不幸的是,當今許多數(shù)據(jù)中心設(shè)施的運行效率都不夠高。
鑒于數(shù)據(jù)中心的平均工作壽命超過20年,這不足為奇。效率總是取決于數(shù)據(jù)中心設(shè)施的原始設(shè)計,并且基于早已被超越的預(yù)期IT負載。與此同時,變化是一個不變的因素,平臺、設(shè)備設(shè)計、拓撲、功率密度和冷卻要求都隨著新的應(yīng)用的不斷發(fā)展而變化。其結(jié)果是經(jīng)常發(fā)現(xiàn)全球各地的數(shù)據(jù)中心很難將當前和計劃的IT負載與其關(guān)鍵基礎(chǔ)設(shè)施相匹配。隨著數(shù)據(jù)中心需求的增加,這種情況只會加劇。根據(jù)分析師的預(yù)測,從現(xiàn)在到2025年,數(shù)據(jù)中心的工作負載量將以每年20%左右的速度繼續(xù)增長。
傳統(tǒng)的數(shù)據(jù)中心技術(shù)和方法難以滿足這些不斷升級的需求。對可用性進行優(yōu)先級排序在很大程度上是以犧牲效率為代價的,太多的工作仍然依賴于運營人員的經(jīng)驗,并且相信假設(shè)是正確的。不幸的是,有證據(jù)表明這種模式不再適用。遠程傳感器監(jiān)控提供商EkkoSense公司的研究表明,數(shù)據(jù)中心中平均有15%的IT機架在ASHRAE的溫度和濕度指南規(guī)定的范圍之外運行,而由于效率低下甚至導(dǎo)致數(shù)據(jù)中心冷卻能耗高達60%。這是一個主要問題,根據(jù)UptimeInstitute估計,由于冷卻和氣流管理效率低下,全球數(shù)據(jù)中心浪費的能源損失約為180億美元。這相當于浪費了大約1500億度電。
數(shù)據(jù)中心基礎(chǔ)設(shè)施使用的35%的能源用于冷卻,很明顯,傳統(tǒng)的性能優(yōu)化方法錯過了實現(xiàn)效率提升的巨大機會。EkkoSense公司的調(diào)查表明,三分之一的計劃外數(shù)據(jù)中心中斷是由過熱問題引發(fā)的。因此需要找到不同的方法來管理這個問題,可以為數(shù)據(jù)中心運營團隊提供很好的方法來確??捎眯院吞岣咝省?/p>
傳統(tǒng)監(jiān)控技術(shù)的局限性
不幸的是,目前只有大約5%的運維團隊在每個機架上監(jiān)控和報告他們的數(shù)據(jù)中心設(shè)備溫度。此外,DCIM和傳統(tǒng)監(jiān)控解決方案可以提供趨勢數(shù)據(jù),并設(shè)置成在出現(xiàn)故障時提供警報,但這些措施還不夠。它們?nèi)狈Ψ治瞿芰?,無法深入了解問題的原因,以及如何在未來解決和避免問題。
運營團隊認識到這種傳統(tǒng)監(jiān)控技術(shù)有其局限性,但他們也知道根本沒有資源和時間來獲取他們擁有的數(shù)據(jù),并從分析數(shù)據(jù)中獲得有意義的見解。好消息是,現(xiàn)在可以使用技術(shù)解決方案來幫助數(shù)據(jù)中心解決這個問題。
現(xiàn)在是讓數(shù)據(jù)中心與機器學(xué)習(xí)和人工智能相結(jié)合的時候了
機器學(xué)習(xí)和人工智能的應(yīng)用在如何處理數(shù)據(jù)中心運營方面創(chuàng)造了一個新的模式。運營團隊現(xiàn)在可以利用機器學(xué)習(xí)來收集更細粒度的數(shù)據(jù),而不是被過多的性能數(shù)據(jù)淹沒——這意味著他們可以開始實時訪問數(shù)據(jù)中心的運行情況。關(guān)鍵是使其易于訪問,使用智能3D可視化是一種很好的方法,可以讓數(shù)據(jù)中心團隊更輕松地在更深層次上解釋性能和數(shù)據(jù):例如顯示更改和突出顯示異常。
下一階段是應(yīng)用機器學(xué)習(xí)和人工智能分析來提供可行的見解。通過使用機器學(xué)習(xí)算法擴充測量數(shù)據(jù)集,數(shù)據(jù)中心團隊可以立即受益于易于理解的見解,以幫助支持他們的實時優(yōu)化決策。每五分鐘進行一次實時粒度數(shù)據(jù)收集和人工智能/機器學(xué)習(xí)分析相結(jié)合,使運營人員不僅可以查看其數(shù)據(jù)中心設(shè)施中發(fā)生的情況,還可以找出原因,以及應(yīng)該如何處理。
人工智能和機器學(xué)習(xí)支持的分析還可以揭示建議關(guān)鍵領(lǐng)域的可操作更改所需的洞察力,如最佳設(shè)定點、地板格柵布局、冷卻設(shè)施操作以及風(fēng)扇速度調(diào)整等。熱量分析還將顯示安裝機架的最佳位置。而且,由于人工智能能夠?qū)崿F(xiàn)實時可視化,數(shù)據(jù)中心團隊可以快速獲得任何已經(jīng)執(zhí)行更改的即時性能反饋。
人工智能和機器學(xué)習(xí)為數(shù)據(jù)中心運營提供幫助
鑒于減少碳排放量和盡量減少電價上漲影響的壓力,數(shù)據(jù)中心團隊如果要實現(xiàn)其可靠性和效率目標,就需要新的優(yōu)化支持。
利用最新的機器學(xué)習(xí)和人工智能驅(qū)動的數(shù)據(jù)中心優(yōu)化方法當然可以通過減少冷卻能源和使用來產(chǎn)生影響——在幾周內(nèi)即可獲得立竿見影的結(jié)果。將細粒度數(shù)據(jù)置于優(yōu)化計劃的最前沿,數(shù)據(jù)中心團隊不僅能夠消除過熱和電力故障風(fēng)險,還能確保將冷卻能耗成本和碳排放量平均降低30%。很難忽視這種成本節(jié)省可能產(chǎn)生的影響,尤其是在電價快速上漲的時期。如今為優(yōu)化而權(quán)衡風(fēng)險和可用性的日子已經(jīng)一去不復(fù)返了,人工智能和機器學(xué)習(xí)技術(shù)將應(yīng)用在數(shù)據(jù)中心運營的最前沿。