IBM Research稱,已經(jīng)開發(fā)出了一種內(nèi)存計算新方法,可以為微軟和谷歌尋求的高性能和機器學(xué)習(xí)應(yīng)用的硬件加速器提供答案。
在近日Nature Electronics期刊上發(fā)表的一篇論文中,IBM研究人員描述了這種新的“混合精度內(nèi)存計算”方法。
IBM關(guān)注傳統(tǒng)計算體系結(jié)構(gòu)的不同看法,在這種體系結(jié)構(gòu)中,軟件需要在單獨的CPU和RAM單元之間進行數(shù)據(jù)傳輸。
據(jù)IBM稱,這種被稱為“馮·諾依曼”的體系結(jié)構(gòu)設(shè)計,為數(shù)據(jù)分析和機器學(xué)習(xí)應(yīng)用制造了一個瓶頸,這些應(yīng)用需要在處理單元和內(nèi)存單元之間進行更大的數(shù)據(jù)傳輸。傳輸數(shù)據(jù)也是一個耗能的過程。
應(yīng)對這一挑戰(zhàn),IBM給出的一種方法是模擬相變內(nèi)存(PCM)芯片,該芯片目前還處于原型階段,500萬個納米級PCM器件組成500×2000交叉陣列。
PCM的一個關(guān)鍵優(yōu)勢是可以處理大多數(shù)密集型數(shù)據(jù)處理,而無需將數(shù)據(jù)傳輸?shù)紺PU或GPU,這樣以更低的能量開銷實現(xiàn)更快速的處理。
IBM的PCM單元將作為CPU加速器,就像微軟用于加速Bing和加強機器學(xué)習(xí)的FPGA芯片一樣。
據(jù)IBM稱,研究表明在某些情況下,其PCM芯片能夠以模擬的方式進行操作,執(zhí)行計算任務(wù),并提供與4位FPGA存儲器芯片相當(dāng)?shù)臏蚀_度,但能耗降低了80倍。
模擬PCM硬件并不適合高精度計算。所幸的是,數(shù)字型CPU和GPU是適合的,IBM認為混合架構(gòu)可以實現(xiàn)更高性能、更高效率和更高精度的平衡。
這種設(shè)計將大部分處理留給內(nèi)存,然后將較輕的負載交給CPU進行一系列的精度修正。
根據(jù)IBM蘇黎世實驗室的電氣工程師、也是該論文的主要作者Manuel Le Gallo稱,這種設(shè)計有助于云中的認知計算,有助于釋放對高性能計算機的訪問。
Le Gallo表示:“憑借我們現(xiàn)在的精確度,我們可以將能耗降低到是使用高精度GPU和CPU的1/6?!?/p>
“所以我們的想法是,為了應(yīng)對模擬計算中的不精確性,我們將其與標準處理器結(jié)合起來。我們要做的是將大量計算任務(wù)轉(zhuǎn)移到PCM中,但同時得到最終的結(jié)果是精確的。”
這種技術(shù)更適合于如數(shù)字圖像識別等應(yīng)用,其中誤解少數(shù)像素并不會妨礙整體識別,此外還有一些醫(yī)療應(yīng)用。
“你可以用低精度完成大量計算——以模擬的方式,PCM會非常節(jié)能——然后使用傳統(tǒng)處理器來提高精度。”
對于只有1兆字節(jié)大小的IBM原型內(nèi)存芯片,現(xiàn)在還處于初期階段。為了適用于現(xiàn)代數(shù)據(jù)中心的規(guī)?;瘧?yīng)用,它需要達到千兆字節(jié)的內(nèi)存量級,分布在數(shù)萬億個PCM中。
盡管如此,IBM認為可以通過構(gòu)建更大規(guī)模的PCM設(shè)備或使其中PCM并行運行來實現(xiàn)這一目標。