一些過熱的晶體管可能不會對可靠性產(chǎn)生很大影響,但數(shù)十億個晶體管產(chǎn)生的熱量會影響可靠性。對于 AI/ML/DL 設計尤其如此,高利用率會增加散熱,但熱密度會影響每個先進的節(jié)點芯片和封裝,這些芯片和封裝用于智能手機、服務器芯片、AR/VR 和許多其他高性能設備。對于所有這些,DRAM布局和性能現(xiàn)在是首要的設計考慮因素。
無論架構(gòu)多么新穎,大多數(shù)基于 DRAM 的內(nèi)存仍面臨因過熱而導致性能下降的風險。易失性內(nèi)存的刷新要求(作為標準指標,大約每 64 毫秒一次)加劇了風險?!爱敎囟忍岣叩?85°C 以上時,就需要更頻繁地刷新電容器上的電荷,設備就將轉(zhuǎn)向更頻繁的刷新周期,這就是為什么當設備變得越來越熱,電荷從這些電容器中泄漏得更快的原因。不幸的是,刷新該電荷的操作也是電流密集型操作,它會在 DRAM 內(nèi)部產(chǎn)生熱量。天氣越熱,你就越需要更新它,但你會繼續(xù)讓它變得更熱,整個事情就會分崩離析?!?/p>
除了DRAM,熱量管理對于越來越多的芯片變得至關重要,它是越來越多的相互關聯(lián)的因素之一,必須在整個開發(fā)流程中加以考慮,封裝行業(yè)也在尋找方法解決散熱問題。選擇最佳封裝并在其中集成芯片對性能至關重要。組件、硅、TSV、銅柱等都具有不同的熱膨脹系數(shù) (TCE),這會影響組裝良率和長期可靠性。
帶有 CPU 和 HBM 的流行倒裝芯片 BGA 封裝目前約為 2500mm 2。一個大芯片可能變成四五個小芯片,總的來說,這一趨勢會持續(xù)發(fā)展下去,因為必須擁有所有 I/O,這樣這些芯片才能相互通信。所以可以分散熱量。對于應用程序,這可能會對您有所一些幫助。但其中一些補償是因為你現(xiàn)在有 I/O 在芯片之間驅(qū)動,而過去你在硅片中需要一個內(nèi)部總線來進行通信。
最終,這變成了一個系統(tǒng)挑戰(zhàn),一系列復雜的權衡只能在系統(tǒng)級別處理??梢酝ㄟ^先進的封裝實現(xiàn)很多新事物,但現(xiàn)在設計要復雜得多,當一切都如此緊密地結(jié)合在一起時,交互會變多。必須檢查流量。必須檢查配電。這使得設計這樣的系統(tǒng)變得非常困難。
事實上,有些設備非常復雜,很難輕易更換組件以便為特定領域的應用程序定制這些設備。這就是為什么許多高級封裝產(chǎn)品適用于大批量或價格彈性的組件,例如服務器芯片。對具有增強散熱性能的制造工藝的材料需求一直在強勁增長。
液冷技術成為最佳選項
日前,英偉達發(fā)布了率先采用直接芯片(Direct-to-Chip)冷卻技術的數(shù)據(jù)中心 PCIe GPU,為可持續(xù)發(fā)展貢獻了自己的力量。
Equinix 正在驗證 A100 80GB PCIe 液冷 GPU 在其數(shù)據(jù)中心的應用,這也是該公司為實現(xiàn)可持續(xù)性冷卻和熱量捕獲的綜合性方案中的一部分。GPU 現(xiàn)已進入試用階段,預計將于今年夏季正式發(fā)布。
Equinix 是一家全球服務提供商,旗下管理的數(shù)據(jù)中心超過 240 個,致力于在業(yè)內(nèi)率先實現(xiàn)氣候中和。
Equinix 通過優(yōu)化電源使用效率 (PUE),以期減少對環(huán)境的影響。PUE 是一種行業(yè)指標,用于衡量數(shù)據(jù)中心使用的能源有多少直接用于計算任務。
數(shù)據(jù)中心運營商正試圖將 PUE 降至接近 1.0 的理想水平。Equinix 設施目前的平均PUE為 1.48,而其旗下新數(shù)據(jù)中心的 PUE 最低可低于 1.2。
在單獨的測試中,Equinix 和 NVIDIA 均發(fā)現(xiàn):采用液冷技術的數(shù)據(jù)中心工作負載可與風冷設施持平,同時消耗的能源減少了約 30%。NVIDIA 估計,液冷數(shù)據(jù)中心的 PUE 可能達到 1.15,遠低于風冷的 PUE 1.6。
在空間相同的條件下,液冷數(shù)據(jù)中心可以實現(xiàn)雙倍的計算量。這是由于 A100 GPU 僅使用一個 PCIe 插槽,而風冷 A100 GPU 需使用兩個 PCIe 插槽。
“這是我們實驗室中引入的首款液冷 GPU,我們倍感興奮,因為客戶迫切希望通過可持續(xù)的方式來利用 AI?!盓quinix 邊緣基礎設施主管 Zac Smith說道。
數(shù)據(jù)中心運營商旨在淘汰用于冷卻數(shù)據(jù)中心內(nèi)部氣體的冷水機組,因其每年會蒸發(fā)數(shù)百萬加侖的水量。而借助液冷技術,系統(tǒng)僅需對封閉系統(tǒng)中的少量液體進行循環(huán)利用,并能夠著重于主要的發(fā)熱點。
至少有十幾家系統(tǒng)制造商計劃于今年晚些時候在其產(chǎn)品中使用液冷 GPU,包括華碩(ASUS)、永擎電子(ASRock Rack)、富士康工業(yè)互聯(lián)網(wǎng)(Foxconn Industrial Internet)、技嘉科技(GIGABYTE)、新華三(H3C)、浪潮(Inspur)、英業(yè)達(Inventec)、寧暢(Nettrix)、云達科技(QCT)、 超微(Supermicro)、 緯穎科技(Wiwynn)和超聚變(xFusion)。
液冷技術的使用范圍并不局限于數(shù)據(jù)中心,汽車和其他系統(tǒng)也需要利用該項技術來冷卻封閉空間內(nèi)的高性能系統(tǒng)。
硅同位素導熱性比傳統(tǒng)硅好150%
隨著科技進步,許多電子產(chǎn)品尺寸越做越小,但由于電流一通過就產(chǎn)生熱,所以過熱成為電子設備縮小尺寸的一大阻礙。科學家發(fā)現(xiàn),從硅的同位素所制成的納米線,比普通硅的導熱性還好150%,未來有望應用在計算機芯片,使其溫度大幅降低。
當電子系統(tǒng)運行時,電流產(chǎn)生大量的熱,累計久了就會損壞組件,因此科技業(yè)也開始發(fā)展冷卻技術,但隨著電子產(chǎn)品越來越小,有效散熱更加困難。
研究人員發(fā)現(xiàn),硅的同位素“硅-28”(Si-28),有助于制造出冷卻性能超乎預期的計算機芯片。至少有92%的硅以硅-28的形式存在,另外5%為硅-29(Si-29),剩下為硅-30(Si-30)。雖然這些同位素具有相同的電子功能,但以往研究發(fā)現(xiàn),硅-29和硅-30中的“雜質(zhì)”會中斷熱量流動。
至于用硅-28所制成的散裝組件,可提高10%熱傳導性,但并不值得付出額外成本制作。研究人員之后使用硅-28制成的納米線,發(fā)現(xiàn)導熱性意外地好,原本預計可改善20%效果,想不到性能竟比天然硅制成的納米線好150%。
原因是納米線外部形成一層二氧化硅(silicon dioxide),撫平了散熱時的粗糙表面,線內(nèi)部因為沒有其他同位素的問題,熱量能順利地通過納米線的核心。
這有助于新的計算機芯片研發(fā),讓這些芯片更有效地將熱量發(fā)送出去,不過從其他同位素中分離出硅-28相當困難且昂貴,但相信未來在這方面也能取得進展。
封裝行業(yè)正在采用新技術應對芯片散熱問題
工程師們正在尋找新的方法來在封裝模塊構(gòu)建之前對封裝可靠性進行熱分析。例如,西門子提供了一個基于雙 ASIC 的模塊的示例,該模塊包含一個扇出再分布層 (RDL),該扇出再分配層 (RDL) 安裝在 BGA 封裝中的多層有機基板頂部。它使用了兩種模型,一種用于基于 RDL 的 WLP,另一種用于多層有機基板 BGA。這些封裝模型是參數(shù)化的,包括在引入 EDA 信息之前的襯底層堆疊和 BGA,并支持早期材料評估和芯片放置選擇。接下來,導入 EDA 數(shù)據(jù),對于每個模型,材料圖可以對所有層中的銅分布進行詳細的熱描述。
量化熱阻
如何通過硅芯片、電路板、膠水、TIM 或封裝蓋傳遞是眾所周知的。存在標準方法來跟蹤每個界面處的溫度和電阻值,它們是溫差和功率的函數(shù)。
“熱路徑由三個關鍵值來量化——從器件結(jié)到環(huán)境的熱阻、從結(jié)到外殼(封裝頂部)的熱阻以及從結(jié)到電路板的熱阻,”
詳細的熱模擬是探索材料和配置選項的最便宜的方法。“運行芯片的模擬通常會識別一個或多個熱點,因此我們可以在熱點下方的基板中添加銅以幫助散熱或更換蓋子材料并添加散熱器等。對于多個芯片封裝,我們可以更改配置或考慮采用新方法來防止熱串擾。有幾種方法可以優(yōu)化高可靠性和熱性能,”
在模擬之后,包裝公司執(zhí)行實驗設計 (DOE) 以達到最終的包裝配置。但由于使用專門設計的測試車輛的 DOE 步驟耗時且成本更高,因此首先利用仿真。
選擇 TIM
在封裝中,超過 90% 的熱量通過封裝從芯片頂部散發(fā)到散熱器,通常是帶有垂直鰭片的陽極氧化鋁基。具有高導熱性的熱界面材料 (TIM) 放置在芯片和封裝之間,以幫助傳遞熱量。用于 CPU 的下一代 TIM 包括金屬薄板合金(如銦和錫)和銀燒結(jié)錫,其傳導功率分別為 60W/mK 和 50W/mK。
隨著公司從大型 SoC 過渡到小芯片模塊,需要更多種類的具有不同特性和厚度的 TIM。
Amkor 研發(fā)高級總監(jiān) YoungDo Kweon 在最近的一次演講中表示,對于高密度系統(tǒng),芯片和封裝之間的 TIM 的熱阻對封裝模塊的整體熱阻具有更大的影響?!肮β授厔菡诩眲≡黾?,尤其是在邏輯方面,因此我們關心保持低結(jié)溫以確??煽康陌雽w運行,”Kweon 說。他補充說,雖然 TIM 供應商為其材料提供熱阻值,但從芯片到封裝的熱阻,在實踐中,受組裝過程本身的影響,包括芯片和 TIM 之間的鍵合質(zhì)量以及接觸區(qū)域。他指出,在受控環(huán)境中使用實際裝配工具和粘合材料進行測試對于了解實際熱性能和為客戶資格選擇最佳 TIM 至關重要。
孔洞是一個特殊的問題?!安牧显诜庋b中的表現(xiàn)方式是一個相當大的挑戰(zhàn)。你已經(jīng)掌握了粘合劑或膠水的材料特性,材料實際潤濕表面的方式會影響材料呈現(xiàn)的整體熱阻,即接觸電阻,”西門子的 Parry 說?!岸疫@在很大程度上取決于材料如何流入表面上非常小的缺陷。如果缺陷沒有被膠水填充,它代表了對熱流的額外阻力?!?/p>
以不同的方式處理熱量
芯片制造商正在擴大解決熱量限制的范圍?!叭绻銣p小芯片的尺寸,它可能是四分之一的面積,但封裝可能是一樣的。是德科技內(nèi)存解決方案項目經(jīng)理 Randy White 表示,由于外部封裝的鍵合線進入芯片,因此可能存在一些信號完整性差異。“電線更長,電感更大,所以有電氣部分。如果將芯片的面積減半,它會更快。如何在足夠小的空間內(nèi)消散這么多的能量?這是另一個必須研究的關鍵參數(shù)?!?/p>
這導致了對前沿鍵合研究的大量投資,至少目前,重點似乎是混合鍵合。“如果我有這兩個芯片,并且它們之間幾乎沒有凸起,那么這些芯片之間就會有氣隙,”Rambus 的 Woo 說?!斑@不是將熱量上下移動的最佳導熱方式??赡軙靡恍〇|西來填充氣隙,但即便如此,它還是不如直接硅接觸好。因此,混合直接鍵合是人們正在做的一件事?!?/p>
但混合鍵合成本高昂,并且可能仍僅限于高性能處理器類型的應用,臺積電是目前僅有的提供該技術的公司之一。盡管如此,將光子學結(jié)合到 CMOS 芯片或硅上 GaN 的前景仍然巨大。
而且華為也采取了芯片封裝的方法為芯片降溫。2021年,華為技術有限公司之前公開了“芯片封裝組件、電子設備及芯片封裝組件的制作方法”專利,公開號為 CN113707623A。
企查查專利摘要顯示,本申請公開了一種芯片封裝組件、電子設備及芯片封裝組件的制作方法。
芯片封裝組件包括封裝基板、芯片和散熱部,封裝基板包括上導電層、下導電層和連接在上導電層和下導電層之間的導電部;芯片包括相背設置的正面電極和背面電極,芯片內(nèi)嵌在封裝基板內(nèi),導電部包圍芯片,正面電極與下導電層連接,背面電極與上導電層連接;散熱部連接于上導電層遠離芯片的表面;上導電層、下導電層和導電部均具導熱性能。
本申請通過設置芯片與封裝基板的上導電層以及下導電層連接,從而芯片產(chǎn)生的熱量可進行雙向傳導散熱,并在上導電層上設置散熱部,使得芯片封裝組件能夠達到更優(yōu)的散熱效果。
當前,電子設備越來越輕薄,芯片封裝組件的集成度越來越高,存在著較為嚴重的散熱問題,芯片無法得到有效散熱的話,會有一定的安全隱患,華為這項專利可以較好的解決部分散熱問題。