眾所周知,摩爾定律即將走到盡頭。隨著越來越多的晶體管被封裝到每個硅芯片上,我們不能再期望處理器能力每兩年翻一番。
這對傳統(tǒng) IT 來說很不方便,傳統(tǒng) IT 一直依賴摩爾定律的持續(xù)紅利。對于人工智能 (AI) 來說,這可能是一場災(zāi)難,它正處于大規(guī)模擴張的邊緣……但這種擴張在很大程度上取決于快速處理。
一家初創(chuàng)公司認(rèn)為,答案是將傳統(tǒng)硅與利用光運行的光子處理器相結(jié)合。
人工智能爆炸
LightMatter 首席執(zhí)行官尼克·哈里斯 (Nick Harris) 表示,人工智能目前正處于快速增長階段:“人們發(fā)現(xiàn)了無法滿足的用例。他們會盡可能多地索取,他們會花掉任何錢。谷歌、微軟、亞馬遜和 Facebook 將為這些東西付出任何代價。”
這是最近的發(fā)展。在經(jīng)歷了 1960 年代和 80 年代的激增之后,人工智能研究進展緩慢。然后在 2012 年,由 Alex Krizhevsky 創(chuàng)建的名為 AlexNet 的神經(jīng)網(wǎng)絡(luò)贏得了在低成本 GPU 硬件上運行的圖像識別競賽。
這顯示了商業(yè)可能性,谷歌收購了 Krizhevsky 的公司,投資開始了。
哈里斯說:“在擴展這些東西方面進行了大量投資?!?投資初見成效。“在過去的十年里,人工智能模型的復(fù)雜度經(jīng)歷了 3.6 個月的翻倍周期?!?/p>
問題是,即使是便宜的通用硅也跟不上。而且,雖然可以在實驗室中為 AI 投入額外的時間和資源,但在將其部署到實際應(yīng)用程序中時,它需要快速的性能。
“人工智能的挑戰(zhàn)在于,你可以訓(xùn)練非常大的模型,但如果你想部署它們并讓人們與它們互動,那么用戶提出查詢和獲得結(jié)果之間的時間非常重要,”哈里斯說。“你需要實時反饋。該領(lǐng)域的最大挑戰(zhàn)是構(gòu)建可以運行這些龐大神經(jīng)網(wǎng)絡(luò)的機器,以便您在幾毫秒內(nèi)得到答案。”
硅跟不上
自 1965 年英特爾的戈登·摩爾 (Gordon Moore) 注意到這一趨勢以來,幾十年來處理器性能每兩年翻一番。
這很好,但這種進步速度不足以跟上本世紀(jì)新興的人工智能,Harris 說:“即使你擁有電子產(chǎn)品的最佳案例擴展,你也沒有真正為它提供動力。”
更糟糕的是,就在更聰明的人工智能到來的那一刻,硅加速的速度減慢了。
摩爾定律之所以成立,是因為芯片制造商可以每兩年將一塊硅片上封裝的晶體管數(shù)量增加一倍。現(xiàn)在,雖然處理器仍在封裝更多晶體管,但它們的運行溫度更高。
“我們遇到這個熱問題的原因是 Dennard Scaling,”Harris 解釋道。羅伯特·丹納德 (Robert Dennard) 發(fā)明了 DRAM,并觀察到越小的晶體管消耗的能量越少,其面積越大:“大約在 2005 年,它壞了。”
今天的快速處理器使用 300W 和更高功率,而 Harris 說這正朝著 1kW 芯片發(fā)展。
“我們?nèi)栽诿繂挝幻娣e上獲得更多的晶體管。但是你不能真正使用它們,因為冷卻解決方案不支持你使用它們。芯片會燃燒。你需要能夠開發(fā)出每瓦執(zhí)行更多操作的芯片。”
進入光子學(xué)
讓芯片變熱的是電阻。當(dāng)電子在電流中流動時,電信號面臨阻力。相比之下,光信號不會面臨同樣的阻力,也不會產(chǎn)生熱量——而且光子的傳播速度也比其他任何東西都快。
多年來,先進的計算機設(shè)計一直試圖引入光子學(xué),并使用“電子進行處理,光子進行通信”,用 HPE 科學(xué)家 John Sontag 的話來說(HPE 是 Lightmatter 的投資者)。
長途通信使用光纖,這些光纖現(xiàn)在深入數(shù)據(jù)中心的機架?!坝行┕句N售 100 Gig 可插拔光學(xué)器件,而他們現(xiàn)在才剛剛部署 400 Gig 可插拔光學(xué)器件。他們通過光纖每秒發(fā)送 400 吉比特的數(shù)據(jù),將空間上分離的機架和物品連接在一起?!?/p>
最近的發(fā)展允許晶體管和光子學(xué)在同一個晶圓上合并,即所謂的“共同封裝光學(xué)”。最初,這被視為一種減小這些光插頭尺寸和功耗的方法,將信號作為光帶入芯片,而不是在 CMOS 芯片的邊界將光信號轉(zhuǎn)換為電信號。
根據(jù)路線圖,“光學(xué)元件越來越接近硅,直到最終,光學(xué)元件與處理器和網(wǎng)絡(luò)芯片進行 3D 堆疊和共同封裝,從而以低能耗提供非常高的數(shù)據(jù)速率?!?/p>
英特爾已經(jīng)展示了一年或更長時間的聯(lián)合封裝光學(xué),Broadcom 已經(jīng)展示了聯(lián)合封裝的光學(xué)開關(guān),Marvell 在 2021 年以 100 億美元收購了光電子公司 Inphi,但業(yè)界對它能否迅速發(fā)揮作用持懷疑態(tài)度。
Dell'Oro Group 分析師 Sameh Boujelbene 在今年對 SDxCentral 的評論中表示:“現(xiàn)在就制定可在未來幾年內(nèi)進行大規(guī)模部署和量產(chǎn)的聯(lián)合封裝光學(xué)解決方案還為時過早。”
Harris 評論說,共同封裝的光學(xué)器件可用于制造用于訓(xùn)練 AI 的高度互連的 GPU 系統(tǒng),但這仍然需要具有交錯光纖“rat’s nest”的計算集群。
“他們計劃使用光學(xué)器件將服務(wù)器內(nèi)部的處理器連接在一起。當(dāng)每個芯片都使用光纖連接到每個其他芯片時,會有性能優(yōu)勢,但很難為這些東西提供服務(wù)?!?/p>
Lightmatter 的方法是將光學(xué)元件進一步推入芯片內(nèi)部,因此所有這些互連都由硅內(nèi)的可切換光子網(wǎng)絡(luò)處理,該網(wǎng)絡(luò)不產(chǎn)生熱量,占用的體積極小。
“光纖是宏觀的,它在毫米的數(shù)量級,”他說?!拔覀兊脑O(shè)備是兩微米。”
這可以大大減少所需的硬件,有效地將一個復(fù)雜的人工智能訓(xùn)練系統(tǒng)集成到一個芯片上:“如果你打開我們的服務(wù)器,里面只有一個芯片。它包含服務(wù)器的所有處理器。它們在芯片內(nèi)部是光學(xué)互連的。他們也可以通過光學(xué)與其他平臺進行通信?!?/p>
他繼續(xù)說道:“最終,這個東西所做的是極端集成,使一切都可以通過光學(xué)互連實現(xiàn),并允許真正荒謬的帶寬。”
它是在商業(yè)硅晶圓廠提供的標(biāo)準(zhǔn)流程中完成的:“我們使用 GlobalFoundries 制造晶圓,”Harris 說?!拔覀兊木w管非常接近隔壁鄰居,距離光子元件不到 100 納米。都是一體的?!?/p>
他說,使用相同的蝕刻工具制造 CMOS 和光子連接,它們與晶體管處于相同的納米尺度。
“我們使用所有相同的蝕刻工具。所以都是完全標(biāo)準(zhǔn)的CMOS。我們使用‘絕緣體晶圓上的硅’,用于生產(chǎn)許多電子芯片?!?/p>
哈里斯和他的同事在麻省理工學(xué)院提出了這個想法,并在 1100 萬美元的啟動資金的幫助下,自 2018 年以來一直在將其商業(yè)化。
走向硅
公司有兩種產(chǎn)品。通道是一種互連,它采用傳統(tǒng)處理器陣列并將它們連接起來,使用可編程的片上光網(wǎng)絡(luò)。
“激光器與調(diào)制器和晶體管一起集成到平臺中,”他說?!叭绻阌脪呙桦娮语@微鏡觀察這個東西,你可以看到波導(dǎo)——它們相距約兩微米,寬幾百納米?!?/p>
另一個產(chǎn)品是 Envise,一種通用的云推理加速器,它將計算元素與光子計算核心結(jié)合在一起。
這里的承諾是解決人工智能處理速度的問題:“我們的延遲提高了大約 42 倍,因為處理是以光速進行的。當(dāng)光穿過芯片時,你正在做乘法和加法。
該技術(shù)仍處于早期階段,但哈里斯表示,Lightmatter 擁有“大約五個客戶”,都是大型企業(yè)。該公司在實驗室中擁有硅,并將于 2022 年晚些時候全面上市。
“在 Passage 案例中,我們正在研究芯片之間的通信,而在 Envise 方面,光學(xué)處理核心有助于提供通信能量,同時還可以卸載計算機操作,”Harris 說。
哈里斯說,這些產(chǎn)品是“大芯片”。與另一家 AI 芯片初創(chuàng)公司 Cerebras 非常相似,Lightmatter 發(fā)現(xiàn)可以在單個晶圓上集成多個內(nèi)核和網(wǎng)絡(luò)。
Cerebras 在商業(yè)上得到進一步發(fā)展,其產(chǎn)品被愛丁堡大學(xué)的 EPCC 超級計算中心和生物制藥公司 AbbVie 等采用。然而,它不得不創(chuàng)建自己的液體冷卻系統(tǒng)來處理片上網(wǎng)絡(luò)產(chǎn)生的熱量。
Lightmatter 的光網(wǎng)絡(luò)用光子發(fā)送信號并且運行溫度更低。它也更小一些,但仍然是“幾英寸寬”,通道適合一個 8 英寸乘 8 英寸的芯片插座:“這是我一生中見過的最大的芯片插座?!?/p>
然而,它確實提供了“荒謬”的帶寬:768Tbps。
晶圓尺寸的芯片聽起來像是一種負(fù)擔(dān),因為所有硅晶圓都可能存在小點缺陷,因此大晶圓出現(xiàn)故障的可能性更高。“我們在良率工程方面做了很多工作,”哈里斯說?!暗酒系木w管并不多?!?/p>
晶體管越少,出現(xiàn)點缺陷的可能性就越?。骸拔覀兊拿芏确浅5?,因此在制造過程中出現(xiàn)導(dǎo)致晶體管失效的點缺陷的可能性非常低。成品率最終很高,因為它不是一個非常密集的晶體管電路?!?/p>
應(yīng)用
哈里斯說,這方面的第一個應(yīng)用將是對實時視頻進行分析的公司。這些可能包括安全公司,但也包括使用攝像頭監(jiān)控生產(chǎn)線以發(fā)現(xiàn)零件何時存在缺陷的公司。
它還可能對語音分析和其他 AI 應(yīng)用有用:“它是全面的?!?/p>
有一個共同因素——客戶對谷歌首創(chuàng)的“變形金剛”型神經(jīng)網(wǎng)絡(luò)感興趣,并希望以更低的成本實施它們
“第一個應(yīng)用程序主要是試圖解決每次推理的美元成本。如果你是一名在谷歌云上工作的產(chǎn)品人員,有很多你想部署的 AI 模型,但你負(fù)擔(dān)不起,因為每次推理的成本沒有意義?!?/p>
這一切都會奏效嗎?一個積極的跡象是加入公司的工程師的才能。
Richard Ho 是谷歌定制 AI 芯片系列 Tensor Processing Unit (TPU) 的領(lǐng)導(dǎo)者之一,他于 8 月加入 LightMatter,之前是英特爾 AI 集團數(shù)據(jù)中心工程副總裁 Ritesh Jain。5 月,它聘請了 Apple 財務(wù)總監(jiān) Jessie Zhang 擔(dān)任財務(wù)副總裁。
光子計算的前景可能是光明的。
轉(zhuǎn)載微信公眾號:半導(dǎo)體行業(yè)觀察
聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)發(fā)僅為更大范圍傳播,若有異議請聯(lián)系我們修改或刪除:zhangkai@cgbtek.com
COPYRIGHT北京華林嘉業(yè)科技有限公司 版權(quán)所有 京ICP備09080401號