人工智能芯片有兩個功能。AI 構(gòu)建者首先獲取大量(或真正龐大的)數(shù)據(jù)集并運(yùn)行復(fù)雜的軟件來尋找該數(shù)據(jù)中的模式。這些模式被表示為模型,因此我們有芯片來“訓(xùn)練”系統(tǒng)生成模型。
然后,該模型用于根據(jù)新數(shù)據(jù)進(jìn)行預(yù)測,并且該模型從該數(shù)據(jù)中推斷出一些可能的結(jié)果。在這里,推理芯片針對已經(jīng)訓(xùn)練過的模型運(yùn)行新數(shù)據(jù)。這兩個目的是非常不同的。
訓(xùn)練芯片旨在全速運(yùn)行,有時一次運(yùn)行數(shù)周,直到模型完成。因此,訓(xùn)練芯片往往很大。
推理芯片更加多樣化,其中一些用于數(shù)據(jù)中心,另一些用于智能手機(jī)和攝像機(jī)等設(shè)備的“邊緣”。這些芯片往往更加多樣化,旨在優(yōu)化不同方面,例如邊緣的電源效率。當(dāng)然,還有各種中間變體。關(guān)鍵是“AI芯片”之間存在很大差異。
對于芯片設(shè)計(jì)師來說,這些是非常不同的產(chǎn)品,但與所有半導(dǎo)體產(chǎn)品一樣,最重要的是在它們上面運(yùn)行的軟件。從這個角度來看,情況要簡單得多,但也復(fù)雜得令人眼花繚亂。
很簡單,因?yàn)橥评硇酒ǔV恍枰\(yùn)行來自訓(xùn)練芯片的模型(是的,我們過于簡單化了)。之所以復(fù)雜,是因?yàn)樵谟?xùn)練芯片上運(yùn)行的軟件千差萬別。這是至關(guān)重要的?,F(xiàn)在有成百上千個框架用于訓(xùn)練模型。有一些非常好的開源庫,但也有許多大型 AI 公司/超大規(guī)模公司構(gòu)建了自己的庫。
由于訓(xùn)練軟件框架的領(lǐng)域非常分散,實(shí)際上不可能構(gòu)建針對它們優(yōu)化的芯片。正如我們過去指出的那樣,軟件中的小改動可以有效抵消專用芯片提供的增益. 此外,運(yùn)行訓(xùn)練軟件的人希望該軟件針對其運(yùn)行的芯片進(jìn)行高度優(yōu)化。運(yùn)行這個軟件的程序員可能不想弄亂每個芯片的復(fù)雜性,他們的生活已經(jīng)夠辛苦的了,構(gòu)建這些訓(xùn)練系統(tǒng)。他們不想只為一個芯片學(xué)習(xí)低級代碼,以后又要為新芯片重新學(xué)習(xí)技巧和快捷方式。即使該新芯片提供“20%”更好的性能,重新優(yōu)化代碼和學(xué)習(xí)新芯片的麻煩也會使該優(yōu)勢變得毫無意義。
這讓我們想到了 CUDA——Nvidia 的低級芯片編程框架。至此,任何從事培訓(xùn)練系統(tǒng)工作的軟件工程師都可能對使用 CUDA 有所了解。CUDA并不完美、優(yōu)雅或特別簡單,但它很熟悉。巨大的財(cái)富建立在這樣的奇思妙想之上。由于用于訓(xùn)練的軟件環(huán)境已經(jīng)如此多樣化且變化迅速,因此訓(xùn)練芯片的默認(rèn)解決方案是 Nvidia GPU。
所有這些人工智能芯片的市場目前規(guī)模為數(shù)十億美元,預(yù)計(jì)在可預(yù)見的未來每年將增長 30% 或 40%。麥肯錫的一項(xiàng)研究(可能不是這里最權(quán)威的來源)顯示,到 2025 年,數(shù)據(jù)中心 AI 芯片市場將達(dá)到 130 億美元至 150 億美元——相比之下,目前 CPU 市場總額約為 750 億美元。
在價值 150 億美元的人工智能市場中,大約三分之二是推理,三分之一是訓(xùn)練。所以這是一個相當(dāng)大的市場。所有這一切的一個問題是訓(xùn)練芯片的價格在 1,000 美元甚至 10,000 美元,而推理芯片的價格在 100 美元以上,這意味著訓(xùn)練芯片的總數(shù)只占總數(shù)的一小部分,大約 10%-20% 的單位。
從長遠(yuǎn)來看,這對市場如何形成很重要。
Nvidia 將獲得大量訓(xùn)練利潤,它可以在推理市場競爭中發(fā)揮作用,類似于英特爾曾經(jīng)使用 PC CPU 來填充其晶圓廠和數(shù)據(jù)中心 CPU 以產(chǎn)生大部分利潤。
需要明確的是,英偉達(dá)并不是這個市場上唯一的參與者。AMD 也生產(chǎn) GPU,但從未開發(fā)出有效(或至少被廣泛采用)的 CUDA 替代品。他們在 AI GPU 市場的份額相當(dāng)小,我們認(rèn)為這種情況不會很快改變。
有許多初創(chuàng)公司試圖構(gòu)建訓(xùn)練芯片,但大多因上述軟件問題而陷入困境。值得一提的是,AWS 還部署了自己的、內(nèi)部設(shè)計(jì)的訓(xùn)練芯片,巧妙地命名為Trainium。據(jù)我們所知,這取得了一定的成功,AWS 除了自己的內(nèi)部(大量)工作負(fù)載外,在這里沒有任何明顯的優(yōu)勢。然而,我們知道他們正在推進(jìn)下一代 Trainium,因此他們對目前的結(jié)果一定很滿意。
其他一些超大規(guī)模企業(yè)也可能正在構(gòu)建自己的訓(xùn)練芯片,尤其是谷歌,它即將推出專門針對訓(xùn)練進(jìn)行調(diào)整的新 TPU 變體。這就是市場。簡而言之,我們認(rèn)為訓(xùn)練計(jì)算市場上的大多數(shù)人都希望在 Nvidia GPU 上構(gòu)建他們的模型。
轉(zhuǎn)載微信公眾號:半導(dǎo)體行業(yè)觀察
聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)發(fā)僅為更大范圍傳播,若有異議請聯(lián)系我們修改或刪除:zhangkai@cgbtek.com
COPYRIGHT北京華林嘉業(yè)科技有限公司 版權(quán)所有 京ICP備09080401號