中國的AI模擬芯片據(jù)稱在計(jì)算機(jī)視覺任務(wù)中比Nvidia A100快

來源: 西安童程童美少兒編程培訓(xùn)碑林交大校區(qū) 發(fā)布時(shí)間:2023-12-12

中國清華大學(xué)的一篇新論文描述了專門用于計(jì)算機(jī)視覺任務(wù)的超快速、人工智能處理芯片的開發(fā)和運(yùn)行。該芯片名為電子與光計(jì)算相結(jié)合的全模擬芯片 (ACCEL),在專門的架構(gòu)中利用光子和模擬計(jì)算,能夠在圖像分類工作負(fù)載中提供 Nvidia A100 3.7 倍以上的性能。是的,它是一款用于視覺任務(wù)的專用芯片,但我們不應(yīng)該將其視為市場(chǎng)碎片化,而是可以將其視為邁向異構(gòu)計(jì)算未來的又一步,其中半導(dǎo)體越來越多地設(shè)計(jì)用于滿足特定需求,而不是“捕獲”。所有”配置。

正如《自然》雜志上發(fā)表的論文所述,模擬的 ACCEL 處理器在視覺任務(wù)中達(dá)到了每秒 4,600 次萬億次運(yùn)算 (TOPS)。與 Nvidia 的A100 (Ampere)相比,這具有 3.7 倍的性能優(yōu)勢(shì),后者在 INT8 工作負(fù)載(稀疏)中的峰值為 1,248 TOPS。根據(jù)該研究論文,ACCEL 的系統(tǒng)能源效率為每秒每瓦 74.8 peta 操作。此后,Nvidia 的 A100 被 Hopper 及其 800 億晶體管 H100 超級(jí)芯片所取代,但即便如此,與這些結(jié)果相比,這看起來也并不令人印象深刻。

當(dāng)然,速度對(duì)于任何處理系統(tǒng)都是至關(guān)重要的。然而,準(zhǔn)確性對(duì)于計(jì)算機(jī)視覺任務(wù)來說是必要的。畢竟,這些系統(tǒng)用于管理我們的生活和文明的應(yīng)用范圍和方式是廣泛的:它從可穿戴設(shè)備市場(chǎng)(可能在 XR 場(chǎng)景中)延伸到自動(dòng)駕駛、工業(yè)檢查以及其他圖像檢測(cè)和識(shí)別系統(tǒng)。一般,比如面部識(shí)別。清華大學(xué)的論文稱,ACCEL 在 Fashion-MNIST、3 類 ImageNet 分類和延時(shí)視頻識(shí)別任務(wù)中進(jìn)行了實(shí)驗(yàn),具有“具有競爭力的高”準(zhǔn)確度(分別為 85.5%、82.0% 和 92.6%),同時(shí)顯示在弱光條件下具有出色的系統(tǒng)魯棒性(每幀 0.14 fJ μm−2)。

就 ACCEL 而言,清華大學(xué)的架構(gòu)通過衍射光學(xué)模擬計(jì)算 (OAC) 并輔以電子模擬計(jì)算 (EAC) 進(jìn)行操作,在一塊芯片中具有可擴(kuò)展性、非線性和靈活性,但其 99% 的操作是在光學(xué)系統(tǒng)內(nèi)實(shí)現(xiàn)的。根據(jù)該論文,這有助于克服其他視覺架構(gòu)中的限制,例如馬赫-曾德干涉儀和衍射深度神經(jīng)網(wǎng)絡(luò)(DNN)。

這個(gè) 99% 的數(shù)字至少可以解釋 ACCEL 和其他非模擬方法之間能源效率的差異:Nvidia 的 GPU 是 100% 數(shù)字化的,這意味著它的運(yùn)行基于電子的連續(xù)流動(dòng)(并產(chǎn)生廢熱作為結(jié)果)。

然而,光子光學(xué)系統(tǒng)利用非電氣方式來傳輸、操作和編碼信息。這可以通過特定波長的激光脈沖來完成(我們?cè)谳^近關(guān)于中國量子密鑰分配 [QKD] 衛(wèi)星系統(tǒng)的文章中對(duì)此進(jìn)行了探討,也是基于光子的),用于提取和傳達(dá)視覺數(shù)據(jù)(圖像)的特征并進(jìn)行操作幾乎在過境時(shí)就按那個(gè)燈(改變它)。由于采用了這種光學(xué)處理系統(tǒng),因此能量需求更少,熱耗散中浪費(fèi)的電子也更少。擺脫 ADC(模數(shù)轉(zhuǎn)換器)的高能耗和延遲成本對(duì)于光子學(xué)帶來的性能改進(jìn)大有幫助。這也是為什么光子系統(tǒng)被用于量子計(jì)算和 HPC(高性能計(jì)算)安裝。

同時(shí),我們擺脫了電子在半導(dǎo)體上有序但混亂的運(yùn)動(dòng),并解鎖了僅受光本身限制的運(yùn)行速度,從而獲得了速度優(yōu)勢(shì)。研究論文稱,該芯片的內(nèi)部測(cè)試顯示,每幀的計(jì)算延遲較低,為 72 納秒,每秒生成約 13,000 幀的吞吐量,足以讓任何《毀滅戰(zhàn)士》玩家忘記現(xiàn)實(shí)。 。協(xié)處理器似乎也有足夠的幀來分析任何計(jì)算視覺任務(wù)中選擇的這些圖像。通過 ACCEL 對(duì)這些圖像進(jìn)行深度學(xué)習(xí)處理似乎不會(huì)成為瓶頸。

ACCEL 似乎是專用集成電路 (ASIC) 設(shè)計(jì)的模擬版本。這正是電子模擬計(jì)算 (EAC) 單元的作用,因?yàn)樗梢灾匦屡渲闷渲械哪M路徑以加速特定任務(wù)。將這些視為芯片內(nèi)的預(yù)編程算法,由 EAC 協(xié)調(diào)應(yīng)將哪種配置應(yīng)用于哪個(gè)任務(wù)。

研究團(tuán)隊(duì)聯(lián)合負(fù)責(zé)人戴瓊海表示:“為人工智能時(shí)代開發(fā)新的計(jì)算架構(gòu)是一項(xiàng)成就。但更重要的挑戰(zhàn)是將這種新架構(gòu)落地到實(shí)際應(yīng)用中,解決國家和公眾的重大需求,這是我們的責(zé)任。”

新的光子和模擬 ACCEL 芯片可能會(huì)讓人想起 IBM 較近發(fā)布的另一款模擬 AI 加速芯片(Hermes)。也許有趣的是,即使對(duì)中國實(shí)施了所有制裁,該國的研發(fā)仍使其能夠迎頭趕上,并且在某些方面明顯有所改進(jìn),無論它們受到什么阻礙。能夠繞過限制無疑是中國考慮制裁的方式。

同樣重要的是要了解這一代基于光子學(xué)的模擬芯片正在極其輕松的光刻水平上進(jìn)行加工。例如,ACCEL 是采用標(biāo)準(zhǔn) 180 nm CMOS 技術(shù)制造的,用于電子模擬計(jì)算單元 (EAC)——操作的大腦。當(dāng)然,通過進(jìn)一步小型化工藝以實(shí)現(xiàn)更低的 CMOS 節(jié)點(diǎn)(Nvidia 的 H100 采用 4 nm 工藝制造),可以進(jìn)一步提率。目前還不清楚可以做哪些進(jìn)一步的工作來小型化光學(xué)模擬計(jì)算(OAC)模塊。

大規(guī)模實(shí)施 ACCEL 等模擬計(jì)算系統(tǒng)似乎更多的是制造吞吐量和行業(yè)適應(yīng)性的問題,而不是物理上不可能的問題。但高性能人工智能模擬芯片仍未大規(guī)模部署是有原因的:目前其制造水平太低,無法滿足研究工作和原型工作以外的任何需求。我們現(xiàn)在沒有足夠的吞吐量或可用的能力將這些芯片添加到臺(tái)積電等公司已經(jīng)的 2025 年制造中,但在擴(kuò)大規(guī)模之前始終需要這些實(shí)驗(yàn)結(jié)果。此類芯片的市場(chǎng)非常希望擁有它們。較終,這都是計(jì)劃、支出和時(shí)間的問題。  

咨詢機(jī)構(gòu)
推薦課程