特別說明:本文由學(xué)研匯技術(shù) 中心原創(chuàng)撰寫,旨在分享相關(guān)科研知識。因?qū)W識有限,難免有所疏漏和錯誤,請讀者批判性閱讀,也懇請大方之家批評指正。
原創(chuàng)丨彤心未泯(學(xué)研匯 技術(shù)中心)
編輯丨風(fēng)云
計(jì)算機(jī)視覺在自動駕駛、機(jī)器人、醫(yī)療診斷和可穿戴設(shè)備等多個領(lǐng)域具有廣泛的應(yīng)用。盡管深度學(xué)習(xí)在算法層面顯著提高了視覺任務(wù)的性能,但這些任務(wù)從根本上受到傳統(tǒng)數(shù)字計(jì)算單元的能耗和計(jì)算速度的限制。光子計(jì)算可以更快、更節(jié)能地處理視覺數(shù)據(jù)。
關(guān)鍵問題
然而,光子計(jì)算用于視覺任務(wù)仍存在以下問題:
1、現(xiàn)有的光子計(jì)算系統(tǒng)仍受到嚴(yán)重的實(shí)際限制
雖然光子計(jì)算具有高達(dá)每瓦1.58萬億次運(yùn)算(TOPS)的計(jì)算效率,但現(xiàn)有的光子計(jì)算系統(tǒng)仍然受到復(fù)雜的光學(xué)非線性實(shí)現(xiàn)、ADC的巨大功耗以及容易受到噪聲和系統(tǒng)錯誤的影響等多種限制。
2、基于光子計(jì)算的可部署系統(tǒng)的實(shí)驗(yàn)優(yōu)勢仍是一個挑戰(zhàn)
光學(xué)神經(jīng)網(wǎng)絡(luò)(ONN)可能對低信噪比(SNR)下的噪聲敏感,由于曝光時間超短,因此很容易受到散粒噪聲波動的影響,這嚴(yán)重阻礙了現(xiàn)有光子計(jì)算在實(shí)際計(jì)算機(jī)視覺任務(wù)中表現(xiàn)出比傳統(tǒng)數(shù)字計(jì)算的系統(tǒng)優(yōu)勢。
有鑒于此,清華大學(xué)戴瓊海、喬飛、方璐、吳嘉敏等人開發(fā)了一種全模擬芯片(ACCEL),該芯片結(jié)合電子和光計(jì)算,系統(tǒng)能效為每秒74.8 千萬億次/瓦,比現(xiàn)有技術(shù)高三個數(shù)量級,計(jì)算速度為每秒4.6千萬億次運(yùn)算,比現(xiàn)有技術(shù)高一個數(shù)量級。將衍射光學(xué)計(jì)算用作特征提取的光學(xué)編碼器后,光生光電流直接在集成模擬計(jì)算芯片中進(jìn)行進(jìn)一步計(jì)算,無需模數(shù)轉(zhuǎn)換器,從而實(shí)現(xiàn)72?ns/幀的低計(jì)算延遲。通過光電計(jì)算和自適應(yīng)訓(xùn)練的聯(lián)合優(yōu)化,ACCEL在Fashion-MNIST、3級ImageNet分類和延時視頻識別任務(wù)中分別實(shí)現(xiàn)了85.5%、82.0%和92.6%的分類準(zhǔn)確率,同時展示了優(yōu)越的系統(tǒng)性能弱光條件下的穩(wěn)定性。預(yù)計(jì)ACCEL可廣泛用于可穿戴設(shè)備、自動駕駛和工業(yè)檢查等多種應(yīng)用。
技術(shù)方案:
1、闡明了ACCEL的架構(gòu)
作者以全模擬的方式設(shè)計(jì)了光電混合架構(gòu),以減少大量ADC,實(shí)現(xiàn)具有競爭性任務(wù)性能的高速、低功耗視覺任務(wù)。
2、評估了ACCEL的性能特征
作者展通過數(shù)值模擬來定量評估ACCEL,表明ACCEL具有高準(zhǔn)確率、高噪聲穩(wěn)定性,通過自適應(yīng)訓(xùn)練方法可以減少精度降低。
3、實(shí)驗(yàn)驗(yàn)證了ACCEL對高性能圖像分類的精度
作者用制作好的ACCEL芯片進(jìn)行了實(shí)驗(yàn),表明ACCEL在圖像分類上具有極具競爭力的測試精度。
4、證實(shí)了ACCEL在高速延時任務(wù)中的應(yīng)用
作者證實(shí)了ACCEL促進(jìn)了延時任務(wù)的高速處理,并展示了其在自主系統(tǒng)中的潛在應(yīng)用。
5、測試了ACCEL的計(jì)算速度和效率
作者通過計(jì)算,直接表明了ACCEL在實(shí)際中達(dá)到相同的精度時,與最先進(jìn)的GPU上的數(shù)字神經(jīng)網(wǎng)絡(luò)相比,全模擬ACCEL通過實(shí)驗(yàn)將系統(tǒng)延遲和能耗降低了幾個數(shù)量級。
技術(shù)優(yōu)勢:
1、開發(fā)了極具競爭力的全模擬芯片ACCEL
作者開發(fā)了一種結(jié)合電子和光的全模擬芯片,該芯片可用于節(jié)能和超高速視覺任務(wù),具有極具競爭力的任務(wù)性能和可擴(kuò)展性。ACCEL將衍射光學(xué)模擬計(jì)算(OAC)和電子模擬計(jì)算(EAC)與可擴(kuò)展性、非線性和靈活性融合在一塊芯片中。
2、將能效提高了3個數(shù)量級,計(jì)算速度提高1個數(shù)量級
ACCEL實(shí)現(xiàn)了74.8?peta-OPS?W?1的實(shí)驗(yàn)?zāi)苄Ш?.6?peta-OPS的計(jì)算速度,分別比最先進(jìn)的計(jì)算芯片高出3個和1個數(shù)量級。
3、開發(fā)了自適應(yīng)訓(xùn)練方法,提高了計(jì)算高精度
作者開發(fā)了一種自適應(yīng)訓(xùn)練方法,彌補(bǔ)了制造缺陷和對準(zhǔn)誤差,獲得了極高的穩(wěn)定性,精度也提高了29.4%。
技術(shù)細(xì)節(jié)
ACCEL的架構(gòu)
作者以全模擬的方式設(shè)計(jì)了光電混合架構(gòu),以減少大量ADC,實(shí)現(xiàn)具有競爭性任務(wù)性能的高速、低功耗視覺任務(wù)。通過用相干光或非相干光照射目標(biāo),將信息編碼到光場中。作者闡明了ACCEL的工作模式,并將這些功能以全模擬方式集成在一塊芯片上,以實(shí)現(xiàn)廣泛的應(yīng)用,并且與現(xiàn)有的數(shù)字神經(jīng)網(wǎng)絡(luò)兼容,以完成更復(fù)雜的任務(wù)。作者展示了OAC的數(shù)據(jù)壓縮性能、EAC對計(jì)算速度的提高了計(jì)算速度以及讀出噪聲的減少。
圖 ACCEL的架構(gòu)
圖 ACCEL的實(shí)施
ACCEL的性能特征
作者展示了ACCE的典型工作流程,在實(shí)驗(yàn)演示之前,首先進(jìn)行了數(shù)值模擬來定量評估ACCEL。結(jié)果表明ACCEL在所有分類中的準(zhǔn)確率-模擬模式在數(shù)值上達(dá)到98%,即使對于更具挑戰(zhàn)性的分類任務(wù),全模擬ACCEL在數(shù)值上也顯示出與數(shù)字神經(jīng)網(wǎng)絡(luò)相當(dāng)?shù)男阅堋4送猓珹CCEL還表現(xiàn)出噪聲穩(wěn)定性,即使在每幀0.14?fJ?μm?2的極低光強(qiáng)度下,ACCEL的測試精度仍然很高。通過建立自適應(yīng)訓(xùn)練方法,可以減輕由于制造相位誤差或移位和旋轉(zhuǎn)未對準(zhǔn)而導(dǎo)致的精度下降。
圖 ACCEL性能的數(shù)值評估
高性能圖像分類
為了進(jìn)一步驗(yàn)證ACCEL架構(gòu),作者用制作好的ACCEL芯片進(jìn)行了實(shí)驗(yàn)。作者在三個數(shù)據(jù)集上對ACCEL進(jìn)行了驗(yàn)證,結(jié)果表明全模擬模式下的 ACCEL 實(shí)驗(yàn)精度分別達(dá)到 MNIST、Fashion-MNIST和KMNIST的90.9%、80.9%和67.6%,接近模擬性能。通過將小型數(shù)字神經(jīng)網(wǎng)絡(luò)連接到ACCEL,實(shí)驗(yàn)精度分別提高到97.1%、85.5%和74.6%,而無需犧牲系統(tǒng)處理速度和能耗。在具有高分辨率圖像的更具挑戰(zhàn)性的任務(wù)上,ACCEL通過全模擬方式使用單層OAC和 EAC實(shí)驗(yàn)取得了80.7%的測試精度。
圖 ACCEL用于圖像分類的實(shí)驗(yàn)結(jié)果
高速延時任務(wù)
除了靜態(tài)圖像分類之外,ACCEL還通過提供從模擬計(jì)算到數(shù)字存儲和計(jì)算的靈活且低功耗的接口,促進(jìn)延時任務(wù)的高速處理。連接簡單的數(shù)字芯片后,ACCEL 可以將串行輸出存儲在內(nèi)存中,并使用小規(guī)模的單層網(wǎng)絡(luò)計(jì)算最終結(jié)果。僅使用低成本比較器即可將模擬信號轉(zhuǎn)換為1位數(shù)字信號,從而大大降低能耗和延遲。作者還展示了ACCEL在自主系統(tǒng)中的潛在應(yīng)用, ACCEL在每幀5.0?fJ?μm?2的實(shí)驗(yàn)上實(shí)現(xiàn)了92.6%的預(yù)測精度。當(dāng)在弱光條件下降低光強(qiáng)度時, ACCEL依然在實(shí)驗(yàn)上保持了高精度,甚至優(yōu)于數(shù)字三層神經(jīng)網(wǎng)絡(luò)。
圖 ACCEL對于延時任務(wù)的實(shí)驗(yàn)結(jié)果
計(jì)算速度和效率
ACCEL對每一幀的完整處理時間包括復(fù)位時間tr,響應(yīng)時間tp以及累積時間ta。作者建立了兩個實(shí)驗(yàn)來分別測量重置時間、響應(yīng)時間和累積時間。復(fù)位時間tr的實(shí)驗(yàn)上限為12.5?ns,平均響應(yīng)時間為7.8ns,平均累積時間為9.2ns。對于3級分類,ACCEL 包括三個脈沖的完整處理時間約為 72?ns。測得的 ACCEL 對于3級ImageNet 分類的平均系統(tǒng)能耗為 4.4?nJ,實(shí)驗(yàn)系統(tǒng)能量效率為7.48?×?104 TOPS?W?1。ACCEL的實(shí)驗(yàn)系統(tǒng)LeNet等效計(jì)算速度和能源效率分別為301.39?TOPS和4.95?×?103?TOPS?W?1,遠(yuǎn)高于最先進(jìn)的數(shù)字和光子器件。
圖 ACCEL處理時間和能耗的實(shí)驗(yàn)測量
總之,通過結(jié)合光子計(jì)算和電子計(jì)算的優(yōu)點(diǎn),本工作開發(fā)的ACCEL通過實(shí)驗(yàn)實(shí)現(xiàn)了4.55×103 TOPS的系統(tǒng)計(jì)算速度和7.48×104 TOPS?W?1的能源效率,比最先進(jìn)的方法高出幾個數(shù)量級。與電子處理器中的數(shù)字神經(jīng)網(wǎng)絡(luò)相比,該芯片在各種智能視覺任務(wù)中保持有競爭力的準(zhǔn)確性。除了作為模擬光信號到數(shù)字信號的通用平滑接口外,ACCEL還為可穿戴設(shè)備、機(jī)器人、自動駕駛、工業(yè)檢查和醫(yī)療診斷等光電模擬計(jì)算的廣泛實(shí)際應(yīng)用開辟了新的視野。
參考文獻(xiàn):
Chen, Y., Nazhamaiti, M., Xu, H. et al. All-analog photoelectronic chip for high-speed vision tasks. Nature (2023).
https://doi.org/10.1038/s41586-023-06558-8