一级黄色网站在线视频看看,久久精品欧美一区二区三区 ,国产偷国产偷亚洲高清人乐享,jy和桃子为什么绝交,亚洲欧美成人网,久热九九

清華大學(xué)李黃龍團(tuán)隊(duì)——基于隨機(jī)阻變陣列的稀疏自注意力機(jī)制實(shí)現(xiàn)方法!Advanced Energy Materials
半導(dǎo)體 半導(dǎo)體 2025-02-19

1.jpg


針對(duì)大語言模型Transformer中注意力機(jī)制算法復(fù)雜度高的問題,本文提出利用具有電導(dǎo)分散性的憶阻器陣列實(shí)現(xiàn)稀疏自注意力機(jī)制的方法。將隨機(jī)阻變陣列作為隨機(jī)哈希矩陣,在硬件上一步完成特征向量的哈希分類,從而支持注意力分?jǐn)?shù)的計(jì)算僅在相似向量間執(zhí)行,降低了Transformer的計(jì)算復(fù)雜度。


正文導(dǎo)讀

“注意力”是大語言模型Transformer的主要工作機(jī)制,可以處理輸入序列元素之間的遠(yuǎn)程依賴關(guān)系。與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)不同,Transformer架構(gòu)只使用注意力機(jī)制,能夠?qū)崿F(xiàn)并行處理。隨著實(shí)際應(yīng)用需求的增加,Transformer模型被用于處理越來越長的序列。然而,原始的Transformer模型并不能很好地?cái)U(kuò)展到長度較長的序列,因?yàn)樗淖⒁饬Ψ謹(jǐn)?shù)計(jì)算復(fù)雜度與序列長度L成二次方關(guān)系,導(dǎo)致其內(nèi)存消耗過高。為此,研究者提出了在注意力層中引入稀疏性來解決這一問題。在這些解決方案中,加州伯克利大學(xué)和谷歌的Kitaev等人提出的解決方案使用了基于隨機(jī)投影(Random Projection, RP)的局部敏感哈希(Locality-Sensitive Hashing, LSH),使得查詢向量和鍵向量被哈希分類到多個(gè)“桶”中,相似的向量以較大概率落在同一個(gè)桶中。因此,只需要對(duì)每個(gè)桶內(nèi)的向量計(jì)算注意力分?jǐn)?shù),就可以得到與完全自注意力相近的結(jié)果,從而將復(fù)雜度降低到O(L logL)。然而,在實(shí)踐中,雖然使用基于RP-LSH的稀疏自注意力模型可以提高內(nèi)存效率,但其計(jì)算速度卻相當(dāng)慢,一個(gè)主要的瓶頸恰恰在于RP-LSH這一矩陣運(yùn)算。


1739947404552158.jpg

圖1 基于稀疏注意力機(jī)制的Transformer模型原理圖:(a)標(biāo)準(zhǔn)Transformer模型的流程圖;(b)傳統(tǒng)的完全注意力機(jī)制;(c)基于RP-LSH的稀疏注意力機(jī)制

本文作者提出RP-LSH稀疏自注意力模型實(shí)際應(yīng)用的障礙可以通過新興的非易失性存儲(chǔ)器技術(shù)來解決。阻變器件在突破馮·諾依曼瓶頸方面的適用性已在大量文獻(xiàn)中被報(bào)道,即在神經(jīng)網(wǎng)絡(luò)處理的線性加權(quán)求和步驟中,阻變器件被集成到陣列中執(zhí)行一步點(diǎn)積計(jì)算。這種阻變陣列結(jié)構(gòu)允許在數(shù)據(jù)存儲(chǔ)的地方利用器件物理和其他電路定律進(jìn)行原位計(jì)算。陣列中器件與器件(device-to-device, D2D)分散性是阻變陣列作為神經(jīng)網(wǎng)絡(luò)加速器執(zhí)行線性加權(quán)求和時(shí)面臨的主要挑戰(zhàn)之一,傳統(tǒng)觀點(diǎn)認(rèn)為必須減輕D2D分散性。本文作者則提出利用D2D分散性來實(shí)現(xiàn)RP-LSH過程。


3.jpg

圖2 16 × 2 阻變陣列的隨機(jī)電導(dǎo)分布:在(a1)RESET一次后的高阻態(tài)電導(dǎo)分布圖;(a2)五次SET-RESET阻變操作后的高阻態(tài)電導(dǎo)分布圖;(b1)-(b2):(a)中器件的電導(dǎo)統(tǒng)計(jì)分布;(c1)-(c2):(a)中相鄰兩列器件電導(dǎo)差值的統(tǒng)計(jì)分布


基于阻變陣列,本文以一種軟硬件結(jié)合的方式,使用基于稀疏自注意力的Transformer模型執(zhí)行序列預(yù)測任務(wù),以更低的計(jì)算復(fù)雜度實(shí)現(xiàn)了70%以上的測試準(zhǔn)確率。還可以通過利用阻變陣列中每次循環(huán)操作(cycle-to-cycle, C2C)之間的隨機(jī)性,執(zhí)行多輪RP-LSH,可以進(jìn)一步提高準(zhǔn)確率。


期刊簡介

Advanced Electronic Materials重點(diǎn)發(fā)表物理:應(yīng)用、材料科學(xué):綜合、納米科技相關(guān)方向的文章。



4.jpg

該期刊是一個(gè)跨學(xué)科論壇,在材料科學(xué),物理學(xué),電子和磁性材料工程領(lǐng)域進(jìn)行同行評(píng)審,高質(zhì)量,高影響力的研究。除了基礎(chǔ)研究外,它還包括電子和磁性材料、自旋電子學(xué)、電子學(xué)、器件物理學(xué)和工程學(xué)、微納機(jī)電系統(tǒng)和有機(jī)電子學(xué)的物理和物理性質(zhì)的研究。期刊最新引文指標(biāo)為0.9,最新影響因子為5.3(2023)。


加載更多
225

版權(quán)聲明:

1) 本文僅代表原作者觀點(diǎn),不代表本平臺(tái)立場,請(qǐng)批判性閱讀! 2) 本文內(nèi)容若存在版權(quán)問題,請(qǐng)聯(lián)系我們及時(shí)處理。 3) 除特別說明,本文版權(quán)歸納米人工作室所有,翻版必究!
納米人
你好測試
copryright 2016 納米人 閩ICP備16031428號(hào)-1

關(guān)注公眾號(hào)