摘要:怎樣才能讓一枚芯片擁有更高的性能? 大多數(shù)人的回答一定是緊跟摩爾定律,在同樣大小的芯片空間內(nèi)裝進更多的晶體管,其手段無外乎更先進的制程(從7nm到5nm)以及更先進的封裝方式(如chiplet)。 然而,隨著先進制程逼近1nm的物理極限,摩爾定律不可避免的放緩,即便是在日常生活中,人們也能感受...
怎樣才能讓一枚芯片擁有更高的性能?
大多數(shù)人的回答一定是緊跟摩爾定律,在同樣大小的芯片空間內(nèi)裝進更多的晶體管,其手段無外乎更先進的制程(從7nm到5nm)以及更先進的封裝方式(如chiplet)。
然而,隨著先進制程逼近1nm的物理極限,摩爾定律不可避免的放緩,即便是在日常生活中,人們也能感受到手機Soc、電腦的CPU的升級換代效果越來越差,從過去的每代提升40%性能迅速下降至20%甚至10%。
與之對應(yīng)的是,當今社會對數(shù)據(jù)、算力、芯片性能的要求卻越來越高,整個下游市場既然有龐大的需求出現(xiàn),那么整個產(chǎn)業(yè)鏈的各方都在想方設(shè)法來提高芯片的性能,既然傳統(tǒng)的在晶圓上改進工藝的方式進展緩慢,那么在更上層的計算機架構(gòu)上動刀或許會有意想不到的收獲。
今年以來,一些跳出傳統(tǒng)計算機結(jié)構(gòu)體系的設(shè)想正在轉(zhuǎn)為研究成果出現(xiàn)在各大頂級期刊上,它就是“存內(nèi)計算”。
存內(nèi)計算,顧名思義就是把計算單元嵌入到內(nèi)存當中。通常計算機運行的馮·諾依曼體系包括存儲單元和計算單元兩部分,計算機實施運算需要先把數(shù)據(jù)存入主存儲器,再按順序從主存儲器中取出指令,一條一條的執(zhí)行,數(shù)據(jù)需要在處理器與存儲器之間進行頻繁遷移,如果內(nèi)存的傳輸速度跟不上CPU的性能,就會導(dǎo)致計算能力受到限制,即“內(nèi)存墻”出現(xiàn),例如,CPU處理運算一道指令的耗時假若為1ns,但內(nèi)存讀取傳輸該指令的耗時可能就已達到10ns,嚴重影響了CPU的運行處理速度。
此外,讀寫一次內(nèi)存的數(shù)據(jù)能量比計算一次數(shù)據(jù)的能量多消耗幾百倍,也就是“功耗墻”的存在。2018年,谷歌針對自家產(chǎn)品(Chome/Tensorflow Mobile/video playback/video capture)的耗能情況做了一項研究,發(fā)現(xiàn)整個系統(tǒng)耗能的62.7%浪費在CPU和內(nèi)存的讀寫傳輸上,傳統(tǒng)馮·諾依曼架構(gòu)導(dǎo)致的高延遲和高耗能的問題成為急需解決的問題,其中的短板存儲器成為了制約數(shù)據(jù)處理速度提高的主要瓶頸。
馮·諾依曼架構(gòu)圖
把計算單元嵌入到內(nèi)存當中的理想情況下,存內(nèi)計算可以有效消除存儲單元與計算單元之間的數(shù)據(jù)傳輸耗能過高、速度有限的情況,從而有效解決馮諾依曼瓶頸。
存內(nèi)計算的概念早就有跡可循,在上世紀70年代William H. Kautz就曾提出過存儲和邏輯整合的方案,Harold S. Stone緊接著發(fā)表了支持邏輯運算的存儲計算結(jié)構(gòu),但由于當時的性能瓶頸問題不算突出,處理器的發(fā)展暫能滿足數(shù)據(jù)處理的需求,因而學(xué)界、業(yè)界并沒有對該領(lǐng)域投入過多關(guān)注。
如今,隨著人工智能技術(shù)的發(fā)展,AI在各領(lǐng)域的應(yīng)用逐漸廣泛,以深度學(xué)習為代表的神經(jīng)網(wǎng)絡(luò)算法需要系統(tǒng)能高效處理海量的非結(jié)構(gòu)化數(shù)據(jù),例如文本、視頻、圖像、語音等,這導(dǎo)致在馮·諾伊曼架構(gòu)下的硬件需要頻繁讀寫內(nèi)存,其計算任務(wù)有著并行運算量大、參數(shù)多的特點,這使得AI芯片對并行運算、低延遲、帶寬等有著更高的要求,也因此,存內(nèi)計算在人工智能時代迎來了發(fā)展的黃金時期。
存內(nèi)計算的熱度肉眼可見的在各大學(xué)術(shù)會議上發(fā)酵。2018年的IEEE國際固態(tài)電路會議(ISSCC)專門用了一個議程來研討存內(nèi)計算相關(guān)話題;到2019年,電子器件領(lǐng)域的頂級會議IEDM上關(guān)于存內(nèi)計算的研討議程則變成了三個,相關(guān)論文也達到二十余篇;2020年的ISSCC上存內(nèi)計算的論文也上升至七篇。
存內(nèi)計算不只是學(xué)界的圈地自娛,三星、SK海力士、臺積電、英特爾、美光、IBM等半導(dǎo)體領(lǐng)域的巨頭也在加緊對該技術(shù)的研發(fā),今年的競爭更是尤為激烈,首先三星在頂級學(xué)術(shù)期刊Nature上發(fā)表了全球首個基于MRAM(磁性隨機存儲器)的存內(nèi)計算研究,緊接著臺積電在近日的ISSCC上合作發(fā)表了六篇關(guān)于存內(nèi)計算存儲器IP的論文,大力推進基于ReRAM的存內(nèi)計算方案,SK海力士則發(fā)表了基于GDDR接口的DRAM存內(nèi)計算研究。
應(yīng)著這陣風口,我國的存內(nèi)計算產(chǎn)業(yè)也開始迅猛發(fā)展,知存科技、九天睿芯、智芯科、后摩智能、蘋芯科技等國內(nèi)專注存內(nèi)計算賽道的新興公司紛紛獲得融資,加速在該領(lǐng)域的早期市場布局及商業(yè)落地。
雖然不管學(xué)界、業(yè)界還是市場對存內(nèi)計算的呼聲都極高,相關(guān)研究和產(chǎn)品的研發(fā)在如火如荼的進行,但在現(xiàn)階段存內(nèi)計算的實現(xiàn)確實面臨著諸多難點,目前市面上仍缺乏被市場認可而廣泛應(yīng)用的存內(nèi)計算產(chǎn)品出現(xiàn)。
目前,業(yè)界實現(xiàn)存內(nèi)計算的三種主流路徑為SRAM、DRAM、Flash,簡單來說DRAM內(nèi)存具有動態(tài)刷新,斷電會丟失數(shù)據(jù)的特征,SRAM為高速緩存,其無需刷新,但同樣會在斷電狀態(tài)下丟失數(shù)據(jù),F(xiàn)lash則為閃存,其有著無需刷新,斷電不丟數(shù)據(jù)的特征,通常作為硬盤使用。
選擇SRAM路徑的代表性半導(dǎo)體企業(yè)為臺積電,它可以在5nm的先進工藝上制造。SRAM的存儲邏輯簡單清晰,和現(xiàn)在的數(shù)字處理器技術(shù)更容易結(jié)合,同時,SRAM離CPU近讀寫性能優(yōu)勢較大,但作為易失性存儲器的SRAM同時也有著斷電后數(shù)據(jù)無法保存的問題,因此SRAM還需要在斷電后把數(shù)據(jù)傳輸?shù)狡渌鎯ζ髦小?/p>
Flash陣營的代表玩家為美國的Mythic公司,F(xiàn)lash是一種業(yè)內(nèi)較為成熟的存儲器技術(shù),它在功能工藝參數(shù)、器件模型上都有著成熟的工具,同時,其系統(tǒng)架構(gòu)的核心設(shè)計可以向非易失性的RRAM(電阻式隨機存取存儲器)等新型非揮發(fā)器件上遷移,迅速完成產(chǎn)品的更新迭代,
基于DRAM的存內(nèi)計算芯片,目前采用該方案的公司較少,因為其技術(shù)落地的時間暫不明朗。DRAM存內(nèi)計算適合大算力AI芯片,其對硬件的通用性和可編程性的要求更高,這對目前專用性的架構(gòu)來說需要花更多心思來重新設(shè)計,其難度自然更高。
綜合來看,存內(nèi)計算的實現(xiàn)基于相對成熟的易失性存儲和不太成熟的非易失性存儲,但無論是哪種路線的實現(xiàn)都存在一定的挑戰(zhàn),幾大技術(shù)方向也都在發(fā)展中。易失性存儲路線在融合處理器工藝和存儲器工藝上存在諸多難題,在馮·諾依曼架構(gòu)下,處理器與存儲器的區(qū)隔明顯,從設(shè)計、制造、封裝全流程,它們各自都發(fā)展出了獨立的生態(tài),想要把兩者融合成一體,其工藝難度可想而知。知存科技走的就是易失性存儲路線,其CEO王紹迪曾形容過該路線早期開發(fā)的難度:“早期研發(fā)的時候,由于缺乏晶圓工廠和EDA工具的支持,我們的開發(fā)工作很多就要從自動變成手動。”非易失性存儲對存儲目前廠商和工藝也均未成熟。
極強的市場需求與暫未明朗的技術(shù)產(chǎn)品,誰能率先在可控的成本內(nèi)實現(xiàn)存內(nèi)計算存儲密度與計算密度的平衡,誰或許就摸索到了成為下一個英偉達的路徑。