h无码动漫在线观看,苏格尔沙发,国产精品久久久久无码AV会牛,精品国产一区二区三区动漫a

首頁 -新聞資訊 -人工智能芯片前沿解讀

新聞資訊

人工智能芯片前沿解讀

發(fā)布時(shí)間:2021-11-18作者來源:科理咨詢瀏覽:1515


芯片的概念:(半導(dǎo)體元件產(chǎn)品的統(tǒng)稱)集成電路,縮寫作 IC;或稱微電路、微芯片、晶片/芯片,在電子學(xué)中是一種把電路(主要包括半導(dǎo)體設(shè)備,也包括被動(dòng)組件等)小型化的方式,并時(shí)常制造在半導(dǎo)體晶圓表面上。

專業(yè)地講就是:將電路制造在半導(dǎo)體芯片表面上的集成電路又稱薄膜(thin-film)集成電路。另有一種厚膜(thick-film)集成電路(hybrid integrated circuit)是由獨(dú)立半導(dǎo)體設(shè)備和被動(dòng)組件,集成到襯底或線路板所構(gòu)成的小型化電路

人工智能(Artificial Intelligence,AI)芯片的定義:從廣義上講只要能夠運(yùn)行人工智能算法的芯片都叫作 AI 芯片。但是通常意義上的 AI 芯片指的是針對(duì)人工智能算法做了特殊加速設(shè)計(jì)的芯片,現(xiàn)階段,這些人工智能算法一般以深度學(xué)習(xí)算法為主,也可以包括其它機(jī)器學(xué)習(xí)算法。

AI芯片也被稱為AI加速器或計(jì)算卡,即專門用于處理人工智能應(yīng)用中的大量計(jì)算任務(wù)的模塊(其他非計(jì)算任務(wù)仍由CPU負(fù)責(zé))。當(dāng)前,AI芯片主要分為GPU、FPGAASIC。

人工智能芯片四大類(按技術(shù)架構(gòu)分類):


1、通用芯片(GPU)
GPU是單指令、多數(shù)據(jù)處理,采用數(shù)量眾多的計(jì)算單元和超長(zhǎng)的流水線,主要處理圖像領(lǐng)域的運(yùn)算加速。
GPU是不能單獨(dú)使用的,它只是處理大數(shù)據(jù)計(jì)算時(shí)的能手,必須由CPU進(jìn)行調(diào)用,下達(dá)指令才能工作。
但CPU可單獨(dú)作用,處理復(fù)雜的邏輯運(yùn)算和不同的數(shù)據(jù)類型,但當(dāng)需要處理大數(shù)據(jù)計(jì)算時(shí),則可調(diào)用GPU進(jìn)行并行計(jì)算。
2、半定制化芯片(FPGA)
FPGA適用于多指令,單數(shù)據(jù)流的分析,與GPU相反,因此常用于預(yù)測(cè)階段,如云端。FPGA是用硬件實(shí)現(xiàn)軟件算法,因此在實(shí)現(xiàn)復(fù)雜算法方面有一定的難度,缺點(diǎn)是價(jià)格比較高。與 GPU 不同,F(xiàn)PGA 同時(shí)擁有硬件流水線并行和數(shù)據(jù)并行處理能力,適用于以硬件流水線方式處理一條數(shù)據(jù),且整數(shù)運(yùn)算性能更高,因此常用于深度學(xué)習(xí)算法中的推斷階段。不過FPGA 通過硬件的配置實(shí)現(xiàn)軟件算法,因此在實(shí)現(xiàn)復(fù)雜算法方面有一定的難度。將FPGA 和 CPU 對(duì)比可以發(fā)現(xiàn)兩個(gè)特點(diǎn),一是 FPGA 沒有內(nèi)存和控制所帶來的存儲(chǔ)和讀取部 分速度更快,二是 FPGA 沒有讀取指令操作,所以功耗更低。劣勢(shì)是價(jià)格比較高、編程復(fù)雜、整體運(yùn)算能力不是很高。目前國內(nèi)的AI 芯片公司如深鑒科技就提供基于 FPGA 的解決方案。
3、全定制化芯片(ASIC)
ASIC是為實(shí)現(xiàn)特定場(chǎng)景應(yīng)用要求時(shí),而定制的專用AI芯片。除了不能擴(kuò)展以外,在功耗、可靠性、體積方面都有優(yōu)勢(shì),尤其在高性能、低功耗的移動(dòng)設(shè)備端。
定制的特性有助于提高 ASIC 的性能功耗比,缺點(diǎn)是電路設(shè)計(jì)需要定制,相對(duì)開發(fā)周期長(zhǎng),功能難以擴(kuò)展。但在功耗、可靠性、集成度等方面都有優(yōu)勢(shì),尤其在要求高性能、低功耗的移動(dòng)應(yīng)用端體現(xiàn)明顯。谷歌的 TPU、 寒武紀(jì)的 GPU,地平線的 BPU都屬于 ASIC芯片。谷歌的 TPU比 CPU和 GPU的方案快 30 至 80 倍,與 CPU和 GPU相比,TPU把控制電路進(jìn)行了簡(jiǎn)化,因此減少了芯片的面積,降低了功耗。
4、類腦芯片
類腦芯片架構(gòu)是一款模擬人腦的神經(jīng)網(wǎng)絡(luò)模型的新型芯片編程架構(gòu),這一系統(tǒng)可以模擬人腦功能進(jìn)行感知方式、行為方式和思維方式。
有人說,ASIC是人工智能芯片的一個(gè)主要發(fā)展方向,但真正的人工智能芯片未來發(fā)展的方向是類腦芯片。
類腦芯片研究是非常艱難的,IBM、高通、英特爾等公司的芯片策略都是用硬件來模仿人腦的神經(jīng)突觸。


AI芯片按功能分類


根據(jù)機(jī)器學(xué)習(xí)算法步驟,可分為訓(xùn)練(training)和推斷(inference)兩個(gè)環(huán)節(jié):
訓(xùn)練環(huán)節(jié)通常需要通過大量的數(shù)據(jù)輸入,訓(xùn)練出一個(gè)復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)模型。訓(xùn)練過程由于涉及海量的訓(xùn)練數(shù)據(jù)和復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),運(yùn)算量巨大,需要龐大的計(jì)算規(guī)模,對(duì)于處理器的計(jì)算能力、精度、可擴(kuò)展性等性能要求很高。目前市場(chǎng)上通常使用英偉達(dá)的GPU集群來完成,Google的 TPU2.0/3.0也支持訓(xùn)練環(huán)節(jié)的深度網(wǎng)絡(luò)加速。
推斷環(huán)節(jié)是指利用訓(xùn)練好的模型,使用新的數(shù)據(jù)去“推斷”出各種結(jié)論。這個(gè)環(huán)節(jié)的
計(jì)算量相對(duì)訓(xùn)練環(huán)節(jié)少很多,但仍然會(huì)涉及到大量的矩陣運(yùn)算。
在推斷環(huán)節(jié)中,除了使用CPU或 GPU進(jìn)行運(yùn)算外,F(xiàn)PGA以及 ASIC均能發(fā)揮重大作用。


AI芯片的比較:

GPU未來的應(yīng)用方向是高級(jí)復(fù)雜算法和通用性人工智能平臺(tái),買來就能使用。

FPGA更適用于各種具體的行業(yè),人工智能會(huì)應(yīng)用到各個(gè)具體領(lǐng)域。

ASIC芯片是全定制芯片。因?yàn)樗惴◤?fù)雜度越強(qiáng),越需要一套專用的芯片架構(gòu)與其進(jìn)行對(duì)應(yīng)。定制就是當(dāng)客戶處在某一特殊場(chǎng)景時(shí),可以為其獨(dú)立設(shè)計(jì)一套專業(yè)智能算法軟件。

而ASIC基于人工智能算法進(jìn)行獨(dú)立定制,其發(fā)展前景看好。

類腦芯片是人工智能最終的發(fā)展模式,但是離產(chǎn)業(yè)化還很遙遠(yuǎn)。

深度學(xué)習(xí)芯片使用情況比較:

  • CPU通用性最強(qiáng),但延遲嚴(yán)重,散熱高,效率最低。

  • GPU 通用性強(qiáng)、速度快、效率高,特別適合用在深度學(xué)習(xí)訓(xùn)練方面,但是性能功耗比較低。

  • FPGA具有低能耗、高性能以及可編程等特性,相對(duì)于 CPU與 GPU有明顯的性能或者能耗優(yōu)勢(shì),但對(duì)使用者要求高。

  • ASIC 可以更有針對(duì)性地進(jìn)行硬件層次的優(yōu)化,從而獲得更好的性能、功耗比。但是 ASIC 芯片的設(shè)計(jì)和制造需要大量的資金、較長(zhǎng)的研發(fā)周期和工程周期,而且深度學(xué)習(xí)算法仍在快速發(fā)展,若深度學(xué)習(xí)算法發(fā)生大的變化,F(xiàn)PGA 能很快改變架構(gòu),適應(yīng)最新的變化,ASIC類芯片一旦定制則難于進(jìn)行修改。

當(dāng)前階段,GPU 配合 CPU 仍然是 AI 芯片的主流,而后隨著視覺、語音、深度學(xué)習(xí)的 算法在FPGA以及ASIC芯片上的不斷優(yōu)化,此兩者也將逐步占有更多的市場(chǎng)份額,從而與 GPU達(dá)成長(zhǎng)期共存的局面。從長(zhǎng)遠(yuǎn)看,人工智能類腦神經(jīng)芯片是發(fā)展的路徑和方向。


人工智能芯片目前有兩種發(fā)展路徑:


一種是延續(xù)傳統(tǒng)計(jì)算架構(gòu),加速硬件計(jì)算能力,主要以 3 種類型的芯片為代表,即 GPU、FPGA、ASIC, 但CPU依舊發(fā)揮著不可替代的作用;另一種是顛覆經(jīng)典的馮·諾依曼計(jì)算架構(gòu),采用類腦神 經(jīng)結(jié)構(gòu)來提升計(jì)算能力,以 IBM TrueNorth 芯片為代表。


圖片

GPU芯片發(fā)展歷程



AI芯片與以往的普通芯片有什么區(qū)別呢?


手機(jī)AI芯片對(duì)于各種AI算子能夠以30倍到50倍左右的速度處理。以拍照?qǐng)鼍盀槔?,AI芯片能夠做更好的一個(gè)圖像檢測(cè),圖像分割和圖像語義理解。另外,對(duì)聲音可以聽清、聽懂,并根據(jù)所了解的客戶意圖提供客戶真正想要的服務(wù)。比如,內(nèi)置獨(dú)立神經(jīng)網(wǎng)絡(luò)單元NPU的麒麟970的圖片處理速度可達(dá)到約2005張每分鐘,而在沒有NPU的情況下每分鐘只能處理97張圖像。當(dāng)然,其他應(yīng)用場(chǎng)景在AI的加持下同樣變得高能。


傳統(tǒng)的 CPU及其局限性 :

計(jì)算機(jī)工業(yè)從 1960 年代早期開始使用 CPU 這個(gè)術(shù)語。迄今為止,CPU 從形態(tài)、設(shè)計(jì)到實(shí)現(xiàn)都已發(fā)生了巨大的變化,但是其基本工作原理卻一直沒有大的改變。通常 CPU 由控制器和運(yùn)算器這兩個(gè)主要部件組成。實(shí)質(zhì)上僅單獨(dú)的 ALU模塊(邏輯運(yùn)算單元)是用來完成數(shù)據(jù)計(jì)算的,其他各個(gè)模塊的存在都是為了保證指令能夠一條接一條的有序執(zhí)行。這種通用性結(jié)構(gòu)對(duì)于傳統(tǒng)的編程計(jì)算模式非常適合,同時(shí)可以通過提升 CPU 主頻(提升單位時(shí)間內(nèi)執(zhí)行指令的條數(shù))來提升計(jì)算速度。但對(duì)于深度學(xué)習(xí)中的并不需要太多的程序指令、卻需要海量數(shù)據(jù)運(yùn)算的計(jì)算需求,這種結(jié)構(gòu)就顯得有些力不從心。尤其是在功耗限制下,無法通過無限制的提升CPU 和內(nèi)存的工作頻率來加快指令執(zhí)行速度,這種情況導(dǎo)致CPU系統(tǒng)的發(fā)展遇到不可逾越的瓶頸。

并行加速計(jì)算的 GPU :

GPU作為最早從事并行加速計(jì)算的處理器,相比 CPU速度快,同時(shí)比其他加速器芯片編程靈活簡(jiǎn)單。

傳統(tǒng)的CPU之所以不適合人工智能算法的執(zhí)行,主要原因在于其計(jì)算指令遵循串行執(zhí)行的方式,沒能發(fā)揮出芯片的全部潛力。與之不同的是,GPU 具有高并行結(jié)構(gòu),在處理圖形數(shù)據(jù)和復(fù)雜算法方面擁有比 CPU 更高的效率。對(duì)比 GPU 和 CPU 在結(jié)構(gòu)上的差異,CPU 大部分面積為控制器和寄存器,而 GPU擁有更多的 ALU(ARITHMETIC LOGIC UNIT,邏輯運(yùn)算單元)用于數(shù)據(jù)處理,這樣的結(jié)構(gòu)適合對(duì)密集型數(shù)據(jù)進(jìn)行并行處理。程序在GPU系統(tǒng)上的運(yùn)行速度相較于單核 CPU往往提升幾十倍乃至上千倍。隨著英偉達(dá)、AMD 等公司不斷推進(jìn)其對(duì) GPU 大規(guī)模并行架構(gòu)的支持,面向通用計(jì)算的 GPU(即 GPGPU,GENERAL PURPOSE GPU,通用計(jì)算圖形處理器)已成為加速可并行應(yīng)用程序的重要手段。

我國AI芯片發(fā)展情況 :


目前,我國的人工智能芯片行業(yè)發(fā)展尚處于起步階段。
長(zhǎng)期以來,中國在 CPU、GPU、DSP 處理器設(shè)計(jì)上一直處于追趕地位,絕大部分芯片設(shè)計(jì)企業(yè)依靠國外的 IP 核設(shè)計(jì)芯片,在自主創(chuàng)新上受到了極大的限制。然而,人工智能的興起,無疑為中國在處理器領(lǐng)域?qū)崿F(xiàn)彎道超車提供了絕佳的機(jī)遇。人工智能領(lǐng)域的應(yīng)用目前還處于面向行業(yè)應(yīng)用階段,生態(tài)上尚未形成壟斷,國產(chǎn)處理器廠商與國外競(jìng)爭(zhēng)對(duì)手在人工智能這一全新賽場(chǎng)上處在同一起跑線上,因此,基于新興技術(shù)和應(yīng)用市場(chǎng),中國在建立人工智能生態(tài)圈方面將大有可為。
由于我國特殊的環(huán)境和市場(chǎng),國內(nèi) AI 芯片的發(fā)展目前呈現(xiàn)出百花齊放、百家爭(zhēng)鳴的態(tài)勢(shì),AI 芯片的應(yīng)用領(lǐng)域也遍布股票交易、金融、商品推薦、安防、早教機(jī)器人以及無人駕駛等眾多領(lǐng)域,催生了大量的人工智能芯片創(chuàng)業(yè)公司,如地平線、深鑒科技、中科寒武紀(jì)等。盡管如此,國內(nèi)公司卻并未如國外大公司一樣形成市場(chǎng)規(guī)模,反而出現(xiàn)各自為政的散裂發(fā)展現(xiàn)狀。除了新興創(chuàng)業(yè)公司,國內(nèi)研究機(jī)構(gòu)如北京大學(xué)、清華大學(xué)、中國科學(xué)院等在AI芯片領(lǐng)域都有深入研究;而其他公司如百度和比特大陸等,2017年也有一些成果發(fā)布??梢灶A(yù)見,未來誰先在人工智能領(lǐng)域掌握了生態(tài)系統(tǒng),誰就掌握住了這個(gè)產(chǎn)業(yè)的主動(dòng)權(quán)。


展望未來


目前主流 AI芯片的核心主要是利用 MAC(Multiplier and Accumulation,乘加計(jì)算)加速陣列來實(shí)現(xiàn)對(duì) CNN(卷積神經(jīng)網(wǎng)絡(luò))中最主要的卷積運(yùn)算的加速。這一代 AI 芯片主要有如下 3個(gè)方面的問題。

(1)深度學(xué)習(xí)計(jì)算所需數(shù)據(jù)量巨大,造成內(nèi)存帶寬成為整個(gè)系統(tǒng)的瓶頸,即所謂的“memory wall”問題。
(2)與第一個(gè)問題相關(guān),內(nèi)存大量訪問和MAC陣列的大量運(yùn)算,造成AI芯片整體功耗的增加。
(3)深度學(xué)習(xí)對(duì)算力要求很高,要提升算力,最好的方法是做硬件加速,但是同時(shí)深度學(xué)習(xí)算法的發(fā)展也是日新月異,新的算法可能在已經(jīng)固化的硬件加速器上無法得到很好的支持,即性能和靈活度之間的平衡問題。

因此,我們可以預(yù)見,下一代 AI芯片將有如下的幾個(gè)發(fā)展趨勢(shì):


趨勢(shì)一:更高效的大卷積解構(gòu)/復(fù)用
在標(biāo)準(zhǔn) SIMD 的基礎(chǔ)上,CNN 由于其特殊的復(fù)用機(jī)制,可以進(jìn)一步減少總線上的數(shù)據(jù)通信。而復(fù)用這一概念,在超大型神經(jīng)網(wǎng)絡(luò)中就顯得格外重要。如何合理地分解、映射這些超大卷積到有效的硬件上成為了一個(gè)值得研究的方向。
趨勢(shì)二:更低的 Inference計(jì)算/存儲(chǔ)位寬
AI 芯片最大的演進(jìn)方向之一可能就是神經(jīng)網(wǎng)絡(luò)參數(shù)/計(jì)算位寬的迅速減少——從 32 位浮點(diǎn)到 16 位浮點(diǎn)/定點(diǎn)、8 位定點(diǎn),甚至是 4 位定點(diǎn)。在理論計(jì)算領(lǐng)域,2 位甚至 1 位參數(shù)位寬,都已經(jīng)逐漸進(jìn)入實(shí)踐領(lǐng)域。
趨勢(shì)三:更多樣的存儲(chǔ)器定制設(shè)計(jì)
當(dāng)計(jì)算部件不再成為神經(jīng)網(wǎng)絡(luò)加速器的設(shè)計(jì)瓶頸時(shí),如何減少存儲(chǔ)器的訪問延時(shí)將會(huì)成為下一個(gè)研究方向。通常,離計(jì)算越近的存儲(chǔ)器速度越快,每字節(jié)的成本也越高,同時(shí)容量也越受限,因此新型的存儲(chǔ)結(jié)構(gòu)也將應(yīng)運(yùn)而生。
趨勢(shì)四:更稀疏的大規(guī)模向量實(shí)現(xiàn)
神經(jīng)網(wǎng)絡(luò)雖然大,但是,實(shí)際上有很多以零為輸入的情況,此時(shí)稀疏計(jì)算可以高效的減少無用能效。來自哈佛大學(xué)的團(tuán)隊(duì)就該問題提出了優(yōu)化的五級(jí)流水線結(jié)構(gòu), 在最后一級(jí)輸出了觸發(fā)信號(hào)。在Activation層后對(duì)下一次計(jì)算的必要性進(jìn)行預(yù)先判斷,如果發(fā)現(xiàn)這是一個(gè)稀疏節(jié)點(diǎn),則觸發(fā) SKIP信號(hào),避免乘法運(yùn)算的功耗,以達(dá)到減少無用功耗的目的。
趨勢(shì)五:計(jì)算和存儲(chǔ)一體化
計(jì)算和存儲(chǔ)一體化(process-in-memory)技術(shù),其要點(diǎn)是通過使用新型非易失性存儲(chǔ) (如ReRAM)器件,在存儲(chǔ)陣列里面加上神經(jīng)網(wǎng)絡(luò)計(jì)算功能,從而省去數(shù)據(jù)搬移操作,即實(shí)現(xiàn)了計(jì)算存儲(chǔ)一體化的神經(jīng)網(wǎng)絡(luò)處理,在功耗性能方面可以獲得顯著提升。


聲明:文章來源知乎,作者天山老霸王,文章版權(quán)歸作者所有,本文僅供學(xué)習(xí)交流使用,如有侵權(quán),請(qǐng)聯(lián)系刪除!

版權(quán)所有:科理咨詢(深圳)股份有限公司 粵ICP備10082873號(hào)-1 | 服務(wù)熱線:0755-26993418
想了解精益生產(chǎn)咨詢公司,課程,培訓(xùn),管理,方案,方法,內(nèi)訓(xùn)請(qǐng)聯(lián)系我們.