2017年5月18日星期四

中國CPU/GPU/DSP先天不足,靠啥在深度學習上趕超美國?

中國和美國的深度學習處理器,哪一款產品能在商業上取得成功,很大程度上取決於技術以外的因素。就現在情況來看,大家基本處於同一起跑線,鹿死誰手,還未可知。

歸功於AlphaGo阿法狗與韓國李世石對弈掀起的波瀾,人工智慧和深度學習已經深入人心。而中科院、英特爾、谷歌、IBM、英偉達等中美兩國的科研機構和商業公司,不滿足於當吃瓜群眾,也紛紛推出了用於深度學習的處理器。

所有這些機構和公司的產品中,既有CPU、GPU、DSP這樣的傳統晶片,也有專門為深度學習Deep Learning Super Computer而生的NPU(嵌入式神經網絡處理器)。毫無疑問,就像PC時代一樣,在人工智慧時代,這些晶片也將成為未來深度學習人工智慧的核心,可以說是走向智能世界的重要根基。

這麼重要的技術,自然也是國家科技競賽的必爭之地,那麼,中美兩國推出的這些CPU、GPU、DSP、TPU、NPU深度學習處理器,各有什麼特點,在深度學習處理器方面,中美誰更有希望率先突破呢?

美國:CPU、GPU、DSP、TPU、NPU一應俱全


由於在美國在半導體產業上擁有的雄厚技術底蘊,使美國不少公司都開發出了針對深度學習的晶片,這其中以英特爾的眾核晶片,NVIDIA英偉達的GPU,Cadence公司和Synopsys公司的DSP,以及IBM的真北和谷歌的TPU為代表。

一直以來,英偉達著力於將自己的GPU用於深度學習,並為深度神經網絡推出了Tesla P100 GPU,並且發布了基於該GPU的深度學習超級計算機 DGX-1,隨後DGX-1被交給了人工智慧項目OpenAI。

深度學習處理器 中美誰更有希望率先突破?


圖:英偉達為人工智慧開發的超級計算機DGX-1

在英偉達開發出針對人工智慧的定製GPU,並堅持DGX-1 系統之後,英特爾也不甘落後,在收購深度學習創業公司Nervana Systems之後,英特爾又公布了用於深度學習的Xeon Phi家族新成員,在深度學習處理器領域開闢新戰場。

美國Cadence公司的Tensilica Vision P5處理器和Synopsys公司的EV處理器本質上也是在現有的成熟技術上做改進,將傳統的面向數位訊號處理的DSP處理器架構用於處理神經網絡。

在今年年初,谷歌公開一款叫做Tensor Processing Unit的處理器,根據TPU團隊主要負責人介紹,TPU專為Google機器學習應用TensorFlow打造,能夠在相同時間內處理更複雜、更強大的機器學習模型並將其更快地投入使用。

谷歌數據中心早在一年前就開始使用TPU,之前打敗李世石的AlphaGo就是採用了TPU做了運算加速。不過,谷歌也表示,TPU只在特定應用中輔助CPU和GPU使用。由於谷歌沒有公開TPU的細節信息,而且只供內部使用,以及只能配合CPU和GPU起輔助作用。因此,下文對TPU不再論述。

相對於只起到輔助作用的TPU,IBM的真北則是能獨立完成深度學習的晶片,IBM宣稱處理能力相當於1600萬個神經元和40億個神經鍵。

可以說,由於美國在相關技術上的深厚積累,使其可以實現遍地開花,既可以運用現有成熟技術開發出針對深度學習的CPU、GPU和DSP,也可以開發出專門針對深度學習的專業晶片NPU和TPU。

中國:在NPU上成果斐然

由於中國在CPU和GPU方面相對美國有相當大的技術差距,導致國內企業沒有能力像英特爾和英偉達那樣以現有的成熟技術為基礎開發出適合深度學習的產品。不過,在沒有任何歷史包袱的NPU領域,由於中國和美國基本處於同一起跑線的情況下,反而取得了不凡的技術成果。

中國科學院計算技術研究所是國際上最早研究深度神經網絡處理器的單位之一。2014年,中科院計算所和法國Inria合作發表的相關學術論文先後獲得了計算機硬體領域頂級會議ASPLOS』14和MICRO』14的最佳論文獎。這也是亞洲首次在此領域頂級會議上獲得最佳論文獎。

隨後,國際計算機學會(Association for Computing Machinery)通訊也將這一系列工作列為計算機領域的研究焦點。這標誌著我國在智能晶片領域已經進入了國際領先行列。

此後中科院計算所獨立研製了世界首個深度學習處理器晶片——寒武紀,發布了世界首個神經網絡處理器指令集,後者於2016年被計算機體系結構領域頂級國際會議ISCA2016(International Symposiumon Computer Architecture)所接收,其評分排名所有近300篇投稿的第一名。目前,中科院計算所已成立寒武紀公司,對神經網絡處理器進行產業化,明年就能聽到好消息。

深度學習處理器 中美誰更有希望率先突破?

分析一下:

傳統CPU、GPU、DSP存在先天不足

想要看出誰能突破,就得從最底層的技術特點來分析。

首先來看看美國眾多公司的CPU、GPU和DSP。無論是針對人工智慧的眾核晶片還是定製版的GPU,本質上都不是專用處理器,實際上是拿現有的、相對成熟的架構和技術成果去應對新生的人工智慧,並沒有發生革命性的技術突破。

其實,英特爾和英偉達是在使用現有的比較成熟的技術去滿足深度學習的需求,雖然能藉助現有的非常成熟的技術,以及英特爾、英偉達這樣巨大體量、市場推廣以及銷售能力拔得頭籌,但由於眾核晶片和定製版GPU在本質上來說依舊是CPU和GPU,而並非專門針對深度學習的專業晶片,這就必然帶來一些天生的不足。

打一個比方,用眾核晶片和GPU跑深度學習,就類似於用轎車去拉貨,受轎車自身特點的限制,貨物運輸能力與真正大馬力、高負載的貨車有一定差距。

同理,即便是因為技術相對更加成熟,英特爾和英偉達的晶片在集成度和製造工藝上具有優勢,但由於CPU、GPU並非針對深度學習的專業晶片,相對於專業晶片,其運行效率必然受到一定影響。

專業角度看,Cadence公司的Tensilica Vision P5處理器、Synopsys公司的EV處理器其實是將傳統的面向數位訊號處理的DSP處理器架構用於處理神經網絡,主要在運算器方面作了相應修改,例如低位寬和超越函數,而並非真正的NPU。

這種方式能夠適用於卷積神經網路(CNN),而對循環神經網絡(RNN)和長短期記憶網絡(LSTM)等處理語音和自然語言的網絡有可能就無能為力了。因此,用傳統SIMD/DSP架構來適配神經網絡,和真正的NPU依然有一定差距。

NPU:為深度學習而生的專業晶片

那麼,什麼是真正適合人工智慧神經網絡的晶片呢?我們得從人工智慧和神經網絡的特點講起。

人工神經網絡是一類模仿生物神經網絡而構建的計算機算法的總稱,由若干人工神經元結點互聯而成。神經元之間通過突觸兩兩連接,突觸記錄了神經元間聯繫的權值強弱。

每個神經元可抽象為一個激勵函數,該函數的輸入由與其相連的神經元的輸出以及連接神經元的突觸共同決定。為了表達特定的知識,使用者通常需要(通過某些特定的算法)調整人工神經網絡中突觸的取值、網絡的拓撲結構等。

說得通俗點,這個過程其實就是「學習」的過程。在學習之後,人工神經網絡就可通過學習到的知識來解決特定的問題。

由於深度學習的基本操作是神經元和突觸的處理,而傳統的處理器指令集(包括x86和ARM等)是為了進行通用計算髮展起來的,其基本操作為算術操作(加減乘除)和邏輯操作(與或非),往往需要數百甚至上千條指令才能完成一個神經元的處理,深度學習的處理效率不高。

這也是為什麼,谷歌甚至需要使用上萬個x86 CPU核運行7天來訓練一個識別貓臉的深度學習神經網絡。因此,傳統的通用處理器(包括x86和ARM晶片等)用於深度學習的處理效率不高,這時就必須研發麵向深度學習的專用處理器。

而中國研發的的寒武紀晶片這種NPU晶片,其指令集直接面對大規模神經元和突觸的處理,一條指令即可完成一組神經元的處理,並對神經元和突觸數據在晶片上的傳輸提供了一系列專門的支持。

同時,因為NPU面向深度學習應用專門定製了功能單元和片上存儲層次,同時剔除了通用處理器中為支持多樣化應用而加入的複雜邏輯(如動態流水線等),因此與CPU、GPU相比,神經網絡專用處理器會有百倍以上的性能或能耗比差距。

在NPU上中國領先美國

由於IBM很不幸地點歪了科技樹,這直接導致中國在NPU上暫時領先於美國。

IBM的真北本身的研究是基於脈衝神經網絡(Spiking Neural Network,SNN)的,而寒武紀則一直面向的是機器學習類的神經網絡,如MLP(多層感知機)、CNN(卷積神經網絡)和DNN(深度神經網絡)。

兩種網絡根本的不同在於網絡中傳遞的信息表示,前者(SNN)是通過脈衝的頻率或者時間,後者則是突觸連接的權值。目前在現有的測試集上,機器學習類的神經網絡具有更高的精度(尤其是深度神經網絡);前者則在精度上不能與之比擬。

精度是目前領域內很關心的非常重要的指標,比如近幾年火熱的ImageNet競賽也是以識別精度為衡量標準的。正是因為曾經存在精度方面的差距,所以後來IBM的真北放棄了原來的路線圖,也開始貼近機器學習類的神經網絡,並採用了一些很曲折的方法來實現這一目標。

之前說過,真北本身是基於脈衝神經網絡設計的,並且採用了邏輯時鐘為1KHz這樣的低頻率來模擬毫秒級別生物上的脈衝,這也使得真北功耗很低(70mW),當然性能也比較有限。

而寒武紀則是機器學習類的神經網絡設計,運行時鐘頻率在GHz左右,能夠極其快速且高效的處理網絡計算。這使得寒武紀相對於真北具有性能上的優勢。

相比之下,寒武紀系列的內部計算符合機器學習類神經網絡(機器學習類網絡本身也沒有如同脈衝神經網絡一樣特別貼合生物神經元模型),通過調度在不同時刻計算不同的神經元從而完成整個神經網絡的計算。這其中,涉及到處理器設計本身的一點是,通過不同參數的選取就能夠完成不同規格(處理能力)的處理器實現。

筆者曾採訪過杜子東博士(杜子東博士長期從事人工神經網絡和脈衝神經網絡處理器的研究工作,在處理器架構最好的三個國際頂級會議ISCA/MICRO/ASPLOS上發表過多篇論文,是中國計算機體系結構領域青年研究者中的翹楚),杜子東博士表示,「包括他們(IBM)在內,大家都認為他們(IBM)走錯了路……」,並認為,「真北相對於寒武紀沒有什麼優勢。硬要說有的話,那就是IBM的品牌優勢和廣告優勢」

技術有優勢,不過還有商業問題

就深度學習處理器而言,美國可以憑藉其在CPU和GPU上深厚的技術積累,並在晶片集成度和製造工藝水平占據絕對優勢的情況下,開發出能用於深度學習,且性能不俗的眾核晶片和GPGPU。

但因為之前提到,CPU、GPU相對於NPU在深度學習方面天生會有一定劣勢,在晶片集成度和製造工藝水平相當的情況下,其表現必然遜色於NPU。而將DSP用於處理神經網絡的做法,其本質上也是對現有的技術進行修改,用傳統SIMD/DSP架構來適配神經網絡,和真正的NPU依然有一定差距。谷歌的TPU在深度學習中能起到加速作用,但也只能輔助CPU和GPU,而不是獨挑大樑。

在NPU領域,由於IBM點歪了科技樹,以及中科院在該領域前瞻性地開展了一系列科研工作,使中國能在目前處於優勢地位。

當然,技術歸技術,和PC時代一樣,技術之外還有商業問題。中國和美國的深度學習處理器,哪一款產品能在商業上取得成功,則很大程度上取決於技術以外的因素。就現在情況來看,大家基本處於同一起跑線,鹿死誰手,還未可知。

2 评论:

大台中旅館推薦約咩賴21971北中南都有送豐原沙鹿火車站住宿休息艾艾一頁情住家也可地點自選台北新北住宿休息艾艾一頁情賴21971住家也可地點自選高雄旅館推薦約咩高雄旅館推薦約咩賴21971台南旅館休息約咩新北住宿休息艾艾一頁情賴21971住家也可地點自選 说...

北中南都有送豐原沙鹿火車站住宿休息艾艾一頁情賴933200住家也可地點自選新北住宿休息艾艾一頁情賴933200家也可地點自選高雄旅館推薦約咩
http://blog.udn.com/line933200/article大 台 中 旅 館 推 薦 約 咩 賴 瀨 9 3 3 2 0 0 北 中 南 都 有 送 豐 原 沙 鹿 https://1line933200.blogspot.com/
車 站 住 宿 休 息 艾 艾 頁 情 住 家 也 可 地 點 自 選 新 北 住 宿 休 息
艾 艾 一 頁 情 賴 9 3 3 2 0 0 家 也 可 地 點 自 選 高 雄 旅 館 推 薦 約 咩

台中東海校花汽車旅館叫小姐台中茶訊魚訊LINE:21971台中茶訊台中茶訊術語中外叫按摩台中外叫茶LINE:21971 说...

台灣約小姐做愛一夜情LINE:500BJ最優質兼差美眉 百分百配合 到府外送茶服務
新北板橋叫小姐賴500bj汐止全套外送新店外約妹妹台北外送茶賴500bj
桃園龜山林口汽車旅館約妹LINE:500bj林口叫小姐龜山外送約妹賴500bj
林口約妹妹賴500bj龜山區林口區叫妹妹外送茶汽車旅館住宿一夜情賴500bj
新竹竹北向日葵旅館約小姐賴500bj竹北竹東約小姐新竹香山區約美打炮賴500bj
台北全套新妹就在台北外約賴500bj台北叫小姐的聯絡方式賴500BJ
台中火車站叫小姐賴500bj台中怡達旅館約妹現金賴500bj台中住家叫小姐賴500bj
台中怡達起汽車旅館叫小姐賴500bj台中約東海學生妹台中火車站約妹賴500bj
台中住家叫妹賴500bj台中靜宜學生妹兼職賴500bj台中約炮一夜情賴500BJ現金交易
彰化火車站雅迪旅館叫妹賴500bj喝茶約妹叫小姐打炮一夜情愛愛包夜過夜賴500bj
南投外送茶LINE500bj 南投叫小姐南投約妹草屯外送茶賴500bj草屯叫小姐
高雄外送茶賴500bj高雄看照约妹#高雄叫小姐高雄約炮論壇-高雄一夜情
台南外送茶莊/飯店叫小姐LINE500BJ台南汽車旅館叫小姐台南包夜賴500bj
台南外送茶莊-台南叫小姐女人香全套服務【約小姐賴500BJ】
https://timeline.line.me/user/_da7BMNrc3xP_GvNBpKXKzfvanGxylP9hEPzvPTA
【台南推薦】評價最好的外送茶!茶莊、價格、外約、到府服務 賴500BJ
約妹小姐外送茶莊台中外送茶莊賴500bj高雄美女全套服務/彰化找茶論壇/
台灣援交妹全套半套約妹賴500bj外送援交服務網/三重送住家叫小姐新竹找私魚
全省金絲貓外約外送台北外送茶【LINE”500BJ】金絲貓/美人妓/外約/外送茶
克莉絲汀-俄羅斯金絲貓-超正點妹妹-台北外約、外送【LINE:500BJ】
金髮俄羅斯戰鬥民族洋妞金絲貓賴500BJ秘密外送茶金髮藍眼俄羅斯戰鬥民族鮮
美洋妞金絲貓外送茶照片LINE:500BJ台北金絲貓外約15K台北洋妞外送茶
日本櫻花妹韓國泡菜妹新加坡俄羅斯美女推薦麗娜原型正妹LINE:500BJ
妹妹照片:https://500bj.blogspot.com/

发表评论

Twitter Delicious Facebook Digg Stumbleupon Favorites More

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Affiliate Network Reviews