數(shù)據是信息社會的基礎,它是二進制世界的硬通貨,也是驅動數(shù)字經濟發(fā)展的動力之源。信息技術歸根到底就是如何采集、傳輸和處理數(shù)據的技術,近幾十年引領科技進步的商業(yè)公司前赴后繼所從事的,基本都是如何從恒河沙數(shù)的數(shù)據中煉金的工作,英特爾也不例外。
數(shù)據洪流
“英特爾永遠是一個處理數(shù)據的公司,”英特爾全球副總裁兼中國區(qū)總裁楊旭說道。在 2016 英特爾人工智能論壇上, 楊旭發(fā)表了《人工智能在中國》的主題演講,他表示英特爾公司多年來持續(xù)跟蹤數(shù)據處理技術的發(fā)展,全面布局數(shù)據處理核心領域,認真應對數(shù)據特征變化。他認為,人工智能的再次火爆,正是由于洶涌而來的數(shù)據洪流達到了一定“水位”所催生。
以 1956 年在達特茅斯學院舉行的人工智能會議為起點,現(xiàn)代人工智能技術已經問世六十年,起起伏伏的人工智能產業(yè)并非一帆風順。以往人工智能技術所取得的成就在學術與研究上的意義更大,產生的直接經濟效益并不明顯,楊旭就認為人工智能產業(yè)仍處于嬰兒期?!叭斯ぶ悄苓€沒有產生很多直接的經濟效益,”英特爾公司副總裁兼數(shù)據中心事業(yè)部數(shù)據中心解決方案部門總經理 Jason Waxman 也這么說,“但所有的行業(yè)都能利用人工智能技術創(chuàng)造更大的經濟效益,只是時間上早晚的問題?!?/p>
英特爾公司副總裁兼數(shù)據中心事業(yè)部數(shù)據中心解決方案部門總經理 Jason Waxman
越來越多的證據表面,當前的計算能力、算法與聯(lián)網設備所產生的數(shù)據量已經構成了人工智能真正崛起的基礎。除了在圍棋領域戰(zhàn)勝人類冠軍,在圖像識別和語音識別正確率上,機器性能也在近年超過了人類平均水平,這既是算法改進的功勞,又離不開大量的訓練數(shù)據和計算。
在圖像識別上機器已經超越人類水平
海量接入的聯(lián)網設備所造成的數(shù)據洪流究竟有多大?“‘人聯(lián)網’時代,我們使用手機、電腦等終端設備,每人平均每天產生 1.5 GB 的數(shù)據量。而到了物聯(lián)網時代,一家智能醫(yī)院每天產生 3,000 GB 的數(shù)據量,一輛無人駕駛汽車每天產生 4,000 GB 的數(shù)據量,一家智能制造工廠每天將產生 1,000,000 GB 的數(shù)據量,完全不可想象的龐大數(shù)據流正在產生?!?/p>
楊旭同時強調,大數(shù)據時代中國在很多領域都非常領先,“中國互聯(lián)網用戶數(shù)達到了 4.2 億,全球最多,機動車擁有量達到了 2.85 億部,滴滴等網上訂車應用每天的數(shù)據量是 70TB,剛剛過去的雙十一創(chuàng)造了 1800 億元的銷售額?!敝袊欢ㄊ侨斯ぶ悄墚a業(yè)的主戰(zhàn)場之一。
主要矛盾
人工智能或整個信息技術的主要矛盾,就是系統(tǒng)日益增長的數(shù)據處理壓力與計算能力之間的矛盾?,F(xiàn)在人工智能領域比較火爆的圖像視頻應用與無人駕駛等都是計算壓力非常大的應用,戰(zhàn)勝李世石的 Alpha Go 分布式版本就采用了 1920 個 CPU 與 280 個 GPU,人工智能應用對于計算能力的需求非常驚人。
以人臉識別為例,英特爾數(shù)據中心事業(yè)部副總裁兼人工智能解決方案部門總經理 Naveen Rao 講解了為何機器學習或深度學習需要大計算量。與人類和動物不同,機器無法判斷圖像上哪些部位是特征點,這就需要開發(fā)人員用算法將圖像的關鍵點進行提取分類,對機器進行訓練,只有大量的數(shù)據與計算才能完成訓練,“從數(shù)據里面提取特征出來需要大量的計算,在過去,深度學習可能要花幾個月或者幾年的時間來能完成,這是因為當時計算能力很有限?!奔幢闶歉倪M的端到端深度學習算法所需處理的參數(shù)仍然有約 6000 萬個。
深度學習計算量驚人
“Pikazo 對內存的消耗非常大,最初的版本渲染一張 3.5 兆的圖片大概需要一個小時的時間?!盤ikazo 應用的寧飛說,“這種動輒數(shù)十分鐘的渲染時間,肯定非常影響用戶體驗?!辈捎?Torch 深度學習框架的 Pikazo 可以將照片渲染成藝術畫,但由于便攜設備計算能力不足,只能將計算放在云端,大計算量所需數(shù)十分鐘的處理時間很難讓普通用戶接受這款應用。
“我們都知道,只有更強大的計算能力才能處理人工智能應用所需的大數(shù)據,”Jason Waxman 說,“英特爾預測,到 2020 年,用于人工智能的計算將比現(xiàn)在增長 12 倍?!彼€表示,隨著信息產業(yè)發(fā)展得愈加成熟,人工智能應用整體框架的部署變得越來越困難,因為很多原有的基礎架構并沒有考慮到去適應人工智能應用,“只有 7%的應用部署符合人工智能的要求?!?/p>
巨頭布局
還不成熟的人工智能已經在多個領域顯示出了巨大的潛力?!袄萌斯ぶ悄芗夹g構建的欺詐檢測系統(tǒng),每年避免了數(shù)十億美元的損失,金融機構、政府和我們普通人都是受益者?!盝ason Waxman 說,“自動駕駛更是一個萬億美元級別的市場,無論是金融服務、制造業(yè)、工業(yè)、醫(yī)療還是汽車,都將受益于人工智能技術,人工智能的經濟效益在未來五到十年將真正體現(xiàn)出來?!?/p>
人工智能技術是人類對智力疆域的一次哥倫布之旅,是智力層面的“蒸汽機革命”,正在顛覆或者準備顛覆很多現(xiàn)有的行業(yè)與行業(yè)領袖。以筆者所從事的媒體行業(yè)為例,根據《智媒來臨和人機邊界:中國新媒體趨勢報告(2016)》中的數(shù)據,財經機器人寫稿量在 2016 年第一季度僅為 400 篇,2016 年第三季度已經達到了 40000 篇。
黑云壓城,山雨欲來,如果現(xiàn)在不主動應對,將來只能被動應付,所以行業(yè)巨頭在人工智能方面的布局出現(xiàn)了加速的趨勢,而且犬牙交錯,互不相讓,谷歌要開發(fā)專用于機器學習的張量處理器(Tensor Processing Unit),英特爾也提供了從底層原語、中層框架到上層應用的各種軟件解決方案。在應用上,英特爾現(xiàn)在重點布局的是精準醫(yī)療、金融服務、自動駕駛與網絡安全等應用。
Lake Crest 大概是英特爾版的張量處理器(TPU)
在一年左右的時間里,英特爾先后購入的 Saffron Technology、Nervana Systems 和 Movidius(尚未結案)都是為了完善自己的人工智能布局,Nervana Systems 的創(chuàng)始人 Naveen Rao 成為英特爾新成立的人工智能解決方案部門總經理,由他來掌舵 Nervana 人工智能平臺的發(fā)展方向。
Naveen Rao 掌控英特爾新成立的人工智能部門
新 Nervana 平臺將是一個整合性的人工智能產品組合,既包括現(xiàn)有的 Nervana 硬件平臺(至強(Xeon)處理器、至強融芯(Xeon PHI)、至強配合 FPGA 解決方案等)與人工智能軟件方案,也包含了規(guī)劃中的專為深度學習應用而開發(fā)的獨立加速芯片 Lake Crest 和面向神經網絡的 Nervana 圖編譯器。
Nervana 產品平臺
英特爾中國研究院院長宋繼強將英特爾的人工智能方案總結為:從前端到后端、從底層到上層完整的堆棧解決方案。
英特爾人工智能解決方案一覽
洞見未來
事實上,由于當前絕大部分人工智能應用對計算密度和存儲性能等要求極高,所以現(xiàn)在人工智能應用多部署在數(shù)據中心上,這正是英特爾的強項。
“目前 90%以上的數(shù)據分析都在用英特爾至強處理器平臺,其中在人工智能與深度學習的方案或者部署方面,至強處理器的占有率也超過 90%?!彼卫^強表示,利用 Nervana 技術可以更高效地定義內存訪問帶寬和計算密度,Nervana 平臺能夠非常好地匹配人工智能應用不斷增長的數(shù)據處理能力需求?!癗ervana 可以讓多個節(jié)點并行支持大模型的訓練,從而實現(xiàn)一種近乎線性的學習性能擴展?!?/p>
并行架構中處理器性能不是系統(tǒng)限制,通信開銷決定了系統(tǒng)上限
英特爾還在積極搶占 GPU 的市場,Pikazo 應用最初的版本采用 GPU 處理,最新的版本服務器已經更換為英特爾至強處理器,“Pikazo 的處理速度提高了至少 28 倍,能夠渲染的最大圖片尺寸提高了 15 倍”從寧飛現(xiàn)場的演示來看,渲染時間確實只需要幾分鐘。
Pikazo 現(xiàn)場演示
收購 Movidius 以后,在終端方面,英特爾也有了卷積神經網絡(CNN)的解決方案。從硬件到軟件、從前端到后端、從底層到上層,這樣英特爾對人工智能實現(xiàn)了全面覆蓋。
利用 Movidius,英特爾將人工智能延伸到終端設備
?
但在人工智能上英特爾是否可以高枕無憂?未必,如果人工智能真的是顛覆性科技,那么它的成功必然是以一批初創(chuàng)公司崛起,并拿此時輝煌的科技巨頭們祭旗為標志。在技術產業(yè)化經驗上,初創(chuàng)公司遠不能與英特爾、谷歌等大公司相比,但大公司的問題往往在于當前的利益遮擋住了未來的路標,內部的糾紛耗盡了有限的資源。
人工智能本來就是一個從現(xiàn)有數(shù)據中推測未來的技術,深度介入深度學習的科技巨頭所卜筮的結果是什么?能從已有模式中洞見自己的未來嗎?