【中國傳動網(wǎng) 行業(yè)動態(tài)】 近日,兩家大數(shù)據(jù)領域的代表性企業(yè)Cloudera和Hortonworks宣布了它們相對平等的合并,宣稱新公司將創(chuàng)建世界領先的下一代數(shù)據(jù)平臺并提供業(yè)界首個企業(yè)數(shù)據(jù)云,這令很多人感到意外,大數(shù)據(jù)的未來何去何從,一時成為大數(shù)據(jù)產(chǎn)業(yè)從業(yè)人員關心的話題。
大數(shù)據(jù)蹣跚前行,邁進下半場
隨著2012年維克托·邁爾-舍恩伯格《大數(shù)據(jù)時代》一書的出版,“大數(shù)據(jù)”這一概念乘著互聯(lián)網(wǎng)的浪潮在各行各業(yè)中扮演了舉足輕重的角色,得大數(shù)據(jù)者得天下,業(yè)界紛紛用大數(shù)據(jù)這個詞來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關的技術發(fā)展與創(chuàng)新。
2013年被稱為中國的“大數(shù)據(jù)元年”,大數(shù)據(jù)開始在我國流行,以勢不可擋的姿態(tài)進入人們的思想意識,并在社會的各個領域探索與落地實踐。涂子沛的《大數(shù)據(jù)》一時成為暢銷讀物,大數(shù)據(jù)的概念風行大江南北,阿里巴巴成為最早提出通過數(shù)據(jù)進行企業(yè)數(shù)據(jù)化運營的企業(yè)。2015年,我國政府通過了《關于促進大數(shù)據(jù)發(fā)展的行動綱要》,大數(shù)據(jù)更是上升為國家戰(zhàn)略。
同美國市場一樣,以Hadoop為代表的大數(shù)據(jù)技術,在中國的大數(shù)據(jù)產(chǎn)業(yè)中也經(jīng)歷了一段狂熱期,在很長一段時期內(nèi),Hadoop幾乎成了大數(shù)據(jù)的代名詞。在這個數(shù)據(jù)大爆炸的時代,企業(yè)需要對海量數(shù)據(jù)存儲、快速處理和分析,Hadoop正是為此而生。但目前看來,這股浪潮正漸漸退去,Hadoop正在逐漸變成一項傳統(tǒng)技術。
從誕生到現(xiàn)在,Hadoop已經(jīng)走過十多年的歷史,但近年來,以Hadoop為代表的大數(shù)據(jù)產(chǎn)業(yè)生態(tài),在實際落地中卻面臨著尷尬的局面。首先,大數(shù)據(jù)的價值被夸大,在投入產(chǎn)出比上差強人意。其次,中小企業(yè)對大數(shù)據(jù)的應用極為有限。目前看來,需求主要來源于一些大型企業(yè),數(shù)據(jù)量過大,數(shù)據(jù)分析需求旺盛,但中小企業(yè)自身數(shù)據(jù)量并不大,需求度較低,同時也缺少相應的大數(shù)據(jù)技術人才。最后,大數(shù)據(jù)管理難度大,數(shù)據(jù)開放共享、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、個人隱私信息保護等已經(jīng)成為管理大數(shù)據(jù)最頭疼的問題。今年5月,歐盟數(shù)據(jù)保護法規(guī)《通用數(shù)據(jù)保護條例》發(fā)布,對大數(shù)據(jù)企業(yè)采集的個人隱私數(shù)據(jù)管理工作產(chǎn)生極大的挑戰(zhàn)。
2018年10月底,IBM宣布以高達340億美元的價格收購RedHat,IBM宣稱其將成為全球的頭號混合云提供商,而亞馬遜、微軟、阿里巴巴等云計算巨頭早已將計算、存儲、網(wǎng)絡資源和應用軟件(大多來自開源社區(qū))作為在線云服務來提供,Anaconda產(chǎn)品和營銷高級副總裁MathewLodge指出,大數(shù)據(jù)的中心已經(jīng)從Hadoop轉(zhuǎn)移到了云端,在云環(huán)境下的對象存儲系統(tǒng)(如亞馬遜S3、微軟AzureBlobStorage和GoogleCloudStorage)中存儲數(shù)據(jù)比在HDFS中便宜了5倍。
盡管現(xiàn)在就談Hadoop已死為時尚早,但大數(shù)據(jù)產(chǎn)業(yè)面臨的以上問題已經(jīng)累積很久,也沒有被很好地解決,能否解決以上問題將直接關乎大數(shù)據(jù)的未來發(fā)展。
人工智能方興未艾,取得新突破
人工智能(AI)是研究用于模擬與延伸擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學,目前在商業(yè)和生活中已有大量應用場景,被產(chǎn)業(yè)界寄望為下一輪技術革命,對它的關注熱度已經(jīng)超過大數(shù)據(jù)。
AI的發(fā)展歷程一波三折,呈螺旋式發(fā)展,在歷史上共經(jīng)歷三個時期。首先是1956年達特茅斯會議提出了AI的概念,但當時的計算機處理性能和數(shù)據(jù)容量制約了AI技術的發(fā)展。然后在20世紀80年代,專家系統(tǒng)興起,AI算法模型有了重大發(fā)明,包括多層神經(jīng)網(wǎng)絡和BP反向傳播算法的提出,出現(xiàn)了能與人類下象棋的高度智能機器,但隨著臺式機的出現(xiàn),使得AI專家系統(tǒng)走向沒落。再往后就是2006年,Hinton論文開啟了深度學習時代,特別是2016年,AIphaGo大敗李世石,將AI從后臺推到了科技界的聚光燈下,一時間萬眾矚目。
AI已經(jīng)替代了早些年的大數(shù)據(jù),成為新的商業(yè)科技風口。2017年全球AI融資超150億美元,谷歌、亞馬遜、蘋果、微軟以及阿里、百度、騰訊等中美科技巨頭紛紛布局。以深度學習為代表的AI算法,PC/移動互聯(lián)網(wǎng)上海量、多維度、高價值大數(shù)據(jù),以及以GPU、FPGA、ASIC為代表的AI計算芯片,成為本輪AI發(fā)展的核心驅(qū)動力。
AI技術體系一般分為基礎層、技術層和應用層,在AI大發(fā)展的浪潮中,AI技術體系中的各模塊發(fā)展特點各不相同。
基礎層對應著算法(包括回歸、分類、聚類、深度學習算法等)、算力(即AI芯片)和軟件框架(實現(xiàn)對AI算法的封裝)。
算法部分,深度學習帶動了本輪AI的大躍進,深度學習已經(jīng)在語音識別、圖像識別等領域取得突破,而海量的數(shù)據(jù)和高效的算力支撐是深度學習算法實現(xiàn)的基礎,同時還有很多新的算法理論成果正在被提出和應用,如強化學習、遷移學習、膠囊網(wǎng)絡、生成對抗網(wǎng)絡等。
算力部分,由各種AI芯片來提供基礎計算能力。AI芯片除了傳統(tǒng)的CPU及GPU外,還包括為特定場景應用而定制的計算芯片。深度學習既要求計算芯片支持對存儲介質(zhì)中海量數(shù)據(jù)的高效存取,還要能支持一些特定AI計算需求,因此GPU成為目前深度學習算法應用中的首要選擇。FPGA(現(xiàn)場可編程門陣列)可以實現(xiàn)應用場景的高度定制,屬于一種半定制化芯片。ASIC(專用集成電路)是不可配置的高度定制專用計算芯片,其性能也是最優(yōu)的。TPU(張量處理單元)是谷歌公司設計的處理器,非常適合運行TensorFlow軟件,還有寒武紀的NPU,都是ASIC的典型代表。另外,還涌現(xiàn)出各類定制化的高性能AI計算服務器,或稱之為GPU一體機,一站式提供AI所需的算力。
軟件框架部分,目前AI軟件框架百花齊放,軟件框架是整個技術體系的核心,實現(xiàn)對AI算法的封裝、數(shù)據(jù)的調(diào)用以及計算資源的調(diào)度使用。軟件框架好比是AI應用開發(fā)的操作系統(tǒng),為開發(fā)者提供編程環(huán)境和算法庫,并按需分配AI芯片等硬件資源,目的是構(gòu)建AI系統(tǒng)開發(fā)和運行的軟件環(huán)境。目前主流的AI軟件框架主要有TensorFlow、MXNet、Caffe、Torch、CNTK、Theano、SciKit-Learn等,軟件框架的用戶包括了AI服務的開發(fā)者和使用者。
技術層負責解決具體類別的AI技術問題。其中語音識別技術負責將語音轉(zhuǎn)換為文本或命令,自然語言處理技術實現(xiàn)人和機器之間的自然語言通信,計算機視覺技術用于處理圖形圖像和視頻內(nèi)容的識別。
應用層立足于解決各行業(yè)領域?qū)嶋H場景問題,如安防場景下,用于警訊發(fā)現(xiàn)、人臉識別、道路監(jiān)控等;金融場景下,可用于資產(chǎn)異動監(jiān)測、征信風控和智能投顧等;醫(yī)療場景下,可應用于對醫(yī)學影像、電子病例處理來輔助診療;還有目前最為火熱的自動駕駛場景,谷歌、特斯拉和百度三巨頭的無人駕駛汽車已經(jīng)上路試運行。
以云服務方式提供AI服務已成為當前的趨勢,AI云服務一般分為平臺類服務和軟件類服務。平臺類服務包含GPU云服務,深度學習平臺等,GPU云服務是以虛擬機的形式,為用戶提供GPU計算資源。深度學習平臺則是以TensorFlow、Caffe、MXNet等主流深度學習軟件框架為基礎,提供相應的常用深度學習算法和模型,組合各種數(shù)據(jù)源、組件模塊,讓用戶可以基于該平臺對語音、文本、圖片、視頻等海量數(shù)據(jù)進行離線模型訓練、在線模型預測及可視化模型評估。軟件類服務包括提供API程序接口、SDK包、消息服務接口的形式提供AI相關的在線網(wǎng)絡服務,可包括語音識別、文字處理、圖像檢測、智能推薦等應用方式。
掘金數(shù)據(jù)資產(chǎn),探索數(shù)據(jù)智能
大數(shù)據(jù)為人工智能發(fā)展提供了基礎資源,人工智能技術的核心就在于通過計算找尋大數(shù)據(jù)中的規(guī)律,對具體場景問題進行預測和判斷。想要訓練出成功的人工智能算法,需要運算力和大量的數(shù)據(jù),其中最重要的就是數(shù)據(jù)量要足夠大。除了數(shù)據(jù)量足夠大,大數(shù)據(jù)還需要通過采集、清洗、標注等處理工作后才能夠作為人工智能算法模型訓練的輸入,但目前在實際應用中,數(shù)據(jù)流通不暢、數(shù)據(jù)質(zhì)量不高和數(shù)據(jù)安全風險等問題仍然極大制約著人工智能的發(fā)展和應用。
大數(shù)據(jù)的未來何去何從,與人工智能技術如何完美結(jié)合,共同驅(qū)動數(shù)字經(jīng)濟發(fā)展,數(shù)據(jù)智能或?qū)⒊蔀樾碌臒狳c和大趨勢。
“數(shù)據(jù)智能”是百度公司在2014年提出的概念,百度對數(shù)據(jù)智能的定義,指基于大數(shù)據(jù)引擎,通過大規(guī)模機器學習和深度學習等技術,對海量數(shù)據(jù)進行處理、分析和挖掘,提取數(shù)據(jù)中所包含的有價值的信息和知識,使數(shù)據(jù)具有“智能”,并通過建立模型尋求現(xiàn)有問題的解決方案以及實現(xiàn)預測等。
2018年10月,第五屆中國國際大數(shù)據(jù)大會上發(fā)布的《2018年數(shù)據(jù)智能生態(tài)報告》中提出,在機器學習、分布式計算等技術發(fā)展的基礎上,數(shù)據(jù)逐漸呈現(xiàn)出高維度、高階態(tài)、異構(gòu)性的形式,把能夠?qū)A繑?shù)據(jù)進行分析、處理和挖掘,并且通過建模、工程等方式來解決實際預測問題,最終實現(xiàn)決策的行動,稱之為數(shù)據(jù)智能。
對數(shù)據(jù)智能的信息化落地,業(yè)界一般稱之為數(shù)據(jù)智能平臺或數(shù)據(jù)中臺。
據(jù)阿里巴巴公共數(shù)據(jù)平臺負責人介紹,阿里巴巴數(shù)據(jù)中臺戰(zhàn)略在2015年首次提出,旨在對內(nèi)提供數(shù)據(jù)基礎建設和統(tǒng)一的數(shù)據(jù)服務,對外提供服務商家的統(tǒng)一化數(shù)據(jù)產(chǎn)品。阿里數(shù)據(jù)中臺基于OneData體系建立的集團數(shù)據(jù)公共層,從設計、開發(fā)、部署和使用上保障了數(shù)據(jù)口徑的規(guī)范和統(tǒng)一,實現(xiàn)數(shù)據(jù)資產(chǎn)全鏈路管理,并提供標準數(shù)據(jù)輸出。基于阿里數(shù)據(jù)中臺輸出的生意參謀產(chǎn)品,是阿里巴巴首個統(tǒng)一的商家數(shù)據(jù)產(chǎn)品平臺,為中小企業(yè)商家提供數(shù)據(jù)披露、分析、診斷、建議、優(yōu)化、預測等多項數(shù)據(jù)服務。
另外,據(jù)百度公司的百度數(shù)智平臺官網(wǎng)介紹,該平臺定位為提供大規(guī)模機器學習、深度學習、數(shù)據(jù)分析及展現(xiàn)、數(shù)據(jù)應用等產(chǎn)品與服務,包括了大數(shù)據(jù)基礎產(chǎn)品和大數(shù)據(jù)應用產(chǎn)品兩大類,大數(shù)據(jù)基礎產(chǎn)品包括大數(shù)據(jù)傳輸Minos、數(shù)據(jù)工廠Pingo、數(shù)據(jù)治理Dayu、數(shù)據(jù)分析與開發(fā)Jarvis、大數(shù)據(jù)可視化Habo等產(chǎn)品,大數(shù)據(jù)應用產(chǎn)品包括百度智客、百度覓客、百度匯客、百度客情、百度商情等產(chǎn)品,百度公司將其數(shù)智平臺定位為AI時代的企業(yè)數(shù)據(jù)管家,服務于公司內(nèi)部和各行業(yè)合作伙伴。
在2018年10月由中國聯(lián)通大數(shù)據(jù)公司主辦的加速-U10大數(shù)據(jù)價值峰會上,中國聯(lián)通大數(shù)據(jù)公司負責人以“數(shù)智”為主題發(fā)表演講,她認為當前大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)進入“數(shù)智”時代,聯(lián)通大數(shù)據(jù)的數(shù)智升級,在于更大規(guī)模的數(shù)據(jù)、更深度的智能,打造數(shù)智新架構(gòu)體系,做值得信賴的數(shù)據(jù)智能服務運營商,同時介紹了中國聯(lián)通UBD數(shù)智中臺的建設思路。
可以看出,以上代表性企業(yè)建設數(shù)據(jù)智能平臺或數(shù)據(jù)中臺的意義主要在于,一是幫助企業(yè)管理好內(nèi)部現(xiàn)有的數(shù)據(jù)資產(chǎn),即數(shù)據(jù)資產(chǎn)管理;二是為企業(yè)提供基于大數(shù)據(jù)的預測分析產(chǎn)品,即人工智能服務。數(shù)據(jù)資產(chǎn)管理的目的是為了準備和提供高質(zhì)量的數(shù)據(jù)給人工智能應用,對數(shù)據(jù)的規(guī)范化和標準化是企業(yè)實現(xiàn)基于大數(shù)據(jù)提供智能化服務的關鍵,也是決定大數(shù)據(jù)價值實現(xiàn)的基礎。
大數(shù)據(jù)進入下半場,人工智能已然崛起,現(xiàn)有的大數(shù)據(jù)技術亟須和人工智能技術結(jié)合,孕育新的產(chǎn)業(yè)生態(tài),從百度、阿里和中國聯(lián)通的做法可以看出,向數(shù)據(jù)智能型企業(yè)轉(zhuǎn)型正在成為大型科技企業(yè)新的行動方向,阿里巴巴提出的“大中臺、小前臺”的做法已經(jīng)成為業(yè)界主流數(shù)字化轉(zhuǎn)型思路,企業(yè)通過建設數(shù)據(jù)智能平臺或數(shù)據(jù)中臺,打破內(nèi)部數(shù)據(jù)壁壘、盤活數(shù)據(jù)資產(chǎn)、提升數(shù)據(jù)價值,對外提供統(tǒng)一的智能化數(shù)據(jù)服務,有望再次重構(gòu)大數(shù)據(jù)產(chǎn)業(yè)生態(tài)環(huán)境,進一步深挖和釋放大數(shù)據(jù)的價值紅利。