近日,杭州量子金融服務(wù)有限公司聯(lián)合創(chuàng)始人閆安來(lái)到由山東省社科聯(lián)、山東大學(xué)等聯(lián)合主辦的齊魯大講壇,主講“人工智能與大數(shù)據(jù)”。閆安先后畢業(yè)于中科大少年班、中科院軟件所、布朗大學(xué)和華盛頓大學(xué),曾在微軟總部、微軟中國(guó)和阿里巴巴的大數(shù)據(jù)核心部門任負(fù)責(zé)人。
只是數(shù)量大不是大數(shù)據(jù)
大數(shù)據(jù),顧名思義就是數(shù)據(jù)量很大。我在微軟工作時(shí),他們的數(shù)據(jù)集是當(dāng)時(shí)世界上最大的,比阿里的還要大60%。
但是,簡(jiǎn)單的數(shù)量大還不能稱之為大數(shù)據(jù),真正的大數(shù)據(jù)有幾個(gè)特性。
第一,體量大。擁有大數(shù)據(jù)的公司鳳毛麟角,只有像BAT、谷歌、Facebook這樣的一線互聯(lián)網(wǎng)企業(yè)才能有這么大體量的數(shù)據(jù)。
第二,速度快。前不久的“雙11”,大家看到直播屏幕上的數(shù)字在不停地閃跳,完全是實(shí)時(shí)播報(bào),天貓“雙11”成交額超過100億元只用時(shí)3分01秒,而去年“雙11”突破100億則用時(shí)6分58秒,每秒鐘的支付寶交易達(dá)到十幾萬(wàn)筆。在我們看來(lái),“雙11”交易背后的數(shù)據(jù)量是驚人的,從國(guó)外公開的數(shù)據(jù)看,他們歷史存量的數(shù)據(jù)還沒有淘寶幾分鐘產(chǎn)生的數(shù)據(jù)多,所以大數(shù)據(jù)的另一個(gè)特征在于產(chǎn)生的速度非??臁?/p>
第三,有價(jià)值。真正的大數(shù)據(jù)會(huì)產(chǎn)生一定的價(jià)值,而不是一堆毫無(wú)價(jià)值的數(shù)據(jù)。
第四,多樣性。這也是大數(shù)據(jù)最重要的特性。當(dāng)大數(shù)據(jù)有了多樣性,即使沒有那么大的體量,也會(huì)產(chǎn)生出獨(dú)特的價(jià)值來(lái)。比如說在公安刑偵領(lǐng)域,幾張車票看不出什么價(jià)值來(lái),但如果加上住宿信息,就能挖掘出同伙資料,這就是大數(shù)據(jù)的多樣性帶來(lái)的好處。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)變成了資源。
阿里巴巴創(chuàng)始人馬云經(jīng)常說一句話,阿里巴巴不是一家電商公司,而是一家數(shù)字公司。馬云從心底里看重大數(shù)據(jù),因?yàn)樗靼?,有了大?shù)據(jù),他才會(huì)不斷產(chǎn)生新的業(yè)務(wù)。在今年的云棲大會(huì)上,他說了一句很豪氣的話:阿里什么行業(yè)都能做!他的底氣來(lái)自哪里?正是來(lái)自這些年積累的大數(shù)據(jù)。
用數(shù)據(jù)來(lái)說話
為什么說大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨?
第一,一切事物都在數(shù)據(jù)化、在線化。
現(xiàn)在的消費(fèi)者每個(gè)人手里幾乎都有手機(jī),這也就意味著每個(gè)人都持續(xù)在線,手機(jī)本身就是一個(gè)信息采集器,你做的很多事情都是在不停地輸出數(shù)據(jù)。
其他很多事情也是如此。正在研究的無(wú)人駕駛汽車,只要汽車開在路上,它就開始采集數(shù)據(jù),而且每秒鐘就能采集到很大的數(shù)據(jù)量。還比如很多農(nóng)民家屋頂上安裝的太陽(yáng)能發(fā)電系統(tǒng),直接連接到國(guó)家電網(wǎng)進(jìn)行銷售,這一切都已實(shí)現(xiàn)在線化。在線的數(shù)據(jù)是活的數(shù)據(jù),只要線上化之后,持續(xù)不斷的數(shù)據(jù)搜集進(jìn)來(lái),大數(shù)據(jù)就能做起來(lái)。
第二,數(shù)據(jù)的計(jì)算和存儲(chǔ)能力持續(xù)加強(qiáng),成本劇降。幾十塊錢、幾百塊錢就可以進(jìn)行大體量的計(jì)算,這使得大數(shù)據(jù)的應(yīng)用成為可能。
大家都聽說過云計(jì)算,其實(shí)云計(jì)算就是一種公共服務(wù)。幾年前的春節(jié),大家要買火車票,可是12306網(wǎng)站經(jīng)常登錄不上去,因?yàn)榇哼\(yùn)期間比平時(shí)要多出幾十倍的流量。12306網(wǎng)站不可能投資很多電腦設(shè)備去更新,因?yàn)槌舜汗?jié)以外平時(shí)就會(huì)閑著,資源閑置怎么辦?于是,就可以用云計(jì)算來(lái)解決,電腦需要多用的時(shí)候就租來(lái)用,像水和電一樣,用得多就多收錢,用得少就少收錢。
現(xiàn)在提供云計(jì)算服務(wù)的公司包括阿里云、騰訊云、亞馬遜等,它們的機(jī)房里放了很多機(jī)器設(shè)備,我用多少就付費(fèi),用完了再還回去,所以最近幾年12306網(wǎng)站70%的流量都由阿里云來(lái)進(jìn)行彈性計(jì)算。云計(jì)算讓一家普通的創(chuàng)業(yè)公司也能使用大數(shù)據(jù)的強(qiáng)計(jì)算量,而不是只有BAT這樣的大公司才能有這樣的特權(quán)。因此,云計(jì)算也是大數(shù)據(jù)時(shí)代來(lái)臨的重要標(biāo)志。
第三,使用大數(shù)據(jù)已經(jīng)成為大家的普遍觀念,而不只是個(gè)別人很感興趣。就像美國(guó)著名統(tǒng)計(jì)學(xué)家、質(zhì)量管理學(xué)家愛德華茲·戴明所說,除了上帝之外,任何人都必須用數(shù)據(jù)來(lái)說話。
大數(shù)據(jù)怎樣改變生活
我給大家舉些例子,看看大數(shù)據(jù)是怎么改變我們的生活的。
美國(guó)9·11事件時(shí),一共有21個(gè)劫機(jī)犯,當(dāng)時(shí)大數(shù)據(jù)還沒有發(fā)展到一定的階段,如果當(dāng)時(shí)能夠采用大數(shù)據(jù)進(jìn)行關(guān)系挖掘的話,也許這個(gè)事件可以避免。其實(shí),就在事件發(fā)生前的2001年8月,已經(jīng)有3個(gè)劫機(jī)犯引起了警方的關(guān)注,但并沒有把他們視為團(tuán)伙,根據(jù)他們買機(jī)票的時(shí)間以及買同一個(gè)航班等信息,這些可疑的恐怖分子原本應(yīng)該引起警方的高度重視。吸取了這些教訓(xùn),現(xiàn)在國(guó)外的反恐,背后都有大數(shù)據(jù)在進(jìn)行支撐。
再看看大數(shù)據(jù)在其他生活方面的應(yīng)用。
大家每天打出租車,已經(jīng)習(xí)慣了使用滴滴打車等軟件,因?yàn)檫@些軟件采用大數(shù)據(jù)技術(shù),經(jīng)過各種計(jì)算,能將行程狀況、乘客的愛好和拼車習(xí)慣等信息更精準(zhǔn)地進(jìn)行匹配,從而找到最合適的線路。
有人曾經(jīng)根據(jù)百度上搜索詞的信息來(lái)推測(cè)某地發(fā)生了流感。如果在百度上有很多人搜索和流感相關(guān)的詞匯,并且集中出現(xiàn)在某個(gè)區(qū)域的話,就可以基本判斷那個(gè)地區(qū)的流感比較集中,有關(guān)部門就能針對(duì)性地部署對(duì)策。還比如,美國(guó)每周會(huì)對(duì)谷歌的搜索詞進(jìn)行分析,然后發(fā)布一個(gè)失業(yè)報(bào)告,計(jì)算出這一周的失業(yè)率是上升還是下降,因?yàn)槭I(yè)的人會(huì)在網(wǎng)上搜索和別人不一樣的內(nèi)容,像我怎樣申請(qǐng)救濟(jì)、我怎么找工作、我的社保怎么辦之類問題,根據(jù)這些搜索詞來(lái)分析,結(jié)果往往非常精準(zhǔn)。
阿里小貸服務(wù),是大數(shù)據(jù)催生新業(yè)務(wù)的典型。阿里在做淘寶時(shí),發(fā)現(xiàn)沉淀下來(lái)很多電商的數(shù)據(jù),比如這家淘寶店主過去幾年做得好不好,現(xiàn)在是在上升期還是下降期,這些都可以從這家店的所有賬目流水中得知。如果這個(gè)淘寶店主想去銀行貸款,大銀行對(duì)這種小店主基本上是不提供貸款的,或者貸款成本很高。但是通過大數(shù)據(jù),阿里發(fā)現(xiàn)自己對(duì)這個(gè)店主知根知底,知道他所有的流水?dāng)?shù)據(jù),只要用大數(shù)據(jù)建一個(gè)模型,就能立刻算出這個(gè)淘寶店主的信用風(fēng)險(xiǎn)是高還是低。于是,阿里巴巴后來(lái)就催生出了芝麻信用業(yè)務(wù),全程零人工介入,由電腦放貸,這在銀行是不可能操作的。運(yùn)行下來(lái)的數(shù)據(jù)顯示,阿里小貸服務(wù)的壞賬率低于1%,遠(yuǎn)遠(yuǎn)低于銀行的壞賬率。
再進(jìn)一步,從企業(yè)信用發(fā)展到個(gè)人信用。根據(jù)消費(fèi)者在淘寶上花錢的情況,甚至包括其朋友圈里其他朋友的花錢情況,從理論上說,信用好的人,他的朋友信用也不錯(cuò),利用這些信息就可以打出每個(gè)人的個(gè)人征信分?jǐn)?shù)。芝麻信用好的人,出差住旅館不需要押金,離店不需要查房,去很多國(guó)家能免簽證,這樣,信用的概念也就慢慢進(jìn)入了我們的生活。
“算”出來(lái)的人工智能
最近有一個(gè)刷屏的新聞,沙特授予了機(jī)器人索菲亞公民身份。在新聞發(fā)布會(huì)上,有人問了機(jī)器人一個(gè)問題:你怎么看待人?機(jī)器人反問道:你們?nèi)嗽趺凑J(rèn)為自己不是機(jī)器人呢?這說明人工智能已經(jīng)離我們?cè)絹?lái)越接近了。
什么是人工智能?其實(shí)很簡(jiǎn)單,人工智能就是通過大數(shù)據(jù)和大計(jì)算解決一些本來(lái)是人做的而機(jī)器不會(huì)做的事情。
歷史上留下很多數(shù)據(jù),包括各種文檔、書、視頻、文獻(xiàn),還有采集來(lái)的數(shù)據(jù),機(jī)器具備了一定的學(xué)習(xí)能力以后,經(jīng)過一定的算法,就可以形成各種各樣的智能應(yīng)用。大家耳熟能詳?shù)陌柗ü罚ˋlphaGo),就是利用數(shù)據(jù)開發(fā)的智能應(yīng)用,所以下圍棋下得很厲害。
如今,人工智能的應(yīng)用非常廣泛。
比如,智能交通。大家外出時(shí)經(jīng)常使用高德、百度地圖,它會(huì)告訴你哪條路是堵的,哪條路是暢通的。
現(xiàn)在杭州正在試點(diǎn)“城市大腦”,就是在交通信號(hào)燈上安裝了很多聯(lián)網(wǎng)的裝置,把數(shù)據(jù)采集回來(lái),這樣就可以利用這些大數(shù)據(jù),開發(fā)“互聯(lián)網(wǎng)信號(hào)燈”,從而更好地控制信號(hào)燈以及信號(hào)燈的用時(shí)長(zhǎng)短,有效地降低交通擁堵。試點(diǎn)下來(lái),城市的擁堵指數(shù)可以降低到10%。
大家一定聽說過智慧城市,其實(shí)所謂的智慧城市,就是運(yùn)用信息和通信技術(shù)手段感測(cè)、分析、整合城市運(yùn)行核心系統(tǒng)的各項(xiàng)關(guān)鍵信息,從而對(duì)包括民生、環(huán)保、公共安全、城市服務(wù)、工商業(yè)活動(dòng)在內(nèi)的各種需求做出智能響應(yīng)。通過在城市里大量安裝傳感器,可以搜集到很多人活動(dòng)的軌跡信息,比如什么時(shí)候坐地鐵的人最多,某條交通干道一天24小時(shí)的人流軌跡等等,把這些信息采集起來(lái),進(jìn)行大數(shù)據(jù)分析,可以實(shí)現(xiàn)城市智慧式管理和運(yùn)行,提高政務(wù)效率,進(jìn)而促進(jìn)城市的和諧、可持續(xù)成長(zhǎng)。
人工智能也在進(jìn)行金融方面的探索。比如原先要研究一家企業(yè),必須讀這家企業(yè)過去的財(cái)報(bào),每一年都有五六百頁(yè)的財(cái)報(bào),工作量很大?,F(xiàn)在的做法是,讓計(jì)算機(jī)把財(cái)報(bào)中的內(nèi)容進(jìn)行提煉,用各種圖表的形式展示出來(lái),包括這家公司和其他公司的比較,公司自己過去幾年的業(yè)績(jī)比較,再?gòu)暮?jiǎn)單的數(shù)字型分析進(jìn)入到非結(jié)構(gòu)化的深入分析。
在醫(yī)療保健領(lǐng)域,人工智能深度學(xué)習(xí)的能力,最近幾年從圖像識(shí)別和語(yǔ)音識(shí)別開始形成了突破。如今國(guó)外有一些成熟的圖像識(shí)別數(shù)據(jù)集,已經(jīng)具有非常準(zhǔn)確的識(shí)別率。在疾病診斷方面,可以拿著X光片、CT片來(lái)診斷癌癥,這在近期很有可能形成新的突破。
在電商零售業(yè),現(xiàn)在很多電商企業(yè)像亞馬遜等,每天在倉(cāng)庫(kù)里跑來(lái)跑去的都是機(jī)器人,公司日常的管理、運(yùn)輸、退貨,機(jī)器就可以解決了。甚至客戶服務(wù)也是由聊天機(jī)器人擔(dān)任,等回答不了消費(fèi)者的問題時(shí),才會(huì)自動(dòng)轉(zhuǎn)接人工服務(wù)。
教育領(lǐng)域的人工智能發(fā)展同樣非常迅速。現(xiàn)在的英語(yǔ)語(yǔ)法人工評(píng)測(cè)、普通話考試等,都可以由人工智能完成。比如一位老師要參加普通話考試,她的面前就是一臺(tái)能夠進(jìn)行語(yǔ)音識(shí)別的機(jī)器,能對(duì)她所說的普通話逐一進(jìn)行打分。學(xué)生學(xué)習(xí)英語(yǔ),也可以用人工智能來(lái)評(píng)價(jià)其語(yǔ)法是否規(guī)范,還可以判斷一個(gè)人的發(fā)音更像是中國(guó)式英語(yǔ)、美國(guó)式英語(yǔ),還是更像英國(guó)式英語(yǔ),這個(gè)人工智能可以判斷??梢哉f在教育領(lǐng)域,人工智能在很多方面取得了成功。
目前,對(duì)于一個(gè)人的自然語(yǔ)言的評(píng)判,人工智能還不是很成熟。就現(xiàn)在來(lái)說,人工智能能夠做到理解你說的話,但如果要和你真正地對(duì)話,可能還需要10年以上的時(shí)間。
強(qiáng)人工智能約2045年登場(chǎng)
人工智能的發(fā)展歷程曾經(jīng)起起落落,其中有過兩次大的低谷。
因?yàn)橐寵C(jī)器模擬人的智能,科學(xué)家們先后從兩個(gè)方向入手研究。一部分科學(xué)家研究人腦是怎么工作的,也就是從神經(jīng)科學(xué)入手研究;另一部分科學(xué)家則從數(shù)學(xué)的角度入手,從統(tǒng)計(jì)模型來(lái)進(jìn)行各種預(yù)測(cè)、歸類。兩次低谷都是由于技術(shù)發(fā)展遇到了一定的瓶頸、計(jì)算能力跟不上而引起的。
最近幾年人工智能又一次在世界范圍內(nèi)大熱,這次人工智能標(biāo)志性的技術(shù)是深度學(xué)習(xí)的發(fā)展,包括阿爾法狗的勝利、各種無(wú)人駕駛汽車、各種圖像識(shí)別和語(yǔ)音識(shí)別的發(fā)展,都是和深度學(xué)習(xí)能力相關(guān)的。
但是,無(wú)論如何,我認(rèn)為我們現(xiàn)在還是處在弱人工智能的階段。什么是弱人工智能的階段呢?比如說,阿爾法狗下棋可以下贏世界冠軍,但是如果讓它看圖識(shí)別,它還不如一個(gè)3歲的小孩。你給3歲的小孩看一張熊貓的圖片,告訴他這是熊貓,然后你帶他去動(dòng)物園看熊貓,他一眼就知道這是熊貓了。但如果是機(jī)器人的話,你得給他看成千上萬(wàn)張熊貓的照片,它才能知道這是熊貓。
所謂的強(qiáng)人工智能,就是擁有自我進(jìn)化能力的機(jī)器人。比如,谷歌讓人工智能來(lái)進(jìn)行人工智能程序的開發(fā),寫出一些很簡(jiǎn)單的程序,以此來(lái)了解人工智能以后會(huì)往哪里發(fā)展,這種做法是可以產(chǎn)生進(jìn)化能力的。
我認(rèn)為,從強(qiáng)人工智能到超人工智能的進(jìn)展速度會(huì)越來(lái)越快,一旦人工智能的腦力發(fā)展到一定程度之后,可能會(huì)以小時(shí)、以分鐘為單位,迅速進(jìn)化成為像神一樣的超級(jí)人物。強(qiáng)人工智能發(fā)生的時(shí)間點(diǎn),我認(rèn)為可能會(huì)在2045年左右,就像特斯拉的創(chuàng)始人馬斯科所言,強(qiáng)人工智能發(fā)展到一定的階段會(huì)產(chǎn)生極點(diǎn),會(huì)發(fā)生人類不可控的事情,所以必須提前做出規(guī)劃和限制。
有人會(huì)問,為什么是2045年?因?yàn)槿四X的計(jì)算能力和超級(jí)計(jì)算機(jī)天河二號(hào)差不多,持續(xù)計(jì)算速度達(dá)到每秒3.39億億次。根據(jù)現(xiàn)在的發(fā)展速度,到2025年,天河二號(hào)可以裝到你面前的筆記本電腦里。再聯(lián)系我一開始說的話,每一個(gè)創(chuàng)業(yè)公司都可以花很低的錢進(jìn)行大體量的云計(jì)算,所以再過20年,到2045年,人類的進(jìn)步將是天翻地覆的,20年之后人工智能會(huì)發(fā)生什么樣的變化真的很難說。
最后我總結(jié)一下,用大數(shù)據(jù)可以驅(qū)動(dòng)整個(gè)人工智能的進(jìn)化,不是機(jī)器的進(jìn)化,而是說我們的生活、我們的工作,用數(shù)據(jù)驅(qū)動(dòng),用智能演進(jìn)。