現(xiàn)如今,隨著信息技術(shù)的不斷發(fā)展和AI數(shù)據(jù)分析能力的飛速提升,大數(shù)據(jù)在今后可以創(chuàng)造出什么樣的奇跡呢?
1844年,莫爾斯發(fā)出人類歷史上的第一份電報:“上帝創(chuàng)造了何等的奇跡!”電報的發(fā)明,揭開了電信史上的第一頁?,F(xiàn)如今,隨著信息技術(shù)的不斷發(fā)展和AI數(shù)據(jù)分析能力的飛速提升,大數(shù)據(jù)在今后可以創(chuàng)造出什么樣的奇跡呢?在2017中國大數(shù)據(jù)技術(shù)大會(BDTC2017)的媒體群訪中,澳洲昆士蘭大學(xué)教授周曉方、微軟亞洲研究院副院長首席研究員劉鐵巖、華東師范大學(xué)教授錢衛(wèi)寧、滴滴出行高級副總裁章文嵩與大家共同探討了大數(shù)據(jù)的未來應(yīng)用問題。
大數(shù)據(jù),不是為了數(shù)據(jù)而數(shù)據(jù)
如今企業(yè)實施的大數(shù)據(jù)系統(tǒng),大多展現(xiàn)的是一個非常炫酷的面板和一些看上去很吸引眼球的數(shù)據(jù)分析,但數(shù)據(jù)的實際應(yīng)用價值并沒有什么確切的體現(xiàn)。就這個問題,四位專家分別表達了自身對目前大數(shù)據(jù)的觀點:
章文嵩總裁首先闡述了自己的觀點:“不是為了數(shù)據(jù)而數(shù)據(jù),首先要了解需要用大數(shù)據(jù)解決的問題是什么?怎么來定義這些問題?如果把問題梳理清楚然后基于這些問題,看看在數(shù)據(jù)上能不能做很多的啟示,真正要解決問題出發(fā)而不是為了數(shù)據(jù)而數(shù)據(jù)。”
隨后周曉方教授對這個問題進行了深入分析:第一個方面是剛才說的,我們有一個問題,然后看需要什么樣的數(shù)據(jù),用這些數(shù)據(jù)如何來解決我們的問題。第二個方面,我們現(xiàn)在有了數(shù)據(jù)以后,怎么樣去解放思想,創(chuàng)造新的應(yīng)用價值。企業(yè)界和科研界可以合作解決這個問題。大數(shù)據(jù)的話,前面剛才大會的主席發(fā)言也都說了,是我們時代的特征。大數(shù)據(jù)已經(jīng)是事實的存在,而且數(shù)據(jù)應(yīng)用的技術(shù)在那里,各種應(yīng)用場景現(xiàn)在也都落地了。因此,CRO們不能為了大數(shù)據(jù)而大數(shù)據(jù),而是你到底應(yīng)該做什么事情,你有什么樣的數(shù)據(jù),需要什么數(shù)據(jù),用這些數(shù)據(jù)怎么樣把我們已有的工作做的更好,用這些數(shù)據(jù)怎么樣能夠把我們一些新的應(yīng)用推動起來。
劉鐵巖院長:數(shù)據(jù)是我們擁有的一部分,我們拿到數(shù)據(jù)是一個基礎(chǔ),我們一定要從過程中找到價值,過程是我們做機器學(xué)習的這個過程,我們再講大數(shù)據(jù)一定要把數(shù)據(jù)和智能結(jié)合起來,要有全盤的規(guī)劃。在這個角度來講我們要拿什么數(shù)據(jù)是為了實現(xiàn)剛才各位說的實現(xiàn)某種目的我們尋找合適的數(shù)據(jù),而不是拿到所有的數(shù)據(jù)覺得反正是個寶貝留下來就好,數(shù)據(jù)大也有很多好的方面,很豐富,也有很多壞的方面,是噪聲,有些可能是錯誤的,如果沒有一個有效的算法和方法,把噪聲去除掉,把信息挖掘出來,其實大數(shù)據(jù)不見得是有價值的。
最后錢衛(wèi)寧教授做了對這個問題進行了總結(jié):我們的一個看法是說,數(shù)據(jù)其實很像我們以前的電,有電之前跟有電之后應(yīng)用是不一樣的,如果我有了電我還是在用蒸汽機會覺得說這個電沒有多大的作用,現(xiàn)在又了數(shù)據(jù)之后,我們可能說一個業(yè)務(wù)的模型或者決策的模型都是要變的,所以就是說可能你剛才講的有了數(shù)據(jù)之后我只是一個展示只是出一個報表這個還是屬于傳統(tǒng)的這個思維模式,但是更多的要講說我們有了這個數(shù)據(jù)之后怎么樣根據(jù)這個數(shù)據(jù)重構(gòu),去重新來設(shè)計我們整個業(yè)務(wù)的流程,這樣可以把數(shù)據(jù)用的更好。
數(shù)據(jù)清洗,如何區(qū)分沙與金
在上個問題中提到數(shù)據(jù)價值,數(shù)據(jù)好的方面,也有很多壞的方面,是干擾,是噪聲怎樣才能通過有效方法,把噪聲去除掉,把信息挖掘出來?下面幾位專家就數(shù)據(jù)清洗的問題又進行了更深入的探討。
周曉方教授:數(shù)據(jù)質(zhì)量管理是大數(shù)據(jù)的一個問題,要從數(shù)據(jù)的完整性方面來看待這個問題。比如網(wǎng)上一部分人的觀點不能代表整個社會,因為數(shù)據(jù)不完整。還有時效性、準確性、一致性等等,這個都是傳統(tǒng)的問題。數(shù)據(jù)清洗這個問題已經(jīng)研究了很多年?,F(xiàn)在我們自己的研究團隊也是一直在推這個數(shù)據(jù)質(zhì)量管理,現(xiàn)在榮耀都被AI拿走了,但是為AI進行支撐的數(shù)據(jù)管理、數(shù)據(jù)分析、各種大數(shù)據(jù)的差異都是在后面默默在做的。如果不把這個底層的數(shù)據(jù)支持做好的話,那么也就是酷炫的都沒有用。
章文嵩總裁:數(shù)據(jù)質(zhì)量非常關(guān)鍵,如果數(shù)據(jù)不準你得出的任何結(jié)論都有問題。這里面我們面臨的一些問題,解決的辦法涉及到數(shù)據(jù)的收集、生產(chǎn)、傳輸整體的這個過程,我們對數(shù)據(jù)肯定是層層要做校驗,哪些校驗有些環(huán)節(jié)數(shù)據(jù)不準了,或者有些環(huán)節(jié)數(shù)據(jù)丟了。就拿滴滴來說最重要的一個漏洞,用戶進來那個冒泡表達了他的這個目的地,冒泡之后我們有很多的動作,然后用戶是個發(fā)單,平臺是否派單,派單后執(zhí)行最后到完單支付。這個漏斗模型其實層層環(huán)節(jié)都要校驗。所以這個數(shù)據(jù),可以幫我們定位哪些買點是對的,哪些環(huán)節(jié)是我們網(wǎng)絡(luò)傳輸軟件處理的BUG導(dǎo)致數(shù)據(jù)丟失了,這是層層校驗,就跟財務(wù)做校驗一樣,每個環(huán)節(jié)都要校驗,確保數(shù)據(jù)準確性和軟件的正確性。
劉鐵巖院長:我接觸過很多傳統(tǒng)企業(yè),在跟我們聊的時候更多不是講大數(shù)據(jù),是講AI。在深入溝通的時候,解決第一問題是大數(shù)據(jù)問題而不是智能問題。他們的愿景是想用智能解決某個應(yīng)用,實際上整個公司里的數(shù)據(jù)根本沒有管理好組織起來,回到大數(shù)據(jù)真的非常重要。先是數(shù)字化,然后是傳統(tǒng)的管理再是數(shù)字清洗。從做機器學(xué)習和AI角度來看,什么是數(shù)據(jù)清洗什么是數(shù)據(jù)管理,我們希望從最原始的數(shù)據(jù)開始出發(fā),然后通過特別復(fù)雜的鏈路,連到最終應(yīng)用上。每個環(huán)節(jié)可能都提供反饋信息。如果我們不做端到端的處理,割裂開有可能會出現(xiàn)什么現(xiàn)象?我們在前期做數(shù)據(jù)處理的時候以為是噪聲的問題,可能是信號,我們以為是信號的東西也許是噪聲。那么怎么在整個數(shù)據(jù)鏈路的智能化的過程中都給大家一個機會,曾經(jīng)當成是噪聲清洗掉的東西是有機會重新挖掘和反復(fù)匹配的,曾經(jīng)被你認為是有用的東西要不斷的甄別里面的寶貝在哪里,問題在哪里,這是一個補充。
數(shù)據(jù)應(yīng)用,資源的分配與民生
在隨后的討論活動中,幾位專家還就智能出行的無人駕駛對人們生活的改變,通過大數(shù)據(jù)如何減少東西部貧富差距等問題進行了深入溝通。將技術(shù)討論提升到了民生問題的高度。
我們相信,隨著大數(shù)據(jù)技術(shù)的深入應(yīng)用,未來緊缺的公共資源應(yīng)該可能得到更加合理的分配。比如春運的火車票可以給有切實回家需求的購票者更多的購買機會,急需就醫(yī)的患者可以更方便進行掛號,公眾的交通也能得到有針對性的調(diào)節(jié)。大數(shù)據(jù)的明天將會令人們的生活更加美好。