談及計算機(jī)視覺領(lǐng)域的青年領(lǐng)袖,應(yīng)該沒有人比李飛飛更有代表性。作為斯坦福大學(xué)計算機(jī)系終身教授、GoogleCloud首席科學(xué)家,李飛飛已然引領(lǐng)著學(xué)術(shù)界和產(chǎn)業(yè)界密切結(jié)合的探索新方向;而其作為一位女性的角色,又讓她在人工智能多樣性的探索中有著自己嶄新且不同的視角。
在1月15日,未來論壇2017年會暨首屆未來科學(xué)大獎頒獎典禮上,李飛飛作為人工智能領(lǐng)域的代表,發(fā)表了題為《視覺智能探索(TheQuestforVisualIntelligent)》的主題演講。演講中,李飛飛從生物領(lǐng)域視覺的出現(xiàn)開始娓娓道來,進(jìn)而闡述了計算機(jī)視覺探索過程中的四大視角:從孩子成長、大腦發(fā)展、技術(shù)從業(yè)者、教育者和母親的角度,如何看待計算機(jī)視覺和人工智能。
演講的最后一個部分,李飛飛提出了這樣的問題:人工智能AI會改變世界,但這里真正的問題是,誰會改變AI?由此,她鼓勵人工智能多樣化的發(fā)展,讓更多人更多元的文化參與到相關(guān)研究和產(chǎn)業(yè)中來,這樣我們會看到技術(shù)發(fā)現(xiàn)上的大爆炸,使我們的世界變得更好。
以下內(nèi)容基于李飛飛演講(原演講為英文),在不改變原意的情況下部分有刪改:
今天我想跟大家分享一下計算機(jī)視覺方面最新的進(jìn)展。
大概5億年前,一些非常簡單的生物生活在海洋中,捕獲獵物、或者成為別人的食物。動物世界在當(dāng)時非常簡單,只有一些簡單的物種存在,后來可能是出于偶然或者“上帝之手”,某種生物衍化出了第一雙真正意義上的“眼睛”,這時的眼睛還很簡單,就像我們最初最簡單的照相機(jī)一樣。
視覺的出現(xiàn)讓生物世界大不一樣:生物物種變得更加有活力和積極,捕獵者可以自發(fā)進(jìn)攻,被捕獵的生物也會尋找更隱蔽的地方躲藏起來,避免自己成為它人的食物。
在很短的時間內(nèi),生物物種數(shù)量以驚人的速度增加,這也是視覺發(fā)展的一個結(jié)果——寒武紀(jì)大爆發(fā)。寒武紀(jì)大爆發(fā)之后,視覺就在動物中發(fā)揮著非常重要的作用,幫助它們尋找食物、幫助它們躲避敵人等。作為人,我們也是一樣的,我們也用視覺支持我們的生活、我們的工作、我們的交流,讓我們更好地了解世界。
人類社會還處于“失明”狀態(tài)
事實上,在5億年的進(jìn)化之后,視覺已經(jīng)成了我們?nèi)俗钪匾母兄到y(tǒng),我們的大腦中有一半的功能都是和視覺系統(tǒng)聯(lián)系在一起的,動物們大概在5.3億年前就看到了世界的光明,而對于我們的機(jī)器和計算機(jī)來說,整個世界還是黑暗一片。
盡管,目前到處都是監(jiān)控器,但是當(dāng)一個孩子在泳池溺水時,機(jī)器并不能提醒人類;目前每一分鐘我們都有成百上千萬小時的視頻上傳到Y(jié)ouTube或者Facebook的服務(wù)器上,但是我們?nèi)匀粺o法根據(jù)內(nèi)容進(jìn)行視頻搜索;現(xiàn)在無人機(jī)可以在非常廣的范圍航行,但我們還無法根據(jù)無人機(jī)拍攝的圖景標(biāo)記出地球環(huán)境??偠灾?,人類社會還處于“失明”狀態(tài),因為即便是最智能的機(jī)器,目前還沒有視覺能力。
一個小目標(biāo):讓計算機(jī)視覺為數(shù)字世界帶來光明
作為計算機(jī)視覺的科學(xué)家,我們希望使用能夠?qū)W習(xí)視覺世界的人工智能算法來識別圖像和視頻,我們有這樣一個小目標(biāo),讓計算機(jī)視覺為數(shù)字世界帶來光明。
為了實現(xiàn)這樣一個目標(biāo),首先我們要教計算機(jī)識別物品,也即世界最基本的組成部分。簡單來說,給計算機(jī)看某個物品的訓(xùn)練圖片:比如說我們可以把一只貓放到電腦中去,讓它識別,然后我們會建立一些數(shù)學(xué)模型,人可以為貓寫出一組公式來,讓電腦識別它,這就是我們最初做的嘗試。
我們想要把一個物品的不同部分分離出來,然后用非常簡單的幾何模型,數(shù)字模型,模擬模型來做“catmodel”,很直接的把它變成一些圓形、三角形等,讓電腦更好識別出放在它面前的是什么樣的東西。
但是不同的貓在不同的圖片中都有所不同,所以是否每次都要重新設(shè)計一個模型,讓電腦能夠識別出不同姿勢的貓?為了讓不同的貓都能被計算機(jī)識別出來,我們需要設(shè)計無數(shù)的模型。所以很多年來我們都想找到一個非常神奇的數(shù)字模型,它能夠滿足不同的貓的變形體。
孩子學(xué)習(xí)的啟發(fā):從大量數(shù)據(jù)中學(xué)習(xí)
八年前,一個很簡單但重要的事情然我的思維得到了非常大的改變,那就是從孩子學(xué)習(xí)的過程中得到了靈感,因為我們并沒有告訴一個孩子你要怎樣認(rèn)出一只貓,我們沒告訴他貓是這個樣子,哪里是三角形、圓形,他們只是靠經(jīng)驗學(xué)習(xí)。如果我們把孩子的眼睛看作一對最簡單的生物照相機(jī),他們每秒鐘可以拍照5次,到3歲的時候,孩子們已經(jīng)看過了成百上千萬張世界各樣的照片。所以,在我們找到更好的算法之前,我們需要給計算機(jī)進(jìn)行像孩子們大腦發(fā)育時期一樣的訓(xùn)練,也即是給計算機(jī)比目前領(lǐng)域內(nèi)所使用得多得多的訓(xùn)練數(shù)據(jù)集。
我們花了很多時間來做這項研究。我和普林斯頓的同事一起在網(wǎng)絡(luò)上找到了很多圖片、很多數(shù)據(jù),我們用了成百上千的圖片構(gòu)建這套系統(tǒng)。在三年的辛勤研究后,2009年我們終于做出了這樣一個體系,其中包括1500萬張圖片和22000個不同的單詞門類,都是我們?nèi)粘R姷降?,從?shù)量和質(zhì)量來說,這個系統(tǒng)在計算機(jī)視覺和機(jī)器學(xué)習(xí)方面都是前所未有的,我們也因此在解決計算機(jī)物體識別這個問題上,比以往任何時候都準(zhǔn)備充分。
從孩子的角度,我們獲取了寶貴的第一課,從大量數(shù)據(jù)中學(xué)習(xí)。
來自大腦的靈感:卷積神經(jīng)網(wǎng)絡(luò)
這一圖片庫提供的豐富資料也完美適配卷積神經(jīng)網(wǎng)絡(luò),這是最初由70、80年代代科學(xué)家們開拓的一個領(lǐng)域,其靈感來自大腦。
就像我們的大腦一樣,卷積神經(jīng)網(wǎng)絡(luò)有成百上千個“類神經(jīng)元”單位互相連接在一起。
這是一個非常經(jīng)典的放在電腦上的神經(jīng)系統(tǒng),它大概有2400萬個節(jié)點,1.4億個參數(shù)和150億個接口。
擁有這么龐大的信息的圖片庫,卷積神經(jīng)網(wǎng)絡(luò)算法以難以預(yù)料到的速度迅速發(fā)展了起來,也在物品識別上給我們帶來了一些非常振奮人心的結(jié)果。
電腦告訴我們這張照片里有一只貓,這個貓在那里;這邊是計算機(jī)告訴我們,小孩拿著他的泰迪熊。我們看到的物體都比較小,但電腦還是能夠識別出來。
截止到目前,我們都一直專注于教電腦怎樣識別物體,就像小孩學(xué)最簡單的單詞一樣,這只是第一步,小孩很快會進(jìn)入下一階段的發(fā)展,那就是用句子交流。
所以要教電腦看懂圖片,并且用一句話來描述它,我們其實需要用到神經(jīng)系統(tǒng),并且把神經(jīng)系統(tǒng)推向一個高度,我們需要把視覺信息和文本信息結(jié)合起來,并且讓它生成出一句具有意義的句子。
又經(jīng)過一個階段的努力研究,大概是一年半以前,我們成為了第一批通過深度學(xué)習(xí)讓電腦在看到圖片后告訴我們一些信息的實驗室。
之后我們把圖片獲取的能力和視覺識別結(jié)合起來,我們發(fā)現(xiàn)針對一張圖片,計算機(jī)其實可以生成很多句不同的話,能夠提供給我們更多信息。這是我們最近的一項工作,大概是一年半之前出版發(fā)表的,電腦能夠在一幅畫中整理出非常多的句子。
我們也在近期提交了另外一篇論文,這篇論文中提到,計算機(jī)能夠用算法生成出完整的自然段。
得到大腦的啟發(fā)之后,我們發(fā)現(xiàn)深度學(xué)習(xí)的算法和公式能夠幫助我們做一些視覺方面的檢測,這是從人腦這個視角得到的啟發(fā)。
從技術(shù)從業(yè)者的視角:讓真實世界從中獲益
在神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù)得到如此大的發(fā)展之后,我們也開始把焦點轉(zhuǎn)向其它一些視覺領(lǐng)域,比如視頻,我們在圖片識別中學(xué)習(xí)到的東西能否復(fù)制到視頻中去,能否讓真實世界從中獲益。
我的實驗室和谷歌的團(tuán)隊合作,把1百萬YouTube上500種運動相關(guān)的視頻都抓取出來,它們分別屬于不同的運動類別,我們希望有一天這樣的技術(shù)能夠幫助我們?nèi)ス芾?、索引和搜索大量的視頻和圖片,能夠在一個大數(shù)據(jù)的庫存中進(jìn)行圖片和視頻的搜索。
最近我們和Facebook進(jìn)行了合作,進(jìn)一步擴(kuò)展了我們工作的范圍,不僅僅能夠讓機(jī)器識別出視頻中運動的類型,而且可以看看單個隊員做了哪些事情。在NBA的籃球視頻中,機(jī)器可以追蹤每個隊員在重要事件中(的表現(xiàn)),譬如三分球,罰球,可以看到隊員在其中的表現(xiàn)。
我們拿了一些醫(yī)院的安檢視頻,通過深度傳感器的視頻來進(jìn)行分析應(yīng)用,通過這樣可以識別出人類的肢體活動,看看他們在環(huán)境下的行為是安全的還是危險的。
另外一項工作中,我們和歐洲一個火車站進(jìn)行了合作,將成百上千個傳感器安裝在公共空間,利用這些計算機(jī)的傳感器來追蹤每個乘客的行動,有非常多的乘客每天、每周、每年在火車站穿梭,通過這樣一種監(jiān)測可以幫助優(yōu)化火車站的空間,調(diào)整火車發(fā)車時段。
最近我們利用了深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)讓機(jī)器學(xué)習(xí)如何預(yù)測人類行為的軌跡,這項工作的有趣之處在于能夠把我們前邊所討論的問題結(jié)合在一起,這樣,算法不僅有IQ——可以識別出人,而且它也有EQ,有情商——可以預(yù)測人的社會行為,譬如說機(jī)器人的行為:機(jī)器人不應(yīng)該干擾人的行為,或者是機(jī)器人在空間行走時不能打破東西。
我們利用所有這些技術(shù)和現(xiàn)實中的情況進(jìn)行合作,現(xiàn)在我們和斯坦福醫(yī)院合作,部署相關(guān)技術(shù),可以提高他們工作流程的績效、洗手的習(xí)慣,在老人的家庭中也可以對他們進(jìn)行類似的監(jiān)測。
從技術(shù)從業(yè)者的視角看到計算機(jī)視覺算法的發(fā)展,真的讓我感到特別興奮,它能夠幫助我們解決現(xiàn)實世界的問題。
這是一個技術(shù)從業(yè)者的視角。
從教育者和母親的視角:AI需要多樣化
5億年前,動物和視覺面臨的挑戰(zhàn)是存活下來,而現(xiàn)在機(jī)器視覺和AI所面臨的挑戰(zhàn)就是讓人類能夠繁榮,永遠(yuǎn)持續(xù)下去。作為技術(shù)從業(yè)者我們要問,AI是否會成為一種摧毀力?還是能給我們帶來更好的世界?
我一直在思考這個問題,已經(jīng)思考很久了,最近我突然頓悟,AI的世界是位于那些創(chuàng)造、開發(fā)和使用AI的人的手中。
人工智能AI會改變世界,但這里真正的問題是,誰會改變AI。
大家都知道,世界各地都是缺乏多樣性的,包括美國的硅谷,中國、歐洲,還有很多其它區(qū)域都缺乏多樣性,在美國學(xué)術(shù)界只有25%的計算機(jī)專業(yè)人士是女性,不到15%的美國領(lǐng)先工程學(xué)校的教職員工是女性,對于少數(shù)族裔來說,女性的代表就更少了,產(chǎn)業(yè)界也面臨著同樣的情況。這里不僅涉及到工作場所文化的問題,實際上這個問題也是經(jīng)濟(jì)和公共財產(chǎn)的問題。
幾個月前我受邀美國白宮討論了在AI中多樣性的必要性,我指出有三個理由使我們必須要提高AI的多樣性。
第一個就是涉及到經(jīng)濟(jì)和勞動力的原因:AI人工智能是一個日益增長的技術(shù),會影響到每個人,我們需要更多人能開發(fā)出更好的技術(shù);
第二個原因是涉及到創(chuàng)造力和創(chuàng)新:很多研究都顯示出,當(dāng)擁有多種多樣背景的人共同合作時,會產(chǎn)生更好的結(jié)果,會找到更具有創(chuàng)意的解決方案;
最后也是涉及到社會正義和道德價值的:當(dāng)各種各樣背景的人聚集到一起時,他們有著各種各樣不同的價值觀,代表著人類的技術(shù)也會有更加多樣性的思考。
視覺和智能的發(fā)展造成了動物品種多樣性在5億年前大爆炸式的增長,現(xiàn)在如果我們能夠讓更多的人參與到AI教育和研究當(dāng)中,我們可以鼓勵更多技術(shù)多樣化的發(fā)展,這樣我們會看到技術(shù)發(fā)現(xiàn)上的寒武紀(jì)大爆炸,會使我們的世界變得更好。
更多資訊請關(guān)注工業(yè)機(jī)器人頻道