機(jī)遇與挑戰(zhàn)并存,計(jì)算機(jī)視覺的黃金時(shí)代來臨

時(shí)間:2016-10-27

來源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語:10月22日,來自國(guó)內(nèi)外人工智能專家及行業(yè)領(lǐng)袖齊聚世界機(jī)器人大會(huì),在其專題論壇2016中國(guó)智能機(jī)器人產(chǎn)業(yè)高峰論壇上展開一場(chǎng)別開生面的機(jī)器人和人工智能主題演講,并帶來精彩互動(dòng)交流。

10月22日,來自國(guó)內(nèi)外人工智能專家及行業(yè)領(lǐng)袖齊聚世界機(jī)器人大會(huì),在其專題論壇2016中國(guó)智能機(jī)器人產(chǎn)業(yè)高峰論壇上展開一場(chǎng)別開生面的機(jī)器人和人工智能主題演講,并帶來精彩互動(dòng)交流。

了解到還有很多粉絲不能到場(chǎng)參會(huì),小編特地整理了參會(huì)嘉賓微軟亞洲研究院視覺計(jì)算組組長(zhǎng)、資深計(jì)算機(jī)視覺專家華剛的報(bào)告速記,讓大家一睹為快。

華剛:大家下午好!今天報(bào)告題目是計(jì)算視覺的黃金時(shí)代,機(jī)遇與挑戰(zhàn)。如果我們看到這個(gè)題目,關(guān)鍵字有幾個(gè),第一個(gè)是計(jì)算機(jī)視覺,第二個(gè)黃金時(shí)代,第三個(gè)第四個(gè)機(jī)遇挑戰(zhàn)。

基于這四個(gè)關(guān)鍵字給大家講講我的理解和看法。什么是計(jì)算機(jī)視覺?學(xué)術(shù)的觀點(diǎn)定義領(lǐng)域的話,計(jì)算機(jī)視覺我們從圖象和視頻中間提取數(shù)值和符號(hào)計(jì)算機(jī)系統(tǒng)。我們說一個(gè)愿景能讓計(jì)算機(jī)像人類一樣看到并理解圖象,我們認(rèn)為是一個(gè)黃金時(shí)代回顧一下計(jì)算機(jī)視覺真正發(fā)展的歷史。基本上來講計(jì)算機(jī)視覺歷史第一個(gè)萌芽階段,1955年到1979年的時(shí)間,這個(gè)領(lǐng)域還是相對(duì)比較新的領(lǐng)域。在55年我們對(duì)于計(jì)算機(jī)視覺提出一個(gè)展望,在MIT一個(gè)暑期人工智能會(huì)議上。我們?cè)谌膫€(gè)月內(nèi)能不能把計(jì)算機(jī)視覺工作解決了,直到今天還沒有完全解決。中間經(jīng)歷了很多發(fā)展,在70年代麻省理工真正成立研究小組,開設(shè)第一門計(jì)算機(jī)視覺課程。

從今天來講,我們看到會(huì)是非常簡(jiǎn)單一個(gè)圖片,是一些像塊狀的物體,這是MIT第一篇博士論文。稱之為萌芽階段,大家處于一種探索狀態(tài),這個(gè)領(lǐng)域怎么走?早期期望說三個(gè)月把這個(gè)問題解決,甚至40年之后我們?nèi)匀粵]有把這個(gè)問題解決。計(jì)算機(jī)視覺真正發(fā)展一個(gè)非常堅(jiān)持的基礎(chǔ),應(yīng)該是從21世紀(jì)到80年代的時(shí)間,這中間發(fā)生很多時(shí)間,在80年代初光學(xué)支付(音譯)識(shí)別系統(tǒng),應(yīng)用于商業(yè)應(yīng)用郵局。美國(guó)郵局大家利用信件交流方式很多,包括公司各種商業(yè)應(yīng)用,涉及到郵件分檢的問題。

這中間發(fā)生了幾個(gè)里程碑事件,包括三維視覺的理論體系基本完備了。到90年代初人臉和語音識(shí)別,統(tǒng)計(jì)學(xué)識(shí)別方法已經(jīng)引入到計(jì)算機(jī)視覺上了。計(jì)算機(jī)視覺真正爆發(fā)時(shí)間,我認(rèn)為從21世紀(jì)10年代中,涉及到幾個(gè)方面的因素。第一個(gè)我們進(jìn)入互聯(lián)網(wǎng)時(shí)代,對(duì)于圖象數(shù)據(jù)積累,以及我們對(duì)硬件技術(shù)的發(fā)展,我們對(duì)攝像機(jī)前端這種硬件設(shè)備技術(shù)也是在日益增進(jìn),包括微軟代表3D設(shè)想傳感器帶來的新的實(shí)際應(yīng)用。

如果要從這三個(gè)階段中找一個(gè)比較代表性的節(jié)點(diǎn),我認(rèn)為在爆發(fā)階段是深度學(xué)習(xí)模型,它為什么會(huì)對(duì)計(jì)算機(jī)視覺帶來本質(zhì)上的影響和變化。我們更廣泛看計(jì)算機(jī)視覺應(yīng)用的話,在這些年產(chǎn)生非常廣泛的應(yīng)用,包括三維圖象的建模,包括監(jiān)控,以及人機(jī)交互產(chǎn)生非常大的影響。為什么處在計(jì)算機(jī)視覺黃金時(shí)代?我認(rèn)為是一個(gè)更多的工作,CVPR是我們計(jì)算機(jī)視覺的聯(lián)會(huì)。當(dāng)我自己還是一個(gè)博士生的時(shí)候,去參加CVPR,只有兩家公司招聘,一家公司(桑娜福音譯),一個(gè)是西門子。到2016年的時(shí)候,有一個(gè)網(wǎng)站上千條的工作信息,我們真正這個(gè)技術(shù)開始進(jìn)入產(chǎn)業(yè)界。

這個(gè)CVPR有更多人參與到這個(gè)年會(huì),CVPR今年年會(huì)已經(jīng)到3500人參加這個(gè)會(huì)議,5年前就是1000人左右。最重要我們有更多資金注入進(jìn)來,現(xiàn)在博士畢業(yè)生很輕易拿到一個(gè)100萬的年薪工作,今年CVPR將近100家公司占駐這個(gè)CVPR,我們看到越來越多的資金流向這個(gè)領(lǐng)域。我自己作為CVPR主辦成員之一,我們?cè)跁?huì)場(chǎng)設(shè)計(jì)上我們希望會(huì)達(dá)到5000人的規(guī)模。

這里一個(gè)朋友,講的一句話,在他36年的從事計(jì)算機(jī)視覺研究一個(gè)經(jīng)歷中間,從來沒有看到我們這個(gè)領(lǐng)域像現(xiàn)在這么好過,他說我們?cè)谟?jì)算機(jī)視覺第一個(gè)黃金時(shí)代,以前沒有過。他自己現(xiàn)在也在亞馬遜作為一個(gè)保密狀態(tài)工作,在幫亞馬遜做一些事情。黃金時(shí)代我們實(shí)際上有一些什么樣的機(jī)遇?為什么這個(gè)階段產(chǎn)生爆發(fā)性的狀態(tài)。

前面兩位老師提到一些,我們擁有了更多數(shù)據(jù)從各個(gè)方面來的。第二個(gè)方面,剛才山老師提到我們計(jì)算機(jī)視覺很多方法,可能在2、30年前被學(xué)習(xí)過,當(dāng)時(shí)計(jì)算能力還不夠。第三個(gè)就是深度學(xué)習(xí)模型,在微軟研究院同事做的傳感網(wǎng)絡(luò),已經(jīng)做到1001層,在7、8年前不可想象。下面我就展示一下微軟研究院在這個(gè)階段我們一些小小的成果。

我們微軟認(rèn)知服務(wù),我們已經(jīng)在上面發(fā)布了非常多的算法API,包括計(jì)算機(jī)視覺方面、語音方面、自然語言處理方面包括知識(shí)庫方面,還有搜索庫方面。人臉識(shí)別方面API,我們?cè)趦赡暌郧叭四樧R(shí)別API已經(jīng)有非常有成功的。Windowshello。我們最近另外一個(gè)工作,怎么在圖象和風(fēng)格之間做轉(zhuǎn)換,左邊這個(gè)是所謂風(fēng)格的圖,右邊是所謂內(nèi)容圖,我們這個(gè)應(yīng)用算法一個(gè)目的,我怎么能夠把右邊這張圖渲染成左邊圖的風(fēng)格,實(shí)際上我們有一些最新基于深度學(xué)習(xí)一個(gè)方法,我們真正試圖去理解怎么描述這種圖象的風(fēng)格。

這里給看到更多的結(jié)果,當(dāng)固定內(nèi)容圖的時(shí)候,我們可以把它渲染成不同的風(fēng)格,用同一個(gè)網(wǎng)絡(luò)。我們說計(jì)算機(jī)視覺黃金時(shí)代機(jī)遇在什么地方?我參加他80歲生日一個(gè)論壇,非常好的朋友也算他的學(xué)生,馬里蘭一個(gè)大學(xué)教授,他就講一個(gè)觀點(diǎn),因?yàn)槲覀冎v計(jì)算機(jī)視覺帶來的影響?第一個(gè)觀點(diǎn),深度學(xué)習(xí)模型就像一個(gè)和面機(jī)一樣,你把很多東西放進(jìn)去它出來非常好吃的東西。它是一個(gè)非常好的東西,我們要利用好它。它是一個(gè)讓眾生變的平等的東西。我雇了兩個(gè)高中生,編程能力很強(qiáng),在計(jì)算機(jī)視覺方面很低,不管你有一年的經(jīng)驗(yàn),還是多年經(jīng)驗(yàn),讓它飛固然是好的模型。因?yàn)樯婕暗胶芏嘤^點(diǎn),媒體朋友不要隨便轉(zhuǎn)載這些觀點(diǎn),讓大家有一個(gè)體會(huì)。

涉及到黃金時(shí)代機(jī)遇什么?實(shí)際上把這個(gè)技術(shù)門檻降低不少,現(xiàn)在很多人不需要經(jīng)過10年的訓(xùn)練能去做一些計(jì)算機(jī)視覺應(yīng)用,或者是技術(shù)。所以我認(rèn)為這實(shí)際上是產(chǎn)業(yè)界一個(gè)機(jī)遇。產(chǎn)業(yè)界很少有人去愿意走40步的。實(shí)際上從產(chǎn)學(xué)研角度來講,這個(gè)學(xué)界應(yīng)該還是更多去開創(chuàng)一些新的研究領(lǐng)域,能夠做一些更好的事情。

黃金時(shí)代另外一個(gè)機(jī)遇就是創(chuàng)業(yè)、創(chuàng)業(yè),我們很多老師已經(jīng)創(chuàng)業(yè)了,像山老師,像朱瓏一直學(xué)術(shù)方面走的比較多的意圖,當(dāng)我看到山老師公司的時(shí)候,是一個(gè)中英文混合體,山老師到底是看他還是看他,我不太明白。一個(gè)是人臉識(shí)別,一個(gè)是自動(dòng)駕駛,人臉識(shí)別目前離實(shí)際應(yīng)用最近一個(gè),而且各個(gè)方面產(chǎn)生實(shí)際應(yīng)用也是非常好的過程。我們遇到挑戰(zhàn)什么?其實(shí)這么多年計(jì)算機(jī)視覺一直試圖大家問自己一個(gè)問題,什么是計(jì)算機(jī)視覺殺手級(jí)應(yīng)用?它是人臉識(shí)別嗎?還是安防監(jiān)控,還是輔助醫(yī)療圖象診斷,我想大家沒有回答,更多是摸索和探索。至于自動(dòng)駕駛,我們還是保守推動(dòng)這個(gè)行業(yè),不要寒冬。我們還要小心謹(jǐn)慎一樣,不要讓殺手級(jí)應(yīng)用真正變成殺手應(yīng)用。

另一方面,這個(gè)問題不僅在中國(guó)存在,其實(shí)在美國(guó)很多大學(xué)里面教授,做計(jì)算機(jī)視覺方面很多進(jìn)了公司,或者自己出來創(chuàng)業(yè)。大家問一個(gè)問題,這些教授創(chuàng)業(yè)和進(jìn)了產(chǎn)業(yè)界,誰來培養(yǎng)下一代的學(xué)生,這個(gè)問題值得思考。

最后自己關(guān)于計(jì)算機(jī)視覺思考,這三個(gè)方面。第一個(gè)方面,為什么深度學(xué)習(xí)對(duì)計(jì)算機(jī)視覺好用?實(shí)際上大家如果在計(jì)算機(jī)視覺領(lǐng)域,計(jì)算機(jī)視覺本質(zhì)是解不適定的問題。第二個(gè)深度學(xué)習(xí)本質(zhì)上提供了用前饋的模型解反問題的框架。這是一個(gè)非常在高層面上一個(gè)理解的解釋,本質(zhì)上解這種不好的反問題的時(shí)候,我們有了反問題的框架。我自己對(duì)整體上的方法非常欣賞,但是自己還有一些領(lǐng)域的知識(shí)放在里面。

第二個(gè),計(jì)算機(jī)視覺發(fā)展到今天,40年前從人工智能科學(xué)研究共同體分離出來有一個(gè)原因,40年前人工智能,包括語音識(shí)別,包括計(jì)算機(jī)視覺技術(shù)沒有成熟。2010年計(jì)算機(jī)視覺、自然語言處理,語音識(shí)別這些技術(shù)發(fā)展到一定程度,天下大勢(shì),分久必合,合久必分,大家思考一個(gè)問題,最終人工智能方面技術(shù)我們?cè)趺茨軌蚣系揭黄穑瑸榫C合人工智能系統(tǒng)服務(wù)。

最后講,計(jì)算機(jī)視覺產(chǎn)學(xué)研一個(gè)互動(dòng)。這個(gè)問題很簡(jiǎn)單,本質(zhì)上認(rèn)為所謂互動(dòng)三個(gè)要素一個(gè)流通,研究人員、資金和技術(shù),這個(gè)方面做的比較好,大家可以關(guān)注一下微軟亞洲研究院博士生和學(xué)生培養(yǎng)的工作,我們計(jì)算科學(xué)的研究十幾年歷史,跟各個(gè)高校聯(lián)合博士培養(yǎng)一個(gè)項(xiàng)目,這個(gè)學(xué)校的學(xué)生可以在我們研究院做五年的學(xué)習(xí),拿到博士學(xué)位。包括給學(xué)校提供資金上的支持,在座有很多出來創(chuàng)業(yè)或者是產(chǎn)業(yè)界,還是想我們?cè)谌斯ぶ悄墚a(chǎn)業(yè)上我們從中得到一些東西,還想到回饋給這個(gè)領(lǐng)域。謝謝大家!

更多資訊請(qǐng)關(guān)注機(jī)器視覺頻道

中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(m.u63ivq3.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

關(guān)注中國(guó)傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

最新新聞
查看更多資訊

娓娓工業(yè)

廣州金升陽科技有限公司

熱搜詞
  • 運(yùn)動(dòng)控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動(dòng)
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0