時間:2018-01-25 10:27:03來源:網(wǎng)絡(luò)轉(zhuǎn)載
在上一篇文章中,我們向你介紹了機器視覺相關(guān)領(lǐng)域并且討論了一個非常有效的算法——像素智能分類決策樹,這個算法已經(jīng)在醫(yī)療圖像處理和Kinect中廣泛使用。在這篇文章中,我們將會看到最近很熱門深度神經(jīng)網(wǎng)絡(luò)(深度學(xué)習(xí))及其在機器視覺中成功的應(yīng)用,然后我們將會看一下未來機器視覺和機器學(xué)習(xí)的發(fā)展。
深度神經(jīng)網(wǎng)絡(luò)
最近幾年我們用于機器視覺研究的訓(xùn)練數(shù)據(jù)集在質(zhì)量和數(shù)量上都有了很大的提升。這些提升在很大程度上依賴于眾籌的發(fā)展,增大被標(biāo)記的圖片樣本數(shù)量到幾百萬張。一個好的數(shù)據(jù)集集——ImageNet——包括幾萬種類別的幾百萬張被標(biāo)記過的圖片。
在ImageNet數(shù)據(jù)集社區(qū)經(jīng)過幾年的慢速發(fā)展后,在2012年,Krizhevsky等人引爆了這個領(lǐng)域。他們展示了通用GPU計算結(jié)合對算法的微小改變就能夠訓(xùn)練比以前更多層次的卷積神經(jīng)網(wǎng)絡(luò)。他們對ImageNet的1000個類別進(jìn)行精確測試,其結(jié)果是一個里程碑式的跨越。這引起了很多大眾媒體的關(guān)注,甚至帶來了大量創(chuàng)業(yè)公司的并購。之后,深度學(xué)習(xí)在機器視覺領(lǐng)域開始變成一個熱門課題,最近的很多論文擴大了目標(biāo)定位、人臉識別和人類的姿態(tài)估計的研究方法。
未來展望
毫無疑問深度卷積神經(jīng)網(wǎng)路是強而有力的,然而它能夠完全解決機器的視覺問題嗎?我們可以確定的是深度學(xué)習(xí)會在未來幾年繼續(xù)流行,并且將會在未來幾年推動相關(guān)的技術(shù)的發(fā)展,但是我們相信這還需要一些路要走。雖然我們僅僅能夠推測未來會發(fā)生什么改變,但是可以確定的是我們已經(jīng)能看到的一些趨勢。
表示方法:目前這些神經(jīng)網(wǎng)絡(luò)只能夠識別一些相對簡單的圖像內(nèi)容,還不能更深層次的理解圖片中各個目標(biāo)對象之間的關(guān)系以及特定個體在我們生活中所扮演的角色(比如,我們不能根據(jù)圖片中的人的頭發(fā)都是很有光澤并且都拿著吹風(fēng)機就簡單的認(rèn)為這些人的頭發(fā)是濕的)。新的數(shù)據(jù)集比如微軟的“CoCo“,可以通過提供“非典型”圖片的單個目標(biāo)對象的更多細(xì)節(jié)標(biāo)簽來進(jìn)一步改善這種狀況,比如,這些圖片包含多個并不是居于最突出位置的目標(biāo)對象。
效率:盡管深度神經(jīng)網(wǎng)絡(luò)在圖像處理方面能夠通過并行的方式來達(dá)到相對較快的執(zhí)行速度,但是,神經(jīng)網(wǎng)絡(luò)并不像我們上一篇文章所提到的問題那樣:這里的每一個測試樣例都要遍歷神經(jīng)網(wǎng)絡(luò)的每一個節(jié)點才會輸出。此外,即使用到最快的GPU集群進(jìn)行加速,訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)也需要幾天或這幾周的時間,這限制了我們的實驗速度。
結(jié)構(gòu)學(xué)習(xí):目前,深度卷積神經(jīng)網(wǎng)絡(luò)是一個已經(jīng)經(jīng)過多年的研究的一個精心設(shè)計的穩(wěn)定結(jié)構(gòu)。如果說要改變它的話,我們能改變的只是每一層的大小和層的數(shù)量(也就是神經(jīng)網(wǎng)絡(luò)的深度),這些的確對整個神經(jīng)網(wǎng)絡(luò)的預(yù)測準(zhǔn)確性有很大的影響。目前,除了簡單對神經(jīng)網(wǎng)絡(luò)的參數(shù)改變來優(yōu)化神經(jīng)網(wǎng)絡(luò),我們希望能夠從數(shù)據(jù)直接學(xué)習(xí)到更靈活的網(wǎng)絡(luò)結(jié)構(gòu)。
最近,我們已經(jīng)開始著手解決上面的問題,尤其是后面兩個。令我們特別高興的是我們最近關(guān)于決策叢林算法的工作:決策有向無環(huán)圖(DAG)的集合。你可以認(rèn)為一個決策有向無環(huán)圖是一個決策樹,不同的是每一個決策有向無環(huán)圖的子節(jié)點允許有多個父節(jié)點。相較于決策樹,我們已經(jīng)證明,這樣可以減少一個數(shù)量級的內(nèi)存消耗,同時也改進(jìn)了算法的泛化能力。雖然有向無環(huán)圖(DAG)和神經(jīng)網(wǎng)絡(luò)非常相像,但是確實包括兩個非常大的不同點,首先,DAG的結(jié)構(gòu)可以和模型的參數(shù)同時被訓(xùn)練;第二,DAG保留了決策樹高效的運算性能:每一個測試樣本僅僅從DAG中選擇一個路徑而不是像神經(jīng)網(wǎng)絡(luò)一樣遍歷所有節(jié)點。我們正在積極的研究是否決策叢林同其他形式的深度學(xué)習(xí)相結(jié)合能夠產(chǎn)生出更加高效的深度神經(jīng)網(wǎng)絡(luò)。
如果你有興趣嘗試用決策叢林來解決你的問題,你可以通過AzureML的Gemini模型進(jìn)一步研究。
總而言之,機器視覺擁有光明的前景很大程度上歸功于機器學(xué)習(xí)的發(fā)展。機器視覺最近的快速發(fā)展已經(jīng)非常令人驚奇,但是我們相信機器視覺的未來依然是一本令人激動的打開了的書。
標(biāo)簽:
中國傳動網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(m.u63ivq3.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
產(chǎn)品新聞
更多>以簡驅(qū)繁,精準(zhǔn)智控 | 維智S1系列新一代...
2024-11-01
2024-10-31
2024-10-31
2024-10-31
2024-10-31
2024-10-29
推薦專題
更多>