在傳統(tǒng)OCR的領(lǐng)域之內(nèi),作為人工智能基礎(chǔ)之一、計(jì)算機(jī)視覺(jué)分支之一的自然環(huán)境OCR的應(yīng)用范圍并沒(méi)有進(jìn)行太多的擴(kuò)充。
從古至今,文字經(jīng)歷了數(shù)代變革,最終發(fā)展成為現(xiàn)在的簡(jiǎn)體字。近來(lái)以來(lái),隨著科技的發(fā)展,人類變得越來(lái)越“懶”,從拋棄紙筆投入電腦的懷抱,再到現(xiàn)在從鍵盤(pán)到語(yǔ)音的轉(zhuǎn)移。雖然不管如何發(fā)展,文字依然是人們不可丟棄的東西,但是出于讓生活更便利的目的,它也在隨著科技而發(fā)生變化,比如擔(dān)當(dāng)著人工智能基礎(chǔ)之一的文字識(shí)別技術(shù)(OCR)。
OCR是指光學(xué)設(shè)備(掃描儀、數(shù)碼相機(jī)等)檢查紙上打印的字符,通過(guò)檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程,其本質(zhì)就是利用光學(xué)設(shè)備去捕獲圖像并識(shí)別文字,將人眼的能力延伸到機(jī)器上。此概念是在1929年由德國(guó)科學(xué)家Tausheck最先提出來(lái)的,后來(lái)美國(guó)科學(xué)家Handel也提出了利用技術(shù)對(duì)文字進(jìn)行識(shí)別的想法。
到目前為止,已經(jīng)有不少專注于文字識(shí)別的公司,并且也推出了相關(guān)系列的產(chǎn)品,比如漢王的名片王、國(guó)外的ABBYY、Google等。不過(guò),由于人類多方面需求的進(jìn)一步擴(kuò)大與提升,傳統(tǒng)OCR已經(jīng)不能填補(bǔ)這些空洞,而自然場(chǎng)景OCR就在這樣的需求下應(yīng)運(yùn)而生。如此,自然場(chǎng)景OCR都用到了哪些領(lǐng)域?
自然環(huán)境OCR機(jī)器人,讓人機(jī)交互更自然
說(shuō)到人機(jī)交互,大多人想到的都是語(yǔ)音交互,畢竟這是人類之間運(yùn)用率最高的交流方式。但是,縱然現(xiàn)在語(yǔ)音識(shí)別的技術(shù)已經(jīng)發(fā)展的相當(dāng)成熟,可交互方式并不能僅僅局限于這一種,肢體、眼睛等等都是一個(gè)交互過(guò)程中必不可少的東西。
出于天性,人們喜歡與他人分享自己喜歡的東西,比如一部影片、一本書(shū)、一個(gè)活動(dòng)等等,在這其中,文字的存在理所當(dāng)然,眼睛的作用也就顯得不容忽視。以陪護(hù)機(jī)器人為例,孩子們都喜歡色彩斑斕、嵌有圖片的書(shū)籍,而在閱讀的過(guò)程中,他們總會(huì)碰到不認(rèn)識(shí)的字,這時(shí)候,陪護(hù)機(jī)器人需要通過(guò)眼睛掃描書(shū)頁(yè),再經(jīng)過(guò)算法識(shí)別出其中的文字,從而才能從物聯(lián)網(wǎng)中找出相關(guān)的答案。如果是傳統(tǒng)的OCR,此時(shí)文字周邊的色彩就會(huì)對(duì)文字識(shí)別產(chǎn)生一定的干擾,而這是自然環(huán)境OCR所解決的問(wèn)題之一,目前相關(guān)機(jī)構(gòu)也取得了相當(dāng)大的進(jìn)展。
另外,當(dāng)機(jī)器人普及,不管是生活還是辦公,人們也會(huì)要求陪護(hù)機(jī)器人去取一些東西。如果只是依靠圖像識(shí)別的話,預(yù)計(jì)機(jī)器人有八成的可能會(huì)拿錯(cuò)東西,畢竟圖像識(shí)別僅能識(shí)別出形狀、顏色等因素,而這番套路在同種包裝的番茄醬與草莓醬的面前是沒(méi)有用武之地的。若要求機(jī)器人在拿取物品方面能夠達(dá)到技改的準(zhǔn)確率,自然環(huán)境OCR是必然選擇(傳統(tǒng)OCR難以識(shí)別曲面字體)。
自然環(huán)境OCR翻譯,走遍天下都不怕
對(duì)于大多國(guó)內(nèi)觀眾而言,等待國(guó)外劇集的熟肉是一個(gè)劇迷的必經(jīng)過(guò)程;出國(guó)旅游時(shí),我們最怕的就是孤身一人……這種種現(xiàn)象的出現(xiàn)只因?yàn)橐粋€(gè)原因——語(yǔ)言不通。
外面的世界是一個(gè)多樣的世界,文字也被人們以多種形式呈現(xiàn)出來(lái),像多個(gè)字一筆帶過(guò)的,與背景幾乎融為一體的,抽象字體等等,這些都是出門(mén)在外經(jīng)常碰得到的。為了解決這個(gè)問(wèn)題,Google、百度等科技企業(yè)都推出了翻譯軟件,不過(guò),經(jīng)過(guò)鎂客君親身測(cè)試,對(duì)于光線明亮的方正字體,這些軟件的翻譯效果還是不錯(cuò)的,但是一旦涉及藝術(shù)字,結(jié)果就悲劇了,可能字都識(shí)別不出來(lái),更何談翻譯。
對(duì)于此類自然環(huán)境之中的文字,目前的自然環(huán)境OCR雖然不能達(dá)到完美的效果,但基于出國(guó)游旅客人數(shù)的日益增長(zhǎng),此類翻譯軟件必然是未來(lái)的一個(gè)趨勢(shì)。既然翻譯軟件的勢(shì)頭如此之好,作為其中關(guān)鍵技術(shù)的自然環(huán)境OCR,理所當(dāng)然的將受到人們的關(guān)注。
從當(dāng)前的情況來(lái)看,在傳統(tǒng)OCR的領(lǐng)域之內(nèi),作為人工智能基礎(chǔ)之一、計(jì)算機(jī)視覺(jué)分支之一的自然環(huán)境OCR的應(yīng)用范圍并沒(méi)有進(jìn)行太多的擴(kuò)充。作為一項(xiàng)技術(shù)而言,這也是一個(gè)好現(xiàn),在技術(shù)尚未提升到滿意的高度、沒(méi)有挖到消費(fèi)者更深層次的需求時(shí),過(guò)快的市場(chǎng)占領(lǐng)只會(huì)根基不穩(wěn),比如現(xiàn)在的智能手環(huán),火的很快,臨了卻因?yàn)殡u肋而遭到廣大消費(fèi)者的不滿,面臨著眾多廠商退出的尷尬。
不過(guò),雖然沒(méi)有過(guò)多的擴(kuò)充,但機(jī)器人與翻譯是自然環(huán)境OCR目前來(lái)講最容易進(jìn)入的兩大領(lǐng)域,其中,機(jī)器人更是目前最具前景的領(lǐng)域。單單在陪護(hù)機(jī)器人方面,根據(jù)ZDC互聯(lián)網(wǎng)調(diào)研中心截止2016年9月的數(shù)據(jù)顯示,在機(jī)器人產(chǎn)品用戶關(guān)注度分布占比中,陪護(hù)機(jī)器人用戶關(guān)注度高達(dá)32.2%,如果算上服務(wù)機(jī)器人,總關(guān)注度達(dá)到了51%,而此前根據(jù)IFR的統(tǒng)計(jì),到2017年,全球服務(wù)機(jī)器人市場(chǎng)容量將接近500億元。在如此利好情形之下,若自然環(huán)境OCR能夠完善技術(shù),狠抓用戶需求,其市場(chǎng)必然也很有看頭。