技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國傳動網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 歷經(jīng)6年 AI終于在“讀圖會意”上超越人類

歷經(jīng)6年 AI終于在“讀圖會意”上超越人類

時間:2021-08-13 11:55:16來源:快科技

導(dǎo)語:?導(dǎo)讀:8月12日,國際權(quán)威機器視覺問答榜單VQA Leaderboard出現(xiàn)關(guān)鍵突破:阿里巴巴達(dá)摩院以81.26%的準(zhǔn)確率創(chuàng)造了新紀(jì)錄,讓AI在“讀圖會意”上超越人類基準(zhǔn)。

  導(dǎo)讀:8月12日,國際權(quán)威機器視覺問答榜單VQA Leaderboard出現(xiàn)關(guān)鍵突破:阿里巴巴達(dá)摩院以81.26%的準(zhǔn)確率創(chuàng)造了新紀(jì)錄,讓AI在“讀圖會意”上超越人類基準(zhǔn)。

  前不久,在中文語言理解權(quán)威評測基準(zhǔn)CLUE中,阿里巴巴的AI模型在新聞文本上超越了人類識別精確度,F(xiàn)在“讀圖會意”上,阿里巴巴達(dá)摩院在VQA上也超越了人類,這是榜單設(shè)立6年來的首次。

  8月12日,國際權(quán)威機器視覺問答榜單VQA Leaderboard出現(xiàn)關(guān)鍵突破:阿里巴巴達(dá)摩院以81.26%的準(zhǔn)確率創(chuàng)造了新紀(jì)錄,讓AI在“讀圖會意”上超越人類基準(zhǔn)。

  繼2015年、2018年AI分別在視覺識別及文本理解領(lǐng)域超越人類分?jǐn)?shù)后,人工智能在多模態(tài)技術(shù)領(lǐng)域也迎來一大進(jìn)展。

  “詩是無形畫,畫是有形詩!彼未娙藦埶疵裨枥L語言與視覺的相通之處!白x圖會意”,即通過視覺理解信息,是人類的一項基礎(chǔ)能力,但對AI來說卻是要求極高的認(rèn)知任務(wù)。

  解決該挑戰(zhàn),對研發(fā)通用人工智能有重要意義。近10年來,AI在下棋、視覺、文本理解等單模態(tài)技能上突飛猛進(jìn),但在涉及視覺-文本跨模態(tài)理解的高階認(rèn)知任務(wù)上,AI過去始終未達(dá)到人類水平。

  為攻克這一難題而設(shè)立的挑戰(zhàn)賽VQA Challenge,自2015年起先后于全球計算機視覺頂會ICCV及CVPR舉辦,吸引了包括微軟、Facebook、斯坦福大學(xué)、阿里巴巴、百度等眾多頂尖機構(gòu)踴躍參與,并形成了國際上規(guī)模最大、認(rèn)可度最高的VQA(Visual Question Answering)數(shù)據(jù)集,其包含超20萬張真實照片、110萬道考題。

  VQA是AI領(lǐng)域難度最高的挑戰(zhàn)之一。在測試中,AI需根據(jù)給定圖片及自然語言問題生成正確的自然語言回答。

  這意味著單個AI模型需融合復(fù)雜的計算機視覺及自然語言技術(shù):首先對所有圖像信息進(jìn)行掃描,再結(jié)合對文本問題的理解,利用多模態(tài)技術(shù)學(xué)習(xí)圖文的關(guān)聯(lián)性、精準(zhǔn)定位相關(guān)圖像信息,最后根據(jù)常識及推理回答問題。

  今年6月,阿里達(dá)摩院在VQA 2021 Challenge的55支提交隊伍中奪冠,成績領(lǐng)先第二名約1個百分點、去年冠軍3.4個百分點。兩個月后,達(dá)摩院再次以81.26%的準(zhǔn)確率創(chuàng)造VQA Leaderboard全球紀(jì)錄,首次超越人類基準(zhǔn)線80.83%。

  VQA的核心難點在于對多模態(tài)信息進(jìn)行聯(lián)合推理認(rèn)知,即在統(tǒng)一模型里做不同模態(tài)的語義映射和對齊。

  據(jù)了解,達(dá)摩院NLP及視覺團(tuán)隊對AI視覺-文本推理體系進(jìn)行了系統(tǒng)性的設(shè)計,融合了大量算法創(chuàng)新,包括多樣性的視覺特征表示、多模態(tài)預(yù)訓(xùn)練模型、自適應(yīng)的跨模態(tài)語義融合和對齊技術(shù)、知識驅(qū)動的多技能AI集成等,讓AI“讀圖會意”水平上了一個新臺階。

  VQA技術(shù)擁有廣闊的應(yīng)用場景,可用于圖文閱讀、跨模態(tài)搜索、盲人視覺問答、醫(yī)療問診、智能駕駛等領(lǐng)域,或?qū)⒆兏锶藱C交互方式。

  報道顯示,這不是阿里達(dá)摩院第一次在AI關(guān)鍵領(lǐng)域超越人類基準(zhǔn)。2018年,達(dá)摩院曾在斯坦福SQuAD挑戰(zhàn)賽中歷史性地讓機器閱讀理解首次超越人類,引發(fā)海外媒體關(guān)注。

  今年以來,達(dá)摩院在AI底層技術(shù)領(lǐng)域動作頻頻,先后發(fā)布了中國科技公司中首個超大規(guī)模多模態(tài)預(yù)訓(xùn)練模型M6及首個超大規(guī)模中文語言模型PLUG,并開源了歷經(jīng)3年打造的深度語言模型體系A(chǔ)liceMind(https://github.com/alibaba/AliceMind),其曾登頂GLUE等六大國際權(quán)威NLP榜單。


標(biāo)簽: AI機器視覺?

點贊

分享到:

上一篇:大聯(lián)大品佳集團(tuán)推出基于Infin...

下一篇:行星式攪拌機占據(jù)行業(yè)一席之...

中國傳動網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(m.u63ivq3.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

網(wǎng)站簡介|會員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見反饋|sitemap

傳動網(wǎng)-工業(yè)自動化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺

網(wǎng)站客服服務(wù)咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2024 ,All Rights Reserved 深圳市奧美大唐廣告有限公司 版權(quán)所有
粵ICP備 14004826號 | 營業(yè)執(zhí)照證書 | 不良信息舉報中心 | 粵公網(wǎng)安備 44030402000946號