【MobileNetV2將為下一代移動視覺應(yīng)用提供支持】去年,我們引入了面向移動設(shè)備設(shè)計(jì)的通用型計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)系列MobileNetV1,支持分類和檢測等功能。在個人移動設(shè)備上運(yùn)行深度網(wǎng)絡(luò)可以提升用戶體驗(yàn),允許隨時隨地訪問,并且在安全性、隱私和能耗方面同樣具有優(yōu)勢。隨著可讓用戶與現(xiàn)實(shí)世界實(shí)時交互的新應(yīng)用的出現(xiàn),對更高效神經(jīng)網(wǎng)絡(luò)的需求也逐漸增加。
今天,我們很高興地宣布,MobileNetV2已經(jīng)發(fā)布,它將為下一代移動視覺應(yīng)用提供支持。
MobileNetV2在MobileNetV1的基礎(chǔ)上進(jìn)行了重大改進(jìn),并推動了移動視覺識別技術(shù)的發(fā)展,包括分類、對象檢測和語義分割。MobileNetV2作為TensorFlow-Slim圖像分類庫的一部分發(fā)布,您也可以在Colaboratory中瀏覽MobileNetV2?;蛘?,也可以下載筆記本并在本地使用Jupyter操作。MobileNetV2還將作為TF-Hub中的模塊,預(yù)訓(xùn)練檢查點(diǎn)位于github中。
MobileNetV2以MobileNetV1[1]的理念為基礎(chǔ),使用深度可分離卷積作為高效構(gòu)建塊。此外,V2在架構(gòu)中引入了兩項(xiàng)新功能:1)層之間的線性瓶頸,以及2)瓶頸之間的快捷連接?;窘Y(jié)構(gòu)如下所示。
MobileNetV2架構(gòu)概覽
藍(lán)色塊表示上面所示的復(fù)合卷積構(gòu)建塊
我們可以直觀地理解為,瓶頸層對模型的中間輸入和輸出進(jìn)行編碼,而內(nèi)層封裝了讓模型可以將低級概念(如像素)轉(zhuǎn)換為高級描述符(如圖像類別)的功能。最后,與傳統(tǒng)的殘差連接一樣,快捷連接也可以提高訓(xùn)練速度和準(zhǔn)確性。要詳細(xì)了解技術(shù)細(xì)節(jié),請參閱論文“MobileNetV2:InvertedResidualsandLinearBottlenecks”。
MobileNetV2與第一代MobileNet相比有何不同?
總體而言,MobileNetV2模型在整體延遲時間范圍內(nèi)可以更快實(shí)現(xiàn)相同的準(zhǔn)確性。特別是在GooglePixel手機(jī)上,與MobileNetV1模型相比,新模型的運(yùn)算數(shù)減少2倍,參數(shù)減少30%,而速度提升30-40%,同時準(zhǔn)確性也得到提高。
MobileNetV2提高了速度(縮短了延遲時間)并提高了ImageNetTop1的準(zhǔn)確度
對于對象檢測和分割而言,MobileNetV2是非常有效的特征提取器。例如,在檢測方面,與新引入的SSDLite[2]搭配使用時,在實(shí)現(xiàn)相同準(zhǔn)確性的情況下,新模型的速度要比MobileNetV1快大約35%。我們已在TensorflowObjectDetectionAPI[4]下開源該模型。
為了實(shí)現(xiàn)設(shè)備上語義分割,我們在近期宣布的DeepLabv3[3]的簡化版中采用MobileNetV2作為特征提取器。在采用語義分割基準(zhǔn)PASCALVOC2012的條件下,新模型的性能與使用MobileNetV1作為特征提取器的性能相似,但前者的參數(shù)數(shù)量減少5.3倍,乘加運(yùn)算數(shù)量減少5.2倍。
綜上,MobileNetV2提供了一個非常高效的面向移動設(shè)備的模型,可以用作許多視覺識別任務(wù)的基礎(chǔ)。我們現(xiàn)將此模型與廣大學(xué)術(shù)和開源社區(qū)分享,希望借此進(jìn)一步推動研究和應(yīng)用開發(fā)。