計算機視覺技術(shù)是實現(xiàn)自動駕駛的重要部分,美團無人配送團隊長期在該領(lǐng)域進(jìn)行著積極的探索。不久前,高精地圖組提出的CenterMask圖像實例分割算法被CVPR2020收錄,本文將對該方法進(jìn)行介紹。CVPR的全稱是IEEE Conference on Computer Vision and Pattern Recognition,IEEE國際計算機視覺與模式識別會議,它和ICCV、ECCV并稱為計算機視覺領(lǐng)域三大頂會。本屆CVPR大會共收到6656篇投稿,接收1470篇,錄用率為22%。
one-stage實例分割的意義
圖像的實例分割是計算機視覺中重要且基礎(chǔ)的問題之一,其在眾多領(lǐng)域具有十分重要的應(yīng)用,比如:地圖要素提取、自動駕駛車輛感知等。不同于目標(biāo)檢測和語義分割,實例分割需要對圖像中的每個實例(物體)同時進(jìn)行定位、分類和分割。從這個角度看,實例分割兼具目標(biāo)檢測和語義分割的特性,因此更具挑戰(zhàn)。當(dāng)前兩階段(two-stage)目標(biāo)檢測網(wǎng)絡(luò)(Faster RCNN[2]系列)被廣泛用于主流的實例分割算法(如Mask R-CNN[1])。2019年,一階段(one-stage)無錨點(anchor-free)的目標(biāo)檢測方法迎來了新一輪的爆發(fā),很多優(yōu)秀的one-stage目標(biāo)檢測網(wǎng)絡(luò)被提出,如CenterNet[3], FCOS[4]等。這一類方法相較于two-stage的算法,不依賴預(yù)設(shè)定的anchor,直接預(yù)測bounding box所需的全部信息,如位置、框的大小、類別等,因此具有框架簡單靈活,速度快等優(yōu)點。于是很自然的便會想到,實例分割任務(wù)是否也能夠采用這種one-stage anchor-free的思路來實現(xiàn)更優(yōu)的速度和精度的平衡?我們的論文分析了該問題中存在的兩個難點,并提出CenterMask方法予以解決。
圖1. 目標(biāo)檢測,語義分割和實例分割的區(qū)別[1]
one-stage實例分割的難點
相較于one-stage目標(biāo)檢測,one-stage的實例分割更為困難。不同于目標(biāo)檢測用四個角的坐標(biāo)即可表示物體的bounding box,實例分割的mask的形狀和大小都更為靈活,很難用固定大小的向量來表示。從問題本身出發(fā),one-stage的實例分割主要面臨兩個難點:
如何區(qū)分不同的物體實例,尤其是同一類別下的物體實例。two-stage的方法利用感興趣區(qū)域(Region of Interest,簡稱ROI)限制了單個物體的范圍,只需要對ROI內(nèi)部的區(qū)域進(jìn)行分割,大大減輕了其他物體的干擾。而one-stage的方法需要直接對圖像中的所有物體進(jìn)行分割。
如何保留像素級的位置信息,這是two-stage和one-stage的實例分割面臨的普遍問題。分割本質(zhì)上是像素級的任務(wù),物體邊緣像素的分割精細(xì)程度對最終的效果有較大影響。而現(xiàn)有的實例分割方法大多將固定大小的特征轉(zhuǎn)換到原始物體的大小,或者利用固定個數(shù)的點對輪廓進(jìn)行描述,這些方式都無法較好的保留原始圖像的空間信息。
相關(guān)工作介紹
遵照目標(biāo)檢測的設(shè)定,現(xiàn)有的實例分割方法可大致分為兩類:二階段(two-stage)實例分割方法和一階段(one-stage)實例分割方法。
two-stage的實例分割遵循先檢測后分割的流程,首先對全圖進(jìn)行目標(biāo)檢測得到bounding box,然后對bounding box內(nèi)部的區(qū)域進(jìn)行分割,得到每個物體的mask。two-stage的方法的主要代表是Mask R-CNN[1],該方法在Faster R-CNN[2]的網(wǎng)絡(luò)上增加了一個mask分割的分支,用于對每個感興趣區(qū)域(Region of Interest,簡稱ROI)進(jìn)行分割。而把不同大小的ROI映射為同樣尺度的mask會帶來位置精度的損失,因此該方法引入了RoIAlign來恢復(fù)一定程度的位置信息。PANet[5]通過增強信息在網(wǎng)絡(luò)中的傳播來對Mask R-CNN網(wǎng)絡(luò)進(jìn)行改進(jìn)。Mask Scoring R-CNN[6]通過引入對mask進(jìn)行打分的模塊來改善分割后mask的質(zhì)量。上述two-stage的方法可以取得SOTA的效果,但是方法較為復(fù)雜且耗時,因此人們也開始積極探索更簡單快速的one-stage實例分割算法。
現(xiàn)有的one-stage實例分割算法可以大致分為兩類:基于全局圖像的方法和基于局部圖像的方法?;谌值姆椒ㄊ紫壬扇值奶卣鲌D,然后利用一些操作對特征進(jìn)行組合來得到每個實例的最終mask。比如,InstanceFCN[7]首先利用全卷積網(wǎng)絡(luò)[8](FCN)得到包含物體實例相對位置信息的特征圖(instance-sensitive score maps),然后利用assembling module來輸出不同物體的分割結(jié)果。YOLACT[9]首先生成全局圖像的多張prototype masks,然后利用針對每個實例生成的mask coefficients對prototype masks進(jìn)行組合,作為每個實例的分割結(jié)果?;谌謭D像的方法能夠較好的保留物體的位置信息,實現(xiàn)像素級的特征對齊(pixel-to-pixel alignment),但是當(dāng)不同物體之間存在相互遮擋(overlap)時表現(xiàn)較差。與此相對應(yīng)的,基于局部區(qū)域的方法直接基于局部的信息輸出實例的分割結(jié)果。PolarMask[10] 采用輪廓表示不同的實例,通過從物體的中心點發(fā)出的射線組成的多邊形來描述物體的輪廓,但是含有固定端點個數(shù)的多邊形不能精準(zhǔn)的描述物體的邊緣,并且基于輪廓的方法無法很好的表示含有孔洞的物體。TensorMask[11]利用4D tensor來表示空間中不同物體的mask,并且引入了aligned representation 和 tensor bipyramid來較好的恢復(fù)物體的空間位置細(xì)節(jié),但是這些特征對齊的操作使得整個網(wǎng)絡(luò)比two-stage的Mask RCNN還要慢一些。
不同于上述方法,我們提出的CenterMask網(wǎng)絡(luò),同時包含一個全局顯著圖生成分支和一個局部形狀預(yù)測分支,能夠在實現(xiàn)像素級特征對齊的情況下實現(xiàn)不同物體實例的區(qū)分。
本工作旨在提出一個one-stage的圖像實例分割算法,不依賴預(yù)先設(shè)定的ROI區(qū)域來進(jìn)行mask的預(yù)測,這需要模型同時進(jìn)行圖像中物體的定位、分類和分割。為了實現(xiàn)該任務(wù),我們將實例分割拆分為兩個平行的子任務(wù),然后將兩個子任務(wù)得到的結(jié)果進(jìn)行結(jié)合,以得到每個實例的最終分割結(jié)果。第一個分支(即Local Shape分支)從物體的中心點表示中獲取粗糙的形狀信息,用于約束不同物體的位置區(qū)域以自然地將不同的實例進(jìn)行區(qū)分。第二個分支(即Global Saliency分支)對整張圖像預(yù)測全局的顯著圖,用于保留準(zhǔn)確的位置信息,實現(xiàn)精準(zhǔn)的分割。最終,粗糙但instance-aware的local shape和精細(xì)但instance-unaware的global saliency進(jìn)行組合,以得到每個物體的分割結(jié)果。
1.網(wǎng)絡(luò)整體框架
圖圖2. CenterMask網(wǎng)絡(luò)結(jié)構(gòu)圖
CenterMask整體網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示,給定一張輸入圖像,經(jīng)過backbone網(wǎng)絡(luò)提取特征之后,網(wǎng)絡(luò)輸出五個平行的分支。其中Heatmap和Offset分支用于預(yù)測所有中心點的位置坐標(biāo),坐標(biāo)的獲得遵循關(guān)鍵點預(yù)測的一般流程。Shape和Size分支用于預(yù)測中心點處的Local Shape,Saliency分支用于預(yù)測Global Saliency Map。可以看到,預(yù)測的Local Shape含有粗糙但是instance-aware的形狀信息,而Global Saliency含有精細(xì)但是instance-aware的顯著性信息。最終,每個位置點處得到的Local Shape和對應(yīng)位置處的Global Saliency進(jìn)行乘積,以得到最終每個實例的分割結(jié)果。Local Shape和Global Saliency分支的細(xì)節(jié)將在下文介紹。
2.Local Shape 預(yù)測
為了區(qū)分位于不同位置的實例,我們采用每個實例的中心點來對其mask進(jìn)行建模,中心點的定義是該物體的bounding box的中心。一種直觀的想法是直接采用物體中心點處提取的圖像特征來進(jìn)行表示,但是固定大小的圖像特征難以表示不同大小的物體。因此,我們將物體mask的表示拆分為兩部分:mask的形狀和mask的大小,用固定大小的圖像特征表示mask的形狀,用二維向量表示mask的大?。ǜ吆蛯挘?。以上兩個信息都同時可以由物體中心點的表示得到。如圖3所示,P表示由backbone網(wǎng)絡(luò)提取的圖像特征,shape和size表示預(yù)測以上兩個信息的分支。用Fshape(大小為H*W*S*S)表示shape分支得到的特征圖,F(xiàn)size(大小為H*W*2)表示size分支得到的特征圖。假設(shè)某個物體的中心點位置為(x,y),則該點的shape特征為Fshape(x,y),大小為1*1*S*S,將其reshape成S*S大小的二維平面矩陣;該點的size特征為Fsize(x,y),用h和w表示預(yù)測的高度和寬度大小,將上述二維平面矩陣resize到h*w的大小,即得到了該物體的LocalShape表示。
圖3. Local Shape預(yù)測分支
3.Global Saliency 生成
盡管上述Local Shape表示可以生成每個實例的mask,但是由于該mask是由固定大小的特征resize得到,因此只能描述粗糙的形狀信息,不能較好的保留空間位置(尤其是物體邊緣處)的細(xì)節(jié)。如何從固定大小的特征中得到精細(xì)的空間位置信息是實例分割面臨的普遍問題,不同于其他采用復(fù)雜的特征對齊操作來應(yīng)對此問題的思路,我們采用了更為簡單快速的方法。啟發(fā)于語義分割領(lǐng)域直接對全圖進(jìn)行精細(xì)分割的思路,我們提出預(yù)測一張全局大小的顯著圖來實現(xiàn)特征的對齊。平行于Local Shape分支,Global Saliency分支在backbone網(wǎng)絡(luò)之后預(yù)測一張全局的特征圖,該特征圖用于表示圖像中的每個像素是屬于前景(物體區(qū)域)還是背景區(qū)域。
1.可視化結(jié)果
圖4. CenterMask網(wǎng)絡(luò)不同設(shè)定下的分割結(jié)果
為了驗證本文提出的Local Shape和Global Saliency兩個分支的效果,我們對獨立的分支進(jìn)行了分割結(jié)果的可視化,如圖4所示。其中(a)表示只有Local Shape分支網(wǎng)絡(luò)的輸出結(jié)果,可以看到,雖然預(yù)測的mask比較粗糙,但是該分支可以較好的區(qū)分出不同的物體。(b)表示只有Global Saliency分支網(wǎng)絡(luò)輸出的結(jié)果,可以看到,在物體之間不存在遮擋的情形下,僅用Saliency分支便可實現(xiàn)物體精細(xì)的分割。(c)表示在復(fù)雜場景下CenterMask的表現(xiàn),從左到右分別為只有Local Shape分支,只有Global Saliency分支和二者同時存在時CenterMask的分割效果。可以看到,在物體之間存在遮擋時,僅靠Saliency分支無法較好的分割,而Shape和Saliency分支的結(jié)合可以同時在精細(xì)分割的同時實現(xiàn)不同實例之間的區(qū)分。
圖5. CenterMask與其他方法在COCO test-dev數(shù)據(jù)集上的對比
CenterMask與其他方法在COCO test-dev數(shù)據(jù)集上的精度(AP)和速度(FPS)對比見圖5。其中有兩個模型在精度上優(yōu)于我們的方法:two-stage的Mask R-CNN和one-stage的TensorMask,但是他們的速度分別大約4fps和8fps慢于我們的方法。除此之外,我們的方法在速度和精度上都優(yōu)于其他的one-stage實例分割算法,實現(xiàn)了在速度和精度上的均衡。CenterMask和其他方法的可視化效果對比見圖6。
圖6. CenterMask與其他方法在COCO 數(shù)據(jù)集上的可視化對比
除此之外,我們還將提出的Local Shape和Global Saliency分支遷移至了主流的one-stage目標(biāo)檢測網(wǎng)絡(luò)FCOS,最終的實驗效果見圖7。最好的模型可以實現(xiàn)38.5的精度,證明了本方法較好的適用性。
圖7. CenterMask-FCOS在 COCO test-dev數(shù)據(jù)集上的性能
首先,CenterMask方法作為我們在one-stage實例分割領(lǐng)域的初步嘗試,取得了較好的速度和精度的均衡,但是本質(zhì)上仍未能完全脫離目標(biāo)檢測的影響,未來希望能夠探索出不依賴box crop的方法,簡化整個流程。其次,由于CenterMask預(yù)測Global Saliency的思想啟發(fā)自語義分割的思路,而全景分割是同時融合了實例分割和語義分割的任務(wù),未來希望我們的方法在全景分割領(lǐng)域也能有更好的應(yīng)用,也希望后續(xù)有更多同時結(jié)合語義分割和實例分割思想的工作被提出。
更多細(xì)節(jié)見論文
論文原文:CenterMask: single shot instance segmentation with point representation
鏈接:https://arxiv.org/abs/2004.04446
參考文獻(xiàn)
[1] He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2961-2969.
[2] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.
[3] Zhou X, Wang D, Kr?henbühl P. Objects as points[J]. arXiv preprint arXiv:1904.07850, 2019.
[4] Tian Z, Shen C, Chen H, et al. Fcos: Fully convolutional one-stage object detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 9627-9636.
[5] Liu S, Qi L, Qin H, et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8759-8768.
[6] Huang Z, Huang L, Gong Y, et al. Mask scoring r-cnn[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 6409-6418.
[7] Dai J, He K, Li Y, et al. Instance-sensitive fully convolutional networks[C]//European Conference on Computer Vision. Springer, Cham, 2016: 534-549.
[8] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3431-3440.
[9] Bolya D, Zhou C, Xiao F, et al. YOLACT: real-time instance segmentation[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 9157-9166.
[10] Xie, Enze, et al. "Polarmask: Single shot instance segmentation with polar representation." //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2020
[11] Chen, Xinlei, et al. "Tensormask: A foundation for dense object segmentation." Proceedings of the IEEE International Conference on Computer Vision. 2019.
瑪氏中國|2025年度瑪氏箭牌北京區(qū)域包材及原材料倉儲(VMI)項目
2229 閱讀華為的物流“布局”,為何備受關(guān)注?
1474 閱讀北美倉配一體機會和風(fēng)險
1292 閱讀?年營收15億的跨境物流企業(yè)要上市
1168 閱讀解秘粵港澳大灣區(qū)規(guī)模最大的生產(chǎn)服務(wù)型國家物流樞紐——廣州東部公鐵聯(lián)運樞紐
1078 閱讀縱騰集團借殼上市,6.4億收購A股上市公司綠康生化
987 閱讀TEMU美區(qū)半托管即將開放國內(nèi)發(fā)貨模式
862 閱讀京東物流一線員工日10周年:為5年、10年老員工授勛,為15000名標(biāo)桿頒獎
815 閱讀15倍爆發(fā)式增長,網(wǎng)絡(luò)貨運行業(yè)跑出了一匹黑馬
776 閱讀2024年快遞滿意度出爐:順豐、京東快遞排名最高
767 閱讀