您現在的位置是:首頁 > 運動

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

由 機器之心Pro 發表于 運動2022-09-30
簡介本研究的主要貢獻如下:超越深度網路中規則形狀的影象網格:引入了一種新穎的 GroupViT 架構,將視覺概念分層自下而上分組為不規則形狀的組沒有任何畫素級標籤,並且僅透過對比損失進行影象級文字監督的訓練,GroupViT 成功地學會將影象區

語義分割什麼意思

機器之心報道

機器之心編輯部

生成效果的確很驚豔。

視覺場景是由有語義意義的畫素組構成。在深度學習的概念出現之前,業界就已經使用經典的視覺理解方法對畫素分組和識別進行深入研究。自下而上分組的思想是:首先將畫素組織成候選組,然後用識別演算法模組處理每個分組。這種思路已經成功應用於超畫素影象分割、以及目標檢測和語義分割的區域構建。除了自下而上的推理,識別過程中自上而下的反饋訊號,能夠更好地完成視覺分組。

隨著深度學習時代的到來,顯式分組和識別的思想,在端到端的訓練系統中已經不再那麼涇渭分明,而是更緊密地耦合在一起。例如,語義分割通常是透過全卷積網路實現的,其中畫素分組僅透過識別每個畫素的標籤在輸出層顯示。這種方法不需要對畫素顯式分組。雖然這種方法非常強大,並且效能是最好的,但它有兩個主要的侷限性:(1) 每畫素的人工標籤成本很高;(2) 學習的模型僅限於幾個標記的類別,不能泛化到未知的類別。

從文字監督中學習視覺表達的最新進展在遷移到下游任務方面取得了巨大成功。學習到的模型不僅以零樣本方式遷移到 ImageNet 分類中並實現最好的效能,還可以對 ImageNet 分類以外的未知物件類別進行識別。

受此研究方向的啟發,來自加州大學聖聖地亞哥分校和英偉達的研究者提出這樣一個問題:

我們是否也可以學習一個純文字監督的語義分割模型,無需做任何畫素標註,就能夠以零樣本方式泛化到不同物件類別或詞彙集

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

論文連結:https://arxiv。org/pdf/2202。11094。pdf

為了實現這一點,他們提出

將分組機制加入深度網路

。只要透過文字監督學習,分組機制就可以自動生成語義片段。方法概覽如下圖 1 所示,透過對具有對比損失的大規模配對圖文資料進行訓練,可以讓模型不需要任何進一步的註釋或微調的情況下,能夠零樣本遷移學習得到未知影象的語義分割詞彙。

該研究的關鍵思想是

利用視覺 Transformer(ViT)在其中加入新的視覺分組模組,研究者將新模型稱為 GroupViT(分組視覺 Transformer)

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

圖 1:首先使用成對的影象 - 文字資料聯合訓練 GroupViT 和文字編碼器。使用 GroupViT,有意義的語義分組會自動出現,無需任何掩碼註釋。然後把訓練好的 GroupViT 模型遷移到零樣本語義分割任務。

GroupVit 的語義分割效果如下兩個動圖所示。

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

論文一作為 UCSD 計算機科學與工程系二年級博士生 Jiarui Xu,本工作是他在英偉達做實習生期間進行的。

本研究的主要貢獻如下:

超越深度網路中規則形狀的影象網格:引入了一種新穎的 GroupViT 架構,將視覺概念分層自下而上分組為不規則形狀的組

沒有任何畫素級標籤,並且僅透過對比損失進行影象級文字監督的訓練,GroupViT 成功地學會將影象區域組合在一起並以零樣本方式遷移到多個語義分割詞彙表;

第一個探索不使用任何畫素級標籤,完成從單獨的文字監督到幾個語義分割任務的零樣本遷移的工作,也為這項新任務建立堅實的基礎。

GroupViT 架構

GroupViT 包含按階段分組的 Transformer 層的分層結構,每個階段會處理逐漸放大的視覺片段。右側的影象顯示了在不同分組階段要處理的視覺片段。在初期階段模型將畫素分組為區域性物件,例如大象的鼻子和腿。在更高的階段進一步將它們合併成整體,例如整個大象和背景森林。

每個分組階段都以一個分組塊結束,該塊會計算學習到的組標記和片段(影象)標記之間的相似度。相似度高的組會分配給同一組的段標記併合並在一起,並做進入下一個分組階段的新段標記。

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

圖 2:(a) GroupViT 的架構和訓練流程。(b) 分組塊的架構。

從影象 - 文字對中學習

為了訓練 GroupViT 進行分層分組,研究者在影象 - 文字對之間使用了精心設計的對比損失。

下圖 3 為多標籤圖文對比損失。給定一個輸入的影象 - 文字對,他們透過提取其名詞並透過一些句子模板提示,來從原始文字中生成新文字。對於對比學習,只有影象和文字對匹配的被認定為正例。研究者訓練 GroupViT 和文字編碼器以最大化影象 - 文字對正例之間的特徵相似性,並最小化負例對之間的特徵相似性。

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

零樣本遷移到語義分割

由於 GroupViT 自動將影象分組為語義相似的片段,因此其輸出可以輕鬆地 Zero-Shot 遷移到語義分割,而無需任何進一步的微調。零樣本遷移的流程參見下圖 4。GroupViT 的每個輸出段嵌入對應於影象的一個區域。研究者將每個輸出段分配給嵌入空間中影象 - 文字相似度最高的物件類。

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

透過組 token 的概念學習

研究者選擇部分組 token 並且突出 PASCAL VOC 2012 資料集中的注意區域。即使還沒有分類,不同的組 token 正在學習不同的語義概念。

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

實驗結果

消融實驗

為了識別 GroupViT 的每個元件的貢獻,研究者進行了消融實驗。對於所有實驗,除非另有說明,否則都預設使用 CC12M 資料集訓練 1-stage 的 GoupViT。他們在 PASCAL VOC 2012 驗證集上,記錄預測的 mIoU 和分割掩膜。

硬分配與軟分配:在每個分組塊中,研究者使用硬分配或軟分配將影象片段標記分配給組 token(第 3。1 節)。對於軟分配,他們使用原始的 A^l 矩陣而不是用於硬分配的

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

來計算公式 5。這樣做的影響見下表 1 的第一列。

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

多標籤對比損失

。研究者研究了表 1 的第二列中,新增多標籤對比損失的效果。將多標籤對比損失新增到標準損失(公式 8)中,硬分配和軟分配的效能分別提高了 13。1% 和 2。6%。使用多標籤對比損失,訓練和推理期間的輸入文字採用類似的提示格式。他們推測這種一致性有助於 GroupViT 更好地將學習到的影象片段分類為標籤的類別。

組 token

。在下表 2 中,研究者比較了不同的組 token 和輸出 token。他們觀察到,不斷增加組 token 會持續提高效能。從概念上講,每個組 token 代表不同的語義概念。所以更多的組 token 可能有助於 GroupViT 學習對更多的語義概念進行分組。儘管組 token 的數量遠少於現實世界中的類別數量,但每個組 token 都是 384 維嵌入空間中的 1 個特徵向量,但它可以表示比 1 更多的概念。他們還對不同的輸出 token 進行了實驗,發現 8 是最優的,類似於 [64] 中的發現。

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

多階段分組

。在下表 3 中,研究者比較了 1-stage 和 2-stage GroupViT 架構。

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

表 3 :單階段和多階段分組的消融實驗。

研究者還在下圖 5 中比較了 1-stage 和 2-stage 的視覺零樣本語義分割結果。

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

2-stage GroupViT 生成的分割圖比 1-stage GroupViT 更平滑、更準確。

視覺化

研究者在 Pascal VOC、Pascal Context 和 COCO 資料集上對 GroupViT 進行評估。GroupViT 在沒有接受任何語義分割註釋的訓練情況下,可以零樣本遷移到任何資料集的語義分割類,並且無需對模型微調。

在 PASCAL VOC 2012 資料集上定性實驗結果

。下圖 6 展示了 GroupViT 的特定定性分割結果。他們選擇具有單個目標(第 1 行)、同一類的多個目標(第 2 行)和不同類的多個目標(第 3 行)進行了實驗。實驗證明 GroupViT 可以生成合理的分割。

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

圖 6:PASCAL VOC 2012 的定性結果。階段 1/2 組在分配標籤之前對結果進行分組。

透過組標記的概念學習。下圖 7 中可以直觀地看到組 token 學習的內容。研究者選擇部分組標籤並且突出 PASCAL VOC 2012 資料集中的注意區域。

他們發現不同的組 token 會學習不同的語義概念。在第一階段,組 token 通常側重於中級概念,例如如「眼睛」(第 1 行) 和「四肢」第 2 行)。有趣的是,如果圖片中有人,組 token 36 會關注「手」,而如果有鳥和狗等動物,則會關注「腳」。第二階段的組 token 更多地與高階概念相關聯,例如「草」、「身體」和「臉」。圖 7 還表明,第一階段學習的概念可以在第二階段聚合為更高級別的概念。

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

圖 7:透過組標記的概念學習。研究者強調了組 token 在不同階段所涉及的區域。

與現有方法的比較

研究者將 GroupViT 的零樣本語義分割效能與其它零樣本基準、基於 ViT-S 的全監督遷移方法進行了比較。結果詳見下表 4 和表 5。

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

表 4:與零樣本基準的比較。

做語義分割不用任何畫素標籤,UCSD、英偉達在ViT中加入分組模組

表 5:與完全監督遷移模型的比較。零樣本意味著在沒有任何微調的情況下遷移到語義分割。研究者也記錄了在 PASCAL VOC 2012 和 PASCAL 上下文資料集的 mIoU。

推薦文章

  • 國家級科技企業孵化器2021年度評價結果公佈:成都市11家獲評優秀

    國家級科技企業孵化器2021年度評價結果公佈:成都市11家獲評優秀下一步,成都市將以創新創業載體高質量發展為目標,提升載體孵化動能、產業孵化效能,強化載體集聚創新創業要素、加速科技成果轉化、培育科技型企業等核心功能,為加快建設具有全國影響力的科技創新中心注入新動能...

  • 洗衣機“快洗功能”你真的會用嗎?很多人不懂,難怪衣服洗不淨!

    02洗滌劑的用量控制好在使用快洗模式的時候,要避免衣服洗完以後黏糊糊的狀態,那洗滌劑的用量就要控制好,由於快洗模式下只有一次漂洗功能,這樣就會導致過多的洗衣液殘留在衣服上出現漂洗不乾淨的情況...

  • 淺談電容的高頻特性

    所以一個高頻電容的等效電路如下圖所示:進一步電容器的阻抗表示式可以詳細表達如下:所以電容的阻抗絕對值和頻率的關係如下圖所示:解析:在低頻時,其電阻器的阻抗是線性下降,表現為容性特質...