您現在的位置是:首頁 > 農業

2021機器學習研究風向是啥?MLPCNNTransformerMLP!

由 ZAKER汽車 發表于 農業2021-06-07
簡介現在他又按照這個思路寫了一篇,針對視覺 MLP 模型 MLP-Mixer 需要大量資料集訓練的難題提出了 ResMLP 模型,透過殘差結構和蒸餾操作實現了僅僅使用 ImageNet 資料集就能達到很強的效能

擬應用所學是什麼意思

就在2月份,Transformer還橫掃CV和NLP各種task。但到了5月份,似乎一切變了。近來,谷歌、清華、Facebook相繼發表了關於多層感知機(MLP)的工作,MLP→CNN→Transformer→MLP似乎已經成為一種大勢所趨。我們來看下最新的幾篇代表性論文。

2021機器學習研究風向是啥?MLPCNNTransformerMLP!

12月:“影象識別也是Transformer最強(ViT)”

2月:“Transformer is All you Need”

3月:“Attention is not All you Need”

5月:“在MLP上的ViT並(MLPmixer)”

5月:“Convolution比Transformer強”

5月:“在MLP上加個門,跨越Transformer (Pay Attention to MLPs)”

論文地址:

https://www。zhuanzhi。ai/paper/e5998092a5230ac12f4ee9e134e57020

谷歌大腦首席科學家、AutoML 鼻祖 Quoc Le 研究團隊將 gMLP 用於影象分類任務,並在 ImageNet 資料集上取得了非常不錯的結果。在類似的訓練設定下,gMLP 實現了與 DeiT(一種改進了正則化的 ViT 模型)相當的效能。不僅如此,在引數減少 66% 的情況下,gMLP 的準確率比 MLP-Mixer 高出 3%。這一系列的實驗結果對 ViT 模型中自注意力層的必要性提出了質疑。

他們還將 gMLP 應用於 BERT 的掩碼語言建模(MLM)任務,發現 gMLP 在預訓練階段最小化困惑度的效果與 Transformer 一樣好。該研究的實驗表明,困惑度僅與模型的容量有關,對注意力的存在並不敏感。隨著容量的增加,研究者觀察到,gMLP 的預訓練和微調錶現的提升與 Transformer 一樣快。

gMLP 的有效性,視覺任務上自注意力和 NLP 中注意力機制的 case-dependent 不再具有優勢,所有這些都令研究者對多個領域中注意力的必要性提出了質疑。

總的來說,該研究的實驗結果表明,自注意力並不是擴充套件 ML 模型的必要因素。隨著資料和算力的增加,gMLP 等具有簡單空間互動機制的模型具備媲美 Transformer 的強大效能,並且可以移除自注意力或大幅減弱它的作用。

整個模型具有空間門控單元(Spatial Gating Unit, SGU)的 gMLP 架構示意圖如下所示,該模型由堆疊的 L 塊(具有相同的結構和大小)組成。

2021機器學習研究風向是啥?MLPCNNTransformerMLP!

2021機器學習研究風向是啥?MLPCNNTransformerMLP!

谷歌原 ViT 團隊提出了一種不使用卷積或自注意力的 MLP-Mixer 架構,並且在設計上非常簡單,在 ImageNet 資料集上也實現了媲美 CNN 和 ViT 的效能。

卷積神經網路(CNNs)是計算機視覺的主流模型,近年來,基於注意力的網路,如vision transformer也得到了廣泛的應用。2021年3月4日,谷歌人工智慧研究院Ilya Tolstikhin, Neil Houlsby等人研究員提出一種基於多層感知機結構的MLP-Mixer並在頂會“Computer Vision and Pattern Recognition(CVPR)”上發表一篇題為“MLP-Mixer: An all-MLP Architecture for Vision”的文章。MLP-Mixer包含兩種型別的MLP層:一種是獨立應用於影象patches的MLP(即“混合”每個位置特徵),另一種是跨patches應用的MLP(即“混合”空間資訊)。當在大資料集上訓練時,或使用正則化訓練方案時,MLP-Mixer在影象分類基準上獲得有競爭力的分數,並且預訓練和推理成本與最先進的模型相當。作者希望這些結果能激發出更深入的研究,超越成熟的CNN和transformer領域。

2021機器學習研究風向是啥?MLPCNNTransformerMLP!

MLP-Mixer的網路結構圖

作者提出一種基於多層感知機結構的MLP-Mixer,這是一種不使用注意力機制和卷積的網路。MLP-Mixer的體系結構完全基於多層感知機,將影象的空間位置或特徵通道上進行重複應用。MLP-Mixer僅依賴於基礎矩陣乘操作、資料排布變換(比如reshape、transposition)以及非線性層。

上圖給出了MLP-Mixer的網路結構圖。首先跟Vision Transformer的patch image過程一樣,將輸入尺寸為H×W×C的影象變為N×D的向量,其中P×P為影象塊的大小,N=HW÷P2,N是影象塊的數量,D是將影象塊reshape為固定長度的大小,為了避免由於影象塊設定大小不同,造成模型無法固定訓練的問題。然後由多個Mixer layer組成,其中Mixer layer使用兩種型別的MLP層:通道混合MLP和空間混合MLP。通道混合MLP允許不同通道之間的通訊;它們獨立地對每個空間位置進行操作。空間混合MLP允許不同空間位置之間的通訊;它們獨立地對每個通道上進行操作。在Mixer layer裡面也應用到跳躍連線。最後透過LayerNorm和全連線層進行輸出。

2021機器學習研究風向是啥?MLPCNNTransformerMLP!

論文連結:https://www。zhuanzhi。ai/paper/d502baa467057fcfb8a2dc212e0c6cc4

本文的工作主要將MLP作為卷積網路的一種通用元件實現多種任務效能提升(例如,將ResNet50中的3x3卷積替換成只有一半通道數量的RepMLP,可以實現同等精度下超過一半速度提升),不追求拋棄卷積的純MLP(本文只試驗了CIFAR上的純MLP,只取得了接近卷積網路的效果);恰恰相反,本文利用了卷積去強化FC,使其具備區域性性,因而更適用於視覺任務。

本文的方法可以在ImageNet、語義分割、人臉識別等資料集和相應任務上實現漲點,這些任務輸入解析度各不相同,有的具有平移不變性而有的不具備(本文認為FC和卷積主要的區別就在於是否平移不變);而谷歌的論文只做了幾個固定解析度輸入的影象分類實驗。

本文提出了一種多層感知機(MLP)模式的影象識別神經網路構造塊RepMLP,它由一系列全連線層(FC)組成。

2021機器學習研究風向是啥?MLPCNNTransformerMLP!

圖注:RepMLP的架構圖

與卷積層相比,FC層效率更高,更適合於建模長程(long-range)依賴關係和位置模式,但不適合捕獲區域性結構,因此通常不太適合用於影象識別。而本文提出了一種結構重新引數化技術,可以將區域性先驗加入到全連線層(FC)中,使其具有強大的影象識別能力。

2021機器學習研究風向是啥?MLPCNNTransformerMLP!

Facebook 也於近日提出了一種用於影象分類的純 MLP 架構,該架構受 ViT 的啟發,但更加簡單:不採用任何形式的注意力機制,僅僅包含線性層與 GELU 非線性啟用函式。

本文第一作者就是 DeiT 一作 Hugo Touvron 博士。他曾經針對視覺 Transformer 模型 ViT 需要大量資料集訓練的難題提出了DeiT模型,透過一組優秀的超引數和蒸餾操作實現了僅僅使用 ImageNet 資料集就能達到很強的效能,詳見下面連結。現在他又按照這個思路寫了一篇,針對視覺 MLP 模型 MLP-Mixer 需要大量資料集訓練的難題提出了 ResMLP 模型,透過殘差結構和蒸餾操作實現了僅僅使用 ImageNet 資料集就能達到很強的效能。

參考連結:

推薦文章