您現在的位置是：首頁 > 農業

2021機器學習研究風向是啥？MLPCNNTransformerMLP！

由 ZAKER汽車發表于農業2021-06-07

簡介現在他又按照這個思路寫了一篇，針對視覺 MLP 模型 MLP-Mixer 需要大量資料集訓練的難題提出了 ResMLP 模型，透過殘差結構和蒸餾操作實現了僅僅使用 ImageNet 資料集就能達到很強的效能

擬應用所學是什麼意思

就在2月份，Transformer還橫掃CV和NLP各種task。但到了5月份，似乎一切變了。近來，谷歌、清華、Facebook相繼發表了關於多層感知機（MLP）的工作，MLP→CNN→Transformer→MLP似乎已經成為一種大勢所趨。我們來看下最新的幾篇代表性論文。

12月：“影象識別也是Transformer最強（ViT）”

2月：“Transformer is All you Need”

3月：“Attention is not All you Need”

5月：“在MLP上的ViT並（MLPmixer）”

5月：“Convolution比Transformer強”

5月：“在MLP上加個門，跨越Transformer （Pay Attention to MLPs）”

論文地址：

https：//www。zhuanzhi。ai/paper/e5998092a5230ac12f4ee9e134e57020

谷歌大腦首席科學家、AutoML 鼻祖 Quoc Le 研究團隊將 gMLP 用於影象分類任務，並在 ImageNet 資料集上取得了非常不錯的結果。在類似的訓練設定下，gMLP 實現了與 DeiT（一種改進了正則化的 ViT 模型）相當的效能。不僅如此，在引數減少 66% 的情況下，gMLP 的準確率比 MLP-Mixer 高出 3%。這一系列的實驗結果對 ViT 模型中自注意力層的必要性提出了質疑。

他們還將 gMLP 應用於 BERT 的掩碼語言建模（MLM）任務，發現 gMLP 在預訓練階段最小化困惑度的效果與 Transformer 一樣好。該研究的實驗表明，困惑度僅與模型的容量有關，對注意力的存在並不敏感。隨著容量的增加，研究者觀察到，gMLP 的預訓練和微調錶現的提升與 Transformer 一樣快。

gMLP 的有效性，視覺任務上自注意力和 NLP 中注意力機制的 case-dependent 不再具有優勢，所有這些都令研究者對多個領域中注意力的必要性提出了質疑。

總的來說，該研究的實驗結果表明，自注意力並不是擴充套件 ML 模型的必要因素。隨著資料和算力的增加，gMLP 等具有簡單空間互動機制的模型具備媲美 Transformer 的強大效能，並且可以移除自注意力或大幅減弱它的作用。

整個模型具有空間門控單元（Spatial Gating Unit， SGU）的 gMLP 架構示意圖如下所示，該模型由堆疊的 L 塊（具有相同的結構和大小）組成。

谷歌原 ViT 團隊提出了一種不使用卷積或自注意力的 MLP-Mixer 架構，並且在設計上非常簡單，在 ImageNet 資料集上也實現了媲美 CNN 和 ViT 的效能。

卷積神經網路（CNNs）是計算機視覺的主流模型，近年來，基於注意力的網路，如vision transformer也得到了廣泛的應用。2021年3月4日，谷歌人工智慧研究院Ilya Tolstikhin， Neil Houlsby等人研究員提出一種基於多層感知機結構的MLP-Mixer並在頂會“Computer Vision and Pattern Recognition（CVPR）”上發表一篇題為“MLP-Mixer： An all-MLP Architecture for Vision”的文章。MLP-Mixer包含兩種型別的MLP層：一種是獨立應用於影象patches的MLP（即“混合”每個位置特徵），另一種是跨patches應用的MLP（即“混合”空間資訊）。當在大資料集上訓練時，或使用正則化訓練方案時，MLP-Mixer在影象分類基準上獲得有競爭力的分數，並且預訓練和推理成本與最先進的模型相當。作者希望這些結果能激發出更深入的研究，超越成熟的CNN和transformer領域。

MLP-Mixer的網路結構圖

作者提出一種基於多層感知機結構的MLP-Mixer，這是一種不使用注意力機制和卷積的網路。MLP-Mixer的體系結構完全基於多層感知機，將影象的空間位置或特徵通道上進行重複應用。MLP-Mixer僅依賴於基礎矩陣乘操作、資料排布變換（比如reshape、transposition）以及非線性層。

上圖給出了MLP-Mixer的網路結構圖。首先跟Vision Transformer的patch image過程一樣，將輸入尺寸為H×W×C的影象變為N×D的向量，其中P×P為影象塊的大小，N=HW÷P2，N是影象塊的數量，D是將影象塊reshape為固定長度的大小，為了避免由於影象塊設定大小不同，造成模型無法固定訓練的問題。然後由多個Mixer layer組成，其中Mixer layer使用兩種型別的MLP層：通道混合MLP和空間混合MLP。通道混合MLP允許不同通道之間的通訊；它們獨立地對每個空間位置進行操作。空間混合MLP允許不同空間位置之間的通訊；它們獨立地對每個通道上進行操作。在Mixer layer裡面也應用到跳躍連線。最後透過LayerNorm和全連線層進行輸出。

論文連結：https：//www。zhuanzhi。ai/paper/d502baa467057fcfb8a2dc212e0c6cc4

本文的工作主要將MLP作為卷積網路的一種通用元件實現多種任務效能提升（例如，將ResNet50中的3x3卷積替換成只有一半通道數量的RepMLP，可以實現同等精度下超過一半速度提升），不追求拋棄卷積的純MLP（本文只試驗了CIFAR上的純MLP，只取得了接近卷積網路的效果）；恰恰相反，本文利用了卷積去強化FC，使其具備區域性性，因而更適用於視覺任務。

本文的方法可以在ImageNet、語義分割、人臉識別等資料集和相應任務上實現漲點，這些任務輸入解析度各不相同，有的具有平移不變性而有的不具備（本文認為FC和卷積主要的區別就在於是否平移不變）；而谷歌的論文只做了幾個固定解析度輸入的影象分類實驗。

本文提出了一種多層感知機（MLP）模式的影象識別神經網路構造塊RepMLP，它由一系列全連線層（FC）組成。

圖注：RepMLP的架構圖

與卷積層相比，FC層效率更高，更適合於建模長程（long-range）依賴關係和位置模式，但不適合捕獲區域性結構，因此通常不太適合用於影象識別。而本文提出了一種結構重新引數化技術，可以將區域性先驗加入到全連線層（FC）中，使其具有強大的影象識別能力。

Facebook 也於近日提出了一種用於影象分類的純 MLP 架構，該架構受 ViT 的啟發，但更加簡單：不採用任何形式的注意力機制，僅僅包含線性層與 GELU 非線性啟用函式。

本文第一作者就是 DeiT 一作 Hugo Touvron 博士。他曾經針對視覺 Transformer 模型 ViT 需要大量資料集訓練的難題提出了DeiT模型，透過一組優秀的超引數和蒸餾操作實現了僅僅使用 ImageNet 資料集就能達到很強的效能，詳見下面連結。現在他又按照這個思路寫了一篇，針對視覺 MLP 模型 MLP-Mixer 需要大量資料集訓練的難題提出了 ResMLP 模型，透過殘差結構和蒸餾操作實現了僅僅使用 ImageNet 資料集就能達到很強的效能。

參考連結：

上一篇：專注柔性應用領域，則成電子精選層小IPO發行底價擬定為14.5元股

下一篇：伊洛納簡評：一半難度一半肝，自由打五折，你今天還在卡三魔石麼