您現在的位置是：首頁 > 遊戲

微軟亞洲網際網路工程院：大規模語言模型的技術趨勢和落地實踐

由雲科技時代發表于遊戲2022-05-02

簡介而預訓練技術和大規模語言模型，正在快速推動的自然語言處理領域的發展，使得大量應用落地成為了可能

outlook怎麼把文字框起來

在人工智慧領域，大規模語言模型正取得迅猛的發展。所謂大規模語言模型，即引數規模達到千億至上萬億的深度學習神經網路模型。大規模語言模型究竟有多神奇？被喻為“深度學習三巨頭”之一的Geoffrey Hinton，也是2018圖靈獎獲得者，就此詼諧評價：“生命、宇宙和萬物的答案，就只是4。398萬億個引數而已”。“4。398萬億”這個數字是如何得出的？其實，4。398萬億是2的42次方，而“生命、宇宙和萬物的終極答案是42”則是科幻小說《銀河系漫遊指南》中的經典橋段。4。398萬億雖然沒有什麼科學依據，但Geoffrey Hinton的評論足以讓大規模語言模型獲得廣泛的關注。

2018年底BERT模型的問世，標誌著大規模語言模型的誕生。基於BERT，OpenAI推出了GPT2模型，達到了15億引數。GPT2模型是首次引數達10 億量級，後面就越來越像軍備競賽： 2020年3月，微軟推出了圖靈模型，引數量達到了170億；三個月後的GPT3又把引數量翻10倍，達到1780億；之後，谷歌的Switch Transformer達到了萬億引數。在中國，華為盤古達到了1000億、鵬程盤古-α達到2000億，阿里達摩院M6達到1萬億，智源悟道達到1。75萬億。

那麼，現在的大規模語言模型都有哪些技術趨勢以及哪些落地實踐？微軟全球合夥人、微軟亞洲網際網路工程院副院長、首席科學家姜大昕博士在近期的華泰證券“行知”新經濟雲峰會數字科技專場，介紹了大規模語言模型的技術趨勢和落地實踐。姜大昕表示，目前NLP自然語言處理處於一個美好的時代，雖然還有很多問題沒有解決，但已經有很多成功的商業應用。隨著面向NLP的大規模語言模型的工程化落地，將開啟數字化轉型的新階段。

自然語言處理進入突破期

在人工智慧領域，自然語言處理並不是最熱門的領域。從市面上的投資分析來看，不論是投資金額還是公司數量，視覺識別和語音識別兩個領域才是大頭，自然語言處理了只佔據了較小的一部分。不過姜大昕表示，在人工智慧領域，都同意這樣一個說法，即自然語言處理是人工智慧皇冠上的明珠。一般認為，視覺和語音屬於感知智慧，自然語言處理屬於感知智慧之上的認知智慧，不僅屬於高階智慧，也是通向真正人工智慧的必由之路。

自然語言處理（NLP）的領域包括自然語言理解（NLU）、文字分析、搜尋引擎、知識圖譜、對話管理系統、推薦系統、基於知識庫的問答系統、基於搜尋的問答系統等，可廣泛應用在機器翻譯、廣告、人機互動、金融、客服、物流等領域。由於自然語言處理對於認知智慧的重要性，學術界和工業界對於自然語言處理技術的追求就沒有停止過。

其中，有影響力的工作包括2003年Yoshua Bengio提出的一個神經網路語言模型，他也是2018圖靈獎獲得者、“深度學習三巨頭”之一，但這個模型訓練起來比較慢，所以並沒有流行起來。十年後的2013年，Mikolov發明了詞向量模型，極大簡化和加速了Bengio模型，該模型非常簡單且在實踐中的效果非常好，雖然並不算是深度學習模型，但在當時成為了自然語言處理的一個標配。接下來的幾年，自然語言處理一直在借鑑視覺識別和語音識別領域的重大突破性技術，比如迴圈神經網路、卷積神經網路、殘差網路、生成對抗網路等等，這些技術起源於視覺和語音，但都被成功地移植到了自然語言處理領域。

針對語言自身的特點，自然語言處理領域也創新了一些獨有技術來處理文字，例如序列到序列模型、注意力機制以及Transformer，近期像Transformer技術甚至反哺回了視覺識別和語音識別領域。但對於自然語言處理領域而言，至少在2017年的時候，顛覆性革命似乎還沒有到來。

在視覺識別和語音識別領域，2015年和2017年是一個分水嶺。2015年，微軟亞洲研究院孫健博士所在的團隊創造了一個深達152層的殘差網路ResNet，在世界公認的影象識別資料集ImageNet上，將影象識別的錯誤率降低到了3。57%，而人類的錯誤率大概是5。1%。換句話說，在影象識別領域，2015年的時候，人工智慧已經獲得了超越人類的水平。到了2017年，語音識別領域也取得了歷史性的成果——在全球最權威的產業標準 Switchboard語音識別資料集上，微軟語音識別系統將錯誤率降低到了5。1%，首次比人類的錯誤率還要低。這是人工智慧第一次在語音識別領域達到人類的水平，同時也標誌著人工智慧在語音領域取得了重大的突破。

當視覺識別和語音識別先後達到人類水平以後，自然語言處理是不是也能夠取得類似的重大突破？能夠在一些代表性的任務上也達到人類的水平？2018年底，一個叫做BERT的模型出世，橫掃NLP任務各大榜單，比如在斯坦福著名的閱讀理解測試集上超越了人類的準確率。

集大成的大規模語言模型

那為什麼BERT模型這麼厲害？姜大昕認為，BERT模型正好站在了一個爆發點上，可以說是站在巨人肩膀上的集大成者。在BERT之前，深度學習在自然語言處理領域已經取得了很好的發展，BERT可以說是把這些成果整合到一個模型裡面，因此就顯得特別的強大。

BERT模型的優點到底在哪裡？首先，BERT作為一個深度神經網路，其特點是能夠自動地從資料當中抽取有效的特徵表示，從而避免了人工設計特徵也叫特徵工程這樣一個費時費力的步驟。

第二個是BERT採用了自監督學習的方式。它發明了一個能夠自己構造訓練資料的方法，可以利用海量網際網路上的網頁資料作為訓練資料集，這樣就避免了過擬合的問題，從而可以訓練上億引數的大模型。

第三個特點，BERT模型採用了預訓練加微調的新正規化，這開創了自然語言處理的新正規化，學界和業界認為這正式宣告了所謂大規模預訓練模型時代的到來。以前進行自然語言處理的任務，往往需要根據不同任務而選擇相應的模型，而不同任務的模型往往也不同，這樣會導致不同訓練任務的訓練資料無法共享，那麼意味著每個任務只能從零始訓練模型；此外訓練出來的模型也只能為特定的任務服務，不同任務的模型無法混用，因此只能為特定的任務用小資料訓練小模型，這樣就極大地限制了自然語言處理技術的應用。

而BERT模型的特點在於將訓練拆分成了兩步。第一步叫做預訓練，也就是用自監督方法學習語言特徵表示得出的模型，就被稱為是大規模的預訓練語言模型，這個預訓練模型可以從大量的文本當中學到許多語法知識、語義知識，這些知識都被儲存到了模型的幾億個引數當中。儘管人類很難解讀這些知識，但是這些知識確實可以幫助模型更好地執行不同自然語言處理的任務。當透過第一步得出預訓練模型後，再處理給定的特定的自然語言處理任務，只需要用比較少的訓練資料，就能夠在目標任務上達到較好效果。後面這一步就是從預訓練模型到訓練出特定下游任務的模型，這一階段被稱為是模型的微調。姜大昕形象地比喻，預訓練模型就像是本科生學習各種基礎課，而微調則像是研究生學習專業課，如果基礎知識掌握得比較牢固，那麼學習專業課就比較容易了，這是BERT的主要思想。

BERT模型問世以後，預訓練模型在不停的發展，微調手段也有不同的變化，但是預訓練加微調的兩階段訓練方式就成為了當前自然語言處理的主流，被認為是自然語言處理的新正規化。當然BERT還借鑑了其它的一些成果，比如用到了Transformer裡的Full Self-Attention（完全自注意力）。

BERT模型的出現宣告了預訓練時代的到來。各大公司都延著BERT思路，將模型做得越來越大，能力也越來越強。可以說大規模語言模型的引數正在呈指數級增長，非常類似摩爾定律。而預訓練技術和大規模語言模型，正在快速推動的自然語言處理領域的發展，使得大量應用落地成為了可能。

大規模語言模型的工業化落地實踐

姜大昕所在的微軟亞洲網際網路工程院，目前主要負責微軟全球產品的研發工作，包括微軟的必應搜尋引擎、智慧語音助手、Azure認知服務以及Microsoft 365的自然語言理解系統等。姜大昕介紹，對於包括大規模語言模型在內的各種人工智慧模型落地實踐工作，微軟亞洲網際網路工程院主要透過自研的Carina AI平臺，幫助中國企業落地和實踐人工智慧技術。

微軟亞洲網際網路工程院主要在微軟內部主要負責全球產品的模組技術打磨，無論是微軟搜尋引擎或者是微軟辦公系統，都是非常龐大的系統，有上千人的開發團隊，微軟亞洲網際網路工程院團隊主要是透過各種演算法提高微軟產品的效能指標。不過對於服務外部客戶，還缺乏對企業需求的真正瞭解。約在四年前，微軟亞洲網際網路工程院開始和企業合作，共同探討數字化轉型的道路，透過接觸很多的企業和政府部門，發現數字化轉型的共同痛點，比如無論是自建AI能力還是採購AI解決方案都有一定的問題，包括技術黑盒、可拓展性差、無法與自建系統進行深度整合以及開發人員成本昂貴、技術門檻較高等等。

經過一段時間的討論以後，微軟亞洲網際網路工程院找到了兩個路線之間的折中路線，這就是Carina AI平臺。Carina AI平臺包含四層：資料層、平臺層、工具層和業務層，微軟亞洲網際網路工程院主要負責開發平臺層和工具層，企業團隊或是業務人員在平臺和工具之上，根據具體的業務場景開發相應的應用。這樣，企業可以享受到成熟技術的好處，同時微軟作為廠商也不需要特別深入理解企業的具體業務。

實際上，Carina AI平臺是吸取了微軟內部AI平臺的精華，開放出來給所有企業提供一套開發環境。在微軟內部，有專門的團隊負責類似的AI平臺，給所有內部人員提供強大的開發環境支援，經過多年實踐和不斷開發驗證以及改進已經變得穩定好用，可以穩定支援上千人同時協同開發。具體來看，Carina AI的平臺層是圍繞著機器學習模型的生命週期，為開發人員提供模型的開發和部署的環境與工具，整體框架包含了四個平臺——訓練平臺、部署平臺、排程平臺和共享平臺。

目前Carina AI平臺已經服務於多個客戶，也得到了非常好的反饋。例如與華泰證券合作的例子，部署在華泰的Carina AI平臺面向資訊科技部和相關業務部門，平均每天的使用人數約為上百人，目前該平臺已經穩定運行了三年多，主要提供的功能包括統一排程資料和計算資源，提供資料科學開發平臺和大資料的量化分析等，有效提升了整體的業務分析能力和策略研究的效率。

在平臺層之上是工具層，Carina平臺的工具層提供各種自然語言處理任務的模型、呼叫介面和定製化工具，賦能業務層構建各種場景下的應用。

在實踐當中，Carina平臺的工具層主要解決了三個挑戰。首先是自然語言處理任務種類非常多，演算法也不一樣。例如語法分析、語義分析等，每個類別下面也有很多應用，比如語法分析之下有分詞、詞性標註、依存分析等等。如何很好地涵蓋這麼多的任務？這是一個挑戰。

第二個挑戰是訓練自然語言處理模型，需要大量的標註資料。這些標註資料的代價往往非常昂貴，而且工業級應用追求高質量模型，高質量的模型就需要高質量的標註，但是標註質量越高也就意味著代價越昂貴。這是第二個挑戰。

第三個挑戰就是通用模型往往在細分領域表現不佳。即使是同一個任務，在不同的領域也需要適應。那麼如何根據領域的特點，靈活地加入領域知識的最佳化模型？這也是一個挑戰。

為了應對三大挑戰，Carina平臺的工具層制定了四步走策略。第一步是訓練大規模的預訓練模型。第二步在預訓練模型的基礎上對不同的任務進行微調。第三步是針對不同的領域進一步進行微調。最後一步是把大模型透過知識蒸餾的方法進行壓縮成為小模型，然後部署上線。

第一步，預訓練大規模語言模型，Carina採用了微軟自己的圖靈模型。也就是在2020年3月份釋出的具有78個Transformer層、引數量達到170億的微軟圖靈模型。該模型在當時釋出的時候，是世界上最大的預訓練模型。Carina透過一系列的硬體和軟體加速，將該超大規模的模型訓練出來。超大規模的圖靈模型為Carina處理後面所有任務，打下了很好的基礎。

第二步，對大規模語言模型進行微調。針對不同任務進行微調時，就需要標註資料，不同任務的標註資料是不一樣的。Carina使用了微軟自有產品資料作為微調基礎，例如必應搜尋引擎用到了大量不同型別的自然語言處理任務，已經累積了大量的標註資料。除了搜尋引擎之外，Office、Dynamics、Linkedin甚至是 Xbox也都有積累的標註資料。有了這些標註資料，可以說Carina平臺上的每一個任務的表現都是經過實戰檢驗的，能夠滿足工業級應用。

第三步，是要透過微調使得模型能夠適應特定的領域。在這一步，Carina平臺就不再貢獻現成的模型或者引數，而是提供工具讓平臺使用者能夠非常方便地加入領域知識和資料，使得模型能夠很好地適應不同的領域。

最後當模型完成微調後，仍是上千億引數的大規模模型，這是無法釋出的。所以最後一步還要對模型進行壓縮，以方便進行釋出。最常用的方法就是所謂的知識蒸餾，讓大模型產生訓練資料來訓練一個小模型，通常小模型只有幾十兆的模型引數，再經過軟體和硬體的最佳化以後，在實踐中即使在CPU上也能夠跑得起來。而Carina平臺上的“蒸餾”過程，可以做到一鍵式完成，對使用者來說是透明的。

目前Carina平臺已經服務多個客戶，包括券商、銀行、醫療、地產等多個行業。某商業銀行在Carina平臺上打造的NLP文字智慧中臺和MLOps工具鏈，主要是運用在銀行的智慧客服、智慧投研、智慧風控等等場景當中。某房地產公司採用Carina平臺作為人工智慧中臺，服務於智慧審圖、文件稽核、鋼筋清點等多個設計、法務、物業等方面的應用場景。

大規模語言模型的未來展望

針對大規模語言模型的未來，姜大昕認為概括來說有兩點：一是跨語言和多模態，這兩個方向目前是學術界和工業界都在努力攻關的熱點方向，有望在未來幾年時間內能夠得到較好的解決；二是常識和推理，仍然任重而道遠，可能是需要很長時間才能夠解決的。

首先是跨語言。機器學習領域經過了多年的發展，迎來了深度學習和大規模預訓練模型的爆發。近期，圖靈獎獲得者Raj Reddy教授認為，在未來十年的時間裡，機器翻譯的問題可以被徹底解決，徹底解決指的是包括小語種也能夠進行自由的互譯。

跨語言模型的現狀是什麼呢？它正在處於高速發展的時期。跨語言模型不僅僅是狹義上的機器翻譯，還包括支援上百種語言的自然語言處理任務模型。過去兩年中，在自然語言處兩大頂級大會ACL和EMNLP上，語言模型錄用的論文數量都超過了100篇，所以在學術界是一個非常活躍的領域。同時在工業界，跨語言模型也到了成熟落地的時期。以微軟產品為例，許多微軟產品都要求支援100多種語言、200多個地區。

看幾個微軟產品的例子。必應搜尋引擎目前是跨語言的，可以為世界上100多種語言、200多個地區提供這個搜尋服務；而在搜尋的同時，還為100多種語言提供自動拼寫糾錯功能。 Outlook郵件裡也有自動回覆功能，也就是如果使用者收到郵件，對方意圖非常明顯的話， Outlook會提供自動回覆框，透過點選回覆框的內容，就可以自動回覆了，該功能目前也支援絕大多數主流語言。Microsoft Teams裡面的智慧助手，可以與之進行語音互動，這個功能也為多個語言提供了語言理解服務，能夠準確地識別使用者的意圖。

姜大昕強調，跨語言模型在中國市場有很多機會，例如一帶一路的發展戰略，很多企業出海需要打通語言障礙，將出現潛在的應用場景。

微軟亞洲網際網路工程院進行了很多跨語言的研究和產品落地。從實踐來看，跨語言還存在幾個問題。一是對於語料豐富的大語言已經實現了工業級應用，但對於許多小語言，由於語料的貧乏，效果仍然不是很好，尤其是雙語平行資料的缺乏，因此處於五六十分的水平。所以研究的重點在於如何把大語言豐富的語料知識遷移到小語言上。二是即使對語料豐富的大語言來說，儘管已經有了工業級的應用，但在實際應用中也只達到八九十分的水平，而最後的10到20分很難拿到。

其次是多模態，也就是讓計算機擁有處理不同模態資訊的能力。模態包括語音、文字、影象、影片、知識等，每一個都是一個模態。以前，幾個模態平行發展，互相之間很少有交集。而出現大規模語言模型後，就可以互相交流，但很難用一個模型同時接收多個模態的輸入，這個以前是沒有的。

多模態學習，是當前人工智慧領域的一個熱點方向。多模態學習在工業落地方面，一個體現是搜尋引擎，比如在必應搜尋上用文字可以搜尋到圖片和影片，現在一大進步就是能夠很精確的定位到搜尋相關的影片上，這樣一個功能就需要文字和影片的資訊進行緊密的融合。多模態的應用也是非常多的，比如增強現實、虛擬現實、虛擬人類等方向。如果多模態的研究能夠取得突破的話，相信這些領域的應用也會得到飛躍式的發展。

當然，如果要讓機器理解常識的話，就得需要機器能夠把多種模態聯絡起來。因為人類獲得常識的途徑往往不是單純透過文字，而是透過自身在現實世界中的體驗，而體驗一定是多模態的。而如果讓機器獲得人類自身體驗比較困難的話，退一步能夠讓它觀察現實世界的體驗，對理解常識也會有所幫助，那麼觀察體驗也是多模態的。從這個意義上來說，多模態領域對推動整個通用人工智慧的發展，意義重大。當然了，多模態也遇到一系列挑戰，比如缺乏平行訓練資料、如何生成長序列、生成高精度序列等等，都是需要進一步的解決。

如果跨語言和多模態有希望在近幾年內取得突破的話，常識和推理涉及到通用人工智慧概念，那麼要想人工智慧在開放領域擁有常識和推理的能力，確實還是任重而道遠。因為如果在一個小範圍、一個閉域、一個具體的特定領域，讓人工智慧具有一定的常識和一定的推理能力，目前是可以辦到的。但是在開放領域怎麼擁有普適的常識和推理能力，這是非常難的。其實現在也經常看到，一不小心人工智慧就變成了人工智障。所以這方面許多學者也有很多的辯論，認為通用人工智慧的發展一定要透過腦科學、心理學、神經學多個科學的融合，這也是將來的一個方向。

整體來說：

目前自然語言處理處於一個美好時代，更是一個黃金時期，雖然還有很多問題沒有解決，但是已經有很多成功的商業應用。相信隨著大規模語言技術的進一步發展，一定能夠開啟數字化轉型的新天地，推進通往通用人工智慧之路。（文/寧川）

上一篇：原耽女孩真的太難撩了，我眼淚都笑出來了，帶你看絕美愛情

下一篇：國產戒菸藥上市，用藥10天有效果，不良反應小，幾周就能戒菸