您現在的位置是：首頁 > 遊戲

微信版大語言模型來了：跨時空對話李白、教你高情商說話

由澎湃新聞客戶端發表于遊戲2023-02-03

WeLM 模型任務資料訓練

簡介最後再來總結一下，WeLM精通中文的同時掌握英日韓等多種外語、可以透過少樣本或零樣本學習執行全新任務，同時以合理尺寸做到與25倍引數量的模型相媲美使用成本較低，總之就是奔著實用性和大規模落地去的

谷歌開發者工具怎麼改成中文

原創關注前沿科技量子位收錄於合集#微信 2 個 #大模型 6 個

魚羊夢晨發自凹非寺

量子位 | 公眾號 QbitAI

大規模語言模型，微信版，來了！

並且甫一登場，就沒藏著掖著：

論文、API介面、線上試玩網站……一條龍全都齊備。

續寫文字、閱讀理解等常規任務就不說了，這個名叫WeLM的AI，竟然直接讓我和李白跨時空聊起了杜甫：

我：現在有一首關於你的歌，其中一句歌詞是「要是能重來，我要選李白」，請問你自己有什麼看法？

李白：我要選杜甫。這還不算完，WeLM甚至還治好了我不會聊天的毛病，分分鐘教會我如何高情商說話。

這麼一個AI，引數量不算大，目前處於百億水平。

但值得關注的是，實驗結果顯示，它在18箇中文語言任務裡，效果堪比引數量是其25倍的模型。

是不是有點手癢想上手一試了？先奉上鍊接，咱們再仔細說說，這波微信是怎麼做到的。

體驗連結：https：//welm。weixin。qq。com/docs/playground/

API介面：https：//welm。weixin。qq。com/docs/api/

論文地址：https：//arxiv。org/abs/2209。10372

「學富五車」的大模型

微信語言大模型WeLM，全名Well-Read Language Model，也就是「學富五車的語言模型」。

在翻譯任務上，WeLM不光可以做到基本的，甚至三語夾雜也難不倒它。

在文字續寫任務上，只需給出開頭就能生成適應不同風格的文字。

這種多語言、多工能力是怎麼做到的？

其實WeLM與著名的GPT-3是同類，都是自迴歸解碼器結構，微信團隊選擇這種結構就是看中其在海量資料中掌握無窮正規化的能力。

在具體實現方法上，WeLM還有兩項特色。

一是採用RoPE相對位置編碼，與傳統的固定位置編碼相比能更好處理長文字，比如理解整篇文章甚至整本書。

二是使用62k個token的SentencePiece並保留其中的空格和Tab，這樣更有利於下游任務。

使用這些方法，WeLM總共設計了從13億到100億引數的三個版本，可按需呼叫。

其中100億引數的滿血版WeLM在14項中文任務中整體表現超過同大小的模型，甚至在零樣本任務上超過比它大25倍的模型。

這其中最大的秘訣就是精心準備的高質量訓練資料上充分訓練，也就是「學富五車」的含義所在。

高質量訓練資料包括從Common Crawl下載的近兩年中文網頁、大量書籍、新聞、論壇資料和學術論文。

收集到的資料總量超過10TB，其中包含750G英文資料，中文中夾雜的英日韓語為了語義連貫也全部保留。

不過這還不算完，需要經過清洗、去重等一系列步驟才能算得上是高質量資料。

首先是去除噪聲和髒資料，結合使用規則和模型檢測後，超過87%的資料被過濾。

再利用SimHash演算法去重，進一步過濾掉40%的資料。

接下來要去除一切和測評相關的資料，保證公平性，以 17-gram 為檢測重複粒度再次過濾了0。15%的資料。

一系列處理後留下的資料量為262B tokens，最後再對這些資料進行不同比重的取樣，使資料平滑分佈在各個話題上。

對於預訓練，團隊認為當今多數大模型的訓練都不夠充分，WeLM 100億引數版的訓練量基本與1750億的GPT-3相當（300B tokens），在128張A100上訓練用了大概24天時間。

為了保證訓練效率，WeLM在訓練過程中還使用了完全可原地復現的形式，不管發生任何問題都能從最近的checkpoint恢復。

自1750億引數的GPT-3之後，語言模型規模越來越大，到今年穀歌的PaLM已經達到5400億，中文大模型同樣有這個趨勢。

可以看出微信團隊選擇了另一條路線，以高質量訓練資料和高效訓練做到「四兩撥千斤」的效果。

到這一步WeLM已經有了不錯的表現，不過接下來這個步驟再次將其零樣本泛化能力提到新的高度。

研究團隊針對76個數據集各人工撰寫10-20個Prompt，將原任務中的文字關係的標籤和輸入資訊轉化成流暢通順的自然語言形式，更符合自迴歸語言模型的訓練形式。

使用這些Prompt對模型微調後，相當於讓模型學會了面對多樣的Prompt該做什麼。如果遇到相似Prompt形式的全新任務，也可以有更穩定的表現。

實驗證明，在全量資料上微調後的模型在新的NLP任務上具備更優秀的零樣本遷移能力，同時也使得微調變為一項一勞永逸的工作。

最後，研究團隊還測試了WeLM的三個額外能力。

透過提供示例，WeLM可以對自己的決策作出解釋，不過這種能力不太穩定，還需要進一步探索。

透過簡單提問，WeLM可以對結果進行自我糾正和檢查能力，為後續提高效能提供了可能方向。

WeLM還表現出一定的記憶能力，如果輸入內容完美匹配前文，即使內容很長、出現頻次很低，模型依然可以準確的生成剩下的部分。

最後再來總結一下，WeLM精通中文的同時掌握英日韓等多種外語、可以透過少樣本或零樣本學習執行全新任務，同時以合理尺寸做到與25倍引數量的模型相媲美使用成本較低，總之就是奔著實用性和大規模落地去的。

同步開放線上體驗與API，也是希望有想法的開發者能方便的用起來，讓WeLM大模型真正實用的工具。

WeLM怎麼用

具體來說，WeLM線上Demo目前釋出的功能包括：對話-採訪、閱讀理解、翻譯、改寫、續寫以及自由任務。

在正式開始跟WeLM玩耍之前，記得要先給模型扔一段簡單的「範文」，也就是「prompt」。

線上網站會給出一些預設的prompt，你也可以自行修改設計。需要遵循的設計原則是：

第一，描述清楚；第二，例子具備代表性（多個例子更好）。

以文字分類任務為例，prompt應該長這樣：

其中的技巧包括，首先，把分類任務用自然語言清晰地表達出來，在上面這個示例中，「微博」即為輸入，「類別」即為輸出。

其次，在第一句的指令型描述中，需要把可能的分類結果都列出來。

最後，如果效果不佳，可以嘗試加入更多例子，讓WeLM更清楚你到底想要做怎樣的任務。

另外，正如前文所說，WeLM擁有零樣本學習能力。

所以直接把它當作問答搜尋引擎來用，也不是不行（手動狗頭）。

如果你還想得到更多樣化的生成結果，token數量、temperature等引數均可調整。

更重要的一點是，WeLM已開放API介面。也就是說，如果身為開發者的你想在自己的App裡用上這個大模型，填寫調查問卷註冊即可。

One More Thing

說起來，這樣的大模型要是真的落地應用了，媽媽豈不是再也不用擔心我因為不會聊天而母胎solo ？

比如說……

你還有什麼有趣的腦洞？大膽招呼起來~

— 完 —

原標題：《微信版大語言模型來了：跨時空對話李白、教你高情商說話，API線上試玩全都有》

上一篇：幕後玩家：這才是五一檔最好看的電影，全程無尿點！

下一篇：“非誠勿擾”火了九年，全是託？你知道這些女嘉賓從哪來的嗎？

您現在的位置是：首頁 > 遊戲

微信版大語言模型來了：跨時空對話李白、教你高情商說話

相關文章

推薦文章