您現在的位置是:首頁 > 運動

創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型效能創新高

由 金融界 發表于 運動2022-08-06
簡介這兩篇論文各自提出了“鍵-值記憶神經網路的中文分詞模型”和“基於雙通道注意力機制的分詞及詞性標註模型”,將外部知識(資訊)創造性融入分詞及詞性標註模型,有效剔除了分詞“噪音”誤導,大幅度提升了分詞及詞性標註效果,將該領域近年來廣泛使用的資料

多少這個詞的詞性

【TechWeb】7月8日訊息,全球自然語言處理領域(NLP)頂級學術會議 ACL 2020 今年線上舉辦,來自創新工場大灣區人工智慧研究院的2篇論文入選,這兩篇論文均聚焦中文分詞領域。

這兩篇論文分別是《Improving Chinese Word Segmentation with Wordhood Memory Networks》和《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》,由華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合夥人張潼,創新工場CTO兼人工智慧工程院執行院長王詠剛等人創作。

這兩篇論文各自提出了“鍵-值記憶神經網路的中文分詞模型”和“基於雙通道注意力機制的分詞及詞性標註模型”,將外部知識(資訊)創造性融入分詞及詞性標註模型,有效剔除了分詞“噪音”誤導,大幅度提升了分詞及詞性標註效果,將該領域近年來廣泛使用的資料集上的分數全部刷至新高。

今天,創新工場大灣區人工智慧研究院執行院長宋彥向媒體分享了這兩篇入選論文的研究內容。宋彥本人有超過15年的NLP領域的科研經驗。

據宋彥介紹,中文分詞和詞性標註是中文自然語言處理的兩個基本任務。近年來,隨著預訓練模型的提出,有一些人提出質疑是否還有必要進行中文分詞的處理,對此我們提出了不同的意見,尤其考慮到詞彙級別的資訊依然是中文資訊處理最重要的基礎。一個例子就是,雖然BERT大行其道,但是在中文上基於全詞覆蓋 (whole word masking)的預訓練模型比直接使用單字編碼的效果更好。

而創新工場的這兩篇文章用記憶神經網路的方式記錄對分詞結果有影響的 n元組,並引入對詞性標註有影響的句法知識,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網路的優勢,也把知識的優勢用上,實現了分詞技術上小而有效的改進和突破。

“鍵-值記憶神經網路的中文分詞模型” 重新整理中文分詞歷史性能

宋彥介紹,通常而言,中文語言因其特殊性,在分詞時面臨著兩個主要難點。

一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水平”,其正確的切分應為“部分/居民/生活/水平”,但存在“分居”、“民生”等歧義詞。“他從小學電腦技術”,正確的分詞是:他/從小/學/電腦技術,但也存在“小學”這種歧義詞。

二是未登入詞問題。未登入詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。

對此,《Improving Chinese Word Segmentation with Wordhood Memory Networks》論文提出了基於鍵-值記憶神經網路的中文分詞模型。

該模型利用n元組(即一個由連續n個字組成的序列,比如“居民”是一個2元組,“生活水平”是一個4元組)提供的每個字的構詞能力,透過加(降)權重實現特定語境下的歧義消解。並透過非監督方法構建詞表,實現對特定領域的未標註文字的利用,進而提升對未登入詞的識別。

例如,在“部分居民生活水平”這句話中,到底有多少可能成為詞的組塊?單字可成詞,如“民”;每兩個字的組合可能成詞,如“居民”;甚至四個字的組合也可能成詞,例如“居民生活”。

把這些可能成詞的組合全部找到以後,加入到該分詞模型中。透過神經網路,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像“部分”、“居民”、“生活”、“水平”這些詞都會被突出出來,但“分居”、“民生”這些詞就會被降權處理,從而預測出正確的結果。

鍵-值記憶神經網路分詞模型

在“他從小學電腦技術” 這句話中,對於有歧義的部分“從小學”(有“從/小學”和“從小/學”兩種分法),該模型能夠對“從小”和“學”分配更高的權重,而對錯誤的n元組——“小學”分配較低的權重。

為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。

實驗結果顯示,該模型在5個數據集(MSR、PKU、AS、CityU、CTB6)上的表現,重新整理最好成績(F值越高,效能越好)。

宋彥表示,與前人的模型進行比較發現,該模型在所有資料集上的表現均超過了之前的工作,“把中文分詞領域廣泛使用的標準資料集上的效能全部刷到了新高。”

和前人工作的比較

在跨領域實驗中,論文使用網路部落格資料集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。

基於雙通道注意力機制的分詞及詞性標註模型“有效剔除噪音誤導

第二篇論文《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》提供了一種基於雙通道注意力機制的分詞及詞性標註模型。

宋彥介紹,中文分詞和詞性標註是兩個不同的任務。詞性標註是在已經切分好的文字中,給每一個詞標註其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標註對後續的句子理解有重要的作用。

在詞性標註中,歧義仍然是個老大難的問題。例如,對於“他要向全班同學報告書上的內容”中,“報告書”的正確的切分和標註應為“報告_VV/書_N”。但由於“報告書”本身也是一個常見詞,一般的工具可能會將其標註為“報告書_NN”。

利用句法知識進行正確的詞性標註

句法標註本身需要大量的時間和人力成本。在以往的標註工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有雜音的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。

例如,在句子“他馬上功夫很好”中,“馬”和“上”應該分開(正確的標註應為“馬_NN/上_NN”)。但按照一般的句法知識,卻可能得到不準確的切分及句法關係,如“馬上”。

斯坦福大學的自動句法分析工具結果,分成了“馬上”

針對這一問題,創新工場的論文提出了一個基於雙通道注意力機制的分詞及詞性標註模型。

該模型將中文分詞和詞性標註視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。

這樣一來,那些不準確的,對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有噪音的資訊誤導。

基於“雙通道注意力機制”的分詞及詞性標註

即便在自動獲取的句法知識不準確的時候,該模型仍能有效識別並利用這種知識。例如,將前文有歧義、句法知識不準確的句子(“他馬上功夫很好”),輸入該雙通道注意力模型後,便得到了正確的分詞和詞性標註結果。

分詞及詞性標註例項

為了測試該模型的效能,論文在一般領域和跨領域分別進行了實驗。

一般領域實驗結果顯示,該模型在5個數據集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(F值)均超過前人的工作,也大幅度超過了斯坦福大學的 CoreNLP 工具,和伯克利大學的句法分析器。

即使是在與CTB詞性標註規範不同的UD資料集中,該模型依然能吸收不同標註帶來的知識,並使用這種知識,得到更好的效果。

該模型在所有資料集上均超過了之前的工作

CTB5(CTB5是使用最多的中文分詞和詞性標註的資料集)結果

而在跨領域的實驗中,和斯坦福大學的 CoreNLP 工具相比,該模型也有近10個百分點的提升。

跨領域分詞實驗(對話測試集)的結果

宋彥總結道,“從技術創新的角度,我們的貢獻主要有兩點。一是在現有技術的基礎上,建立了一個一體化的模型框架,使用非監督方法構建詞表,並把知識(資訊)融入進來,使用更高層次的句法知識,來幫助詞性標註,起到‘他山之石,可以攻玉’的效果。二是主動吸收和分辨不同的外部知識(資訊)。透過鍵-值記憶神經網路和雙通道注意力機制,進行動態權重的分配,能夠有效分辨知識,區分哪些是有效的,哪些是無效的。雖然這些知識是自動獲取的、不準確的,但‘三個臭皮匠,頂個諸葛亮’,經過有效利用,總能湊出一些有用的資訊。如何實現模型的主動吸收和分辨,就變得更加重要。”

一直以來,創新工場致力於銜接科技創新和行業賦能,做嫁接科研和產業應用的橋樑,為行業改造業務流程、提升業務效率。對中文分詞技術的研究也是如此。

在宋彥看來,中文分詞和詞性標註是最底層的應用,對於接下來的應用和任務處理非常重要。例如對於文字分類、情感分析,文字摘要、機器翻譯等,分詞都是不可或缺的基本“元件”。

“在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。”宋彥強調。

宋彥以搜尋引擎的廣告系統為例向TechWeb介紹,論文提及的新模型可以有效地實現廣告在不同領域進行內容匹配的冷啟動。“以現有模型,比方說在新聞領域學到的模型,如果碰到一個體育領域的廣告,那麼這個時候其中很多詞會沒辦法正確切分出來。但是在使用我們的模型時候,在新領域進行廣告內容推薦,可以講新領域的知識和事先準備的關鍵詞等,加入我們的模型,從而把目標文字中一些比較有效的關鍵詞,透過更好的分詞結果呈現出來,而這些關鍵詞,可能會匹配到使用者輸入的一些詞,或者說使用者在特定的網頁瀏覽背景下面他所碰到的一些內容。所以如果分詞結果正確,就能夠有效的把這兩部分內的內容銜接,使得使用者在搜尋的時候,得到的廣告內容跟搜尋結果是匹配的。”

目前,這兩篇論文的工具都已經開源。

分詞工具: https://github。com/SVAIGBA/WMSeg

分詞及詞性標註工具: https://github。com/SVAIGBA/TwASP

推薦文章

  • 古代貴族飯桌上,有哪些流傳至今的「點心」?

    古代貴族飯桌上,有哪些流傳至今的「點心」?作者:文刀半瞎經典的古代食譜有《清異錄》、《食經》、《本心齋食譜》、《山家清供》、《飲膳正要》、《飲食須知》、《雲林堂飲食制度集》、《易牙遺意》、《隨園清單》、《四時食制》等...

  • 沒有在長夜痛哭過的人,不足以談人生

    因為,沒有經歷的人,心靈永遠是一片蒼白...

  • 英氏憶格—呵護寶寶嬌嫩腸胃

    一、12345,輔食分階精準餵養不同時期的寶寶,生長髮育所需的營養物質各不相同,英氏憶格聯合中國婦幼保健協會聯合推出“輔食5階精準餵養體系”,結合嬰兒生長髮育特點,將其關鍵體徵分為了五個階段:1、能坐了2、愛咬了3、爬的溜4、能獨站5、走得...