您現在的位置是:首頁 > 人文

陳根:人工智慧,自然語言何處理?

由 陳根 發表于 人文2021-09-14
簡介20世紀50年代到70年代自然語言處理主要採用基於規則的方法,即認為自然語言處理的過程和人類學習認知一門語言的過程是類似的,彼時,自然語言處理還停留在理性主義思潮階段,以基於規則的方法為代表

電腦這個詞是什麼詞性

文/陳根

20世紀50年代,圖靈提出著名的“圖靈測試”,引出了自然語言處理的思想,而後,經過半個多世紀的跌宕起伏,歷經專家規則系統、統計機器學習、深度學習等一系列基礎技術體系的迭代,如今的自然語言處理技術在各個方向都有了顯著的進步和提升。

自然語言是指漢語、英語、法語等人們日常使用的語言,是人類社會發展演變而來的語言

,而不是人造的語言,自然語言是人類學習生活的重要工具。

自然語言在整個人類歷史上以語言文字形式記載和流傳的知識佔到知識總量的 80%以上。就計算機應用而言,據統計,用於數學計算的僅佔10%,用於過程控制的不到5%,其餘 85%左右則都是用於語言文字的資訊處理。

陳根:人工智慧,自然語言何處理?

自然語言處理(Natural Language Processing,NLP)是將人類交流溝通所用的語言經過處理轉化為機器所能理解的機器語言,

是一種研究語言能力的模型和演算法框架,是語言學和計算機科學的交叉學科,是實現人機間的資訊交流,是人工智慧、計算機科學和語言學所共同關注的重要方向。

自然語言的處理流程大致可分為五步

第一步,獲取語料。

第二步,對語料進行預處理,其中包括語料清理、分詞、詞性標註和去停用詞等步驟。

第三步,特徵化,也就是向量化,主要把分詞後的字和詞表示成計算機可計算的型別(向量),這樣有助於較好的表達不同詞之間的相似關係。

第四步,模型訓練,包括傳統的有監督、半監督和無監督學習模型等,可根據應用需求不同進行選擇。

第五步,對建模後的效果進行評價,常用的評測指標有準確率(Precision)、召回率(Recall)、F值(F-Measure)等。準確率是衡量檢索系統的查準率;召回率是衡量檢索系統的查全率;而F值是綜合準確率和召回率用於反映整體的指標,當 F 值較高時則說明試驗方法有效。

比爾·蓋茨曾說:

“語言理解是人工智慧皇冠上的明珠”

。可以說,誰掌握了更高階的自然語言處理技術,誰在自然語言處理的技術研發中取得了實質突破,誰就將在日益激烈的人工智慧軍備競賽中佔得先機。

作為一門包含著計算機科學、人工智慧以及語言學的交叉學科,自然語言處理的發展也經歷了曲折中發展的過程

1950 年圖靈提出的著名的“圖靈測試”,被認為是自然語言處理思想的開端。20世紀50年代到70年代自然語言處理主要採用基於規則的方法,即認為自然語言處理的過程和人類學習認知一門語言的過程是類似的,彼時,自然語言處理還停留在理性主義思潮階段,以基於規則的方法為代表。

然而,基於規則的方法具有不可避免的缺點,首先規則不可能覆蓋所有語句,其次這種方法對開發者的要求極高,開發者不僅要精通計算機還要精通語言學,因此,這一階段雖然解決了一些簡單的問題,但是無法從根本上將自然語言理解實用化。

70 年代以後,隨著網際網路的高速發展,豐富的語料庫成為現實以及硬體不斷更新完善,自然語言處理思潮由理性主義向經驗主義過渡

,基於統計的方法逐漸代替了基於規則的方法。

賈里尼克和其領導的IBM華生實驗室是推動這一轉變的關鍵,他們採用基於統計的方法,將當時的語音識別率從70%提升到90%。在這一階段,自然語言處理基於數學模型和統計的方法取得了實質性的突破,從實驗室走向實際應用。

從 20世紀 90年代開始,自然語言處理進入了繁榮期

。1993年7月在日本神戶召開的第四屆機器翻譯高層會議(MT Summit IV)上,英國著名學者William John Hutchins教授在他的特約報告中指出,自1989年以來,機器翻譯的發展進入了一個新紀元。

這個新紀元的重要標誌是在基於規則的技術中引入了語料庫方法,其中包括統計方法、基於例項的方法、透過語料加工手段使語料庫轉化為語言知識庫的方法等等。這種建立在大規模真實文字處理基礎上的機器翻譯,是機器翻譯研究史上的一場革命,它將會把自然語言處理推向一個嶄新的階段。隨著機器翻譯新紀元的開始,自然語言處理進入了它的繁榮期。

尤其是20世紀90年代的最後5年(1994一1999)以及 21世紀初期,自然語言處理的研究發生了很大的變化,出現了空前繁榮的局面

。這主要表現在三個方面。

首先,機率和資料驅動的方法幾乎成了自然語言處理的標準方法。句法剖析、詞類標註、參照消解和話語處理的演算法全都開始引入機率,並且採用從語音識別和資訊檢索中借過來的評測方法。

其次,由於計算機的速度和儲存量的增加,使得在語音和語言處理的一些子領域,特別是在語音識別、拼寫檢查、語法檢查這些子領域,有可能進行商品化的開發。語音和語言處理的算 法 開 始 被 應 用 於 增 強 交替 通 信(augmentative and alternative communication,AAC)中。

最後,是網路技術的發展對於自然語言處理產生了的巨大推動力。全球資訊網(World Wide Web,WWW)的發展使得網路上的資訊檢索和資訊抽取的需要變得更加突出,資料探勘的技術日漸成熟。而 WWW 正是由自然語言構成的,因此,隨著 WWW的發展,自然語言處理的研究變得越發重要。

如今,在影象識別和語音識別領域的成果激勵下,人們也逐漸開始引入深度學習來做自然語言處理研究

, 2013年,word2vec將深度學習與自然語言處理的結合推向了高潮,並在機器翻譯、問答系統、閱讀理解等領域取得了一定成功。

作為多層的神經網路,深度學習從輸入層開始經過逐層非線性的變化得到輸出。從輸入到輸出做端到端的訓練。把輸入到輸出對的資料準備好,設計並訓練一個神經網路,即可執行預想的任務。 RNN已經成為自然語言處理最常用的方法之一,GRU、LSTM等模型則相繼引發了一輪又一輪的自然語言識別熱潮。

推薦文章