您現在的位置是:首頁 > 人文

北大攜位元組跳動搭建古籍數字化平臺 免費開放智慧圖書館

由 億邦動力 發表于 人文2022-10-20
簡介據“識典古籍”專案負責人介紹,該平臺當前主要使用了三種技術,包括文字識別、自動標點和命名實體識別

和藹可親什麼意思解釋

【億邦原創】10月11日,由“北京大學—位元組跳動數字人文開放實驗室”研發的古籍數字化平臺“識典古籍”測試版正式上線。目前,該平臺涵蓋390部經典古籍,主要來自《四部叢刊》,共計3000多萬字,即日起向公眾免費開放。未來三年,“識典古籍”將陸續完成一萬種古籍的智慧化整理工作,基本覆蓋儒家、道家和佛學的核心典籍目錄,屆時將全部免費開放。

北大攜位元組跳動搭建古籍數字化平臺 免費開放智慧圖書館

據瞭解,上述實驗室系今年3月北京大學與位元組跳動合作成立,將人工智慧技術應用於古籍資源的智慧化整理。“識典古籍”平臺上線,即是雙方合作的最新進展。

當前,中國的古籍數字化還處於初級階段,面臨技術難度高、資金缺口大、人才緊張等難點。相關資料顯示,現存的20多萬種古籍中,只有8萬種完成影像數字化掃描,近4萬種完成文字數字化。據專家統計,從1949年到2019年,國內共修復整理出版古籍近3。8萬種,要將現存古籍全部修復整理出來,可能需要300年時間;若利用人工智慧技術輔助修復整理,大概二三十年就能完成。

北大攜位元組跳動搭建古籍數字化平臺 免費開放智慧圖書館

據“識典古籍”專案負責人介紹,該平臺當前主要使用了三種技術,包括文字識別、自動標點和命名實體識別。文字識別技術,是對古籍的影印版文字進行單個切分,再進行文字識別和順序識別。自動標點技術,是透過序列標註的方式對古籍自動進行標點劃分。命名實體識別技術,則是透過序列標註識別文字中的人名、地名、書籍、時間、官職等資訊。據悉,目前行業內OCR識別準確率平均為93%至94%,“識典古籍”的準確率為96%至97%。

與其他古籍數字化平臺相比,“識典古籍”具有自身的特點,頁面簡潔,瀏覽流暢,提供影印底本作為參照,還具備主題詞檢索和繁簡體轉換功能,便於專業研究人員、廣大古籍愛好者使用。同時,“識典古籍”書目將持續更新,後續將上線手機移動版。

未來,“識典古籍”將向全社會開放古籍閱讀檢索研究能力,還將實現全自動整理校對,更高效地實現存量古籍全部數字化。同時,平臺也鼓勵擁有文獻的學者自行上傳文獻,使用者甚至可參與再創作和再闡釋,助力古籍文化傳承和研究。

推薦文章

  • 每日一證 ● 滿月汗蒸師

    在月子裡的恢復期筋骨逐步閉合,風寒侵入體內,難以排出,滿月汗蒸具有中醫學原理,不用吃藥就能治病,利用中醫穴位開啟經絡,中藥燻蒸,促進血液迴圈,疏散風寒通絡下乳,已達到補氣血,燃燒脂肪美化肌膚,增強免疫力恢復產後健康等...

  • 馬來西亞詩巫老街匠人:最美的人文風景

    昇記由陳良華的父親於1963年創立,早期曾經到民丹莪的森記餅家當學徒,習得一手好技藝後回到詩巫來開餅店...

  • 鄰居養雞擾民不認錯,在業主群裡被懟到無話可說

    鄰居養雞擾民不認錯,在業主群裡被懟到無話可說這個雞主在群裡的態度為什麼引了眾怒,就是你養雞是影響了大家的生活,本來是理虧的一件事,人家提出來不你改正,不道歉,還理直氣壯地說指責人家,還順帶著罵九零後和零零後兩批人,這是他為老不尊,不知好歹了...