您現在的位置是:首頁 > 運動

總量比《康熙字典》還多,一個字有幾十種寫法......合合資訊用AI挑戰古彝文識別

由 文匯網 發表于 運動2023-01-27
簡介專案將根據上海大學古彝文研究員設計的四位元組編碼系統,引入合合資訊智慧文字識別技術,對異體字、變體字、誤用字和混用字等進行標註、識別、比對,並由此建立起精確的彝文古籍電子資料庫,在古彝文研究領域屬於首創

彥在康熙字典中多少畫

總量比《康熙字典》還多,一個字有幾十種寫法......合合資訊用AI挑戰古彝文識別

古彝文傳承至今已有數千年曆史,是世界上最古老的文字之一。合合資訊與上海大學社會學院今天簽署校企合作協議,雙方將合力完成以國家珍貴古籍《西南彝志》為中心的貴州古彝文影象識別及數字化校對專案(簡稱“古彝文數字化專案”)。

此前,在中國西南多家高校的共同努力下,規範和通用彝文的數字化工作取得了重要突破,而上海大學攜手合合資訊推進的古彝文數字化專案,更側重於對原生態彝文識別的攻堅克難。專案將根據上海大學古彝文研究員設計的四位元組編碼系統,引入合合資訊智慧文字識別技術,對異體字、變體字、誤用字和混用字等進行標註、識別、比對,並由此建立起精確的彝文古籍電子資料庫,在古彝文研究領域屬於首創。

總量比《康熙字典》還多,一個字有幾十種寫法......合合資訊用AI挑戰古彝文識別

亟待識別的古彝文,比《康熙字典》字數還多

彝文是雲南、貴州、四川等地的彝族人使用的文字,而“古彝文”專指在民間流通使用的原生態彝文。根據《滇川黔桂彝文字集》,目前記錄在冊的古彝文多達87046個。非母語研究者在翻譯古彝文時,通常需要在母語者的幫助下記音,再用漢語逐字直譯,最後採用漢語對整句話進行意譯。

由於古彝文尚未取得預留的Unicode編碼區段,數字化工程還處於起步階段,所以在印刷出版時,需由一位彝文繕寫員先將彝文字和國際編碼抄寫在書頁的左側,再將已輸入電腦的漢文譯文列印、剪下後貼上在相應彝文字的右側,形成目前常見的“四行體”彝漢文對譯,過程十分繁瑣。

古彝文與漢字並非一一對應關係,存在大量的異體字、變體字。在相對規範的漢譯本彝文典籍中就有至少15%的變體字,原稿中只會更多;每個字的異體寫法少則2-3個,多則幾十種。從總量上看,未經整理規範的古彝文字元數高達八萬七千多個,比《康熙字典》的四萬七千餘字還多。據古彝文數字化團隊研究人員透露,若想要找到某個字在一本古籍裡的全部樣例,手動查閱需要耗費一整天,如建立起完善的古彝文資料庫和翻譯系統,可極大提升研究效率。

總量比《康熙字典》還多,一個字有幾十種寫法......合合資訊用AI挑戰古彝文識別

“漢文古籍識別所面對的頁面殘損、字形複雜、字跡模糊等問題,在彝文古籍識別中全部存在,還有一些任務是更加特殊的。”合合資訊智慧技術平臺事業部副總經理郭豐俊博士提到,彝文古籍時常出現加字、替字、整句倒置、文字方向不統一等現象,給文字定位造成挑戰。再加上古彝文從未經過統一,異體字、變體字眾多。合合資訊將基於“AI+OCR”融合下的智慧文字識別技術,解決古彝文識別的版式檢測、影象處理和文字識別的難題。

在此前舉行的2021年、2022年世界人工智慧大會上,合合資訊用AI技術對甲骨文、西周鐘鼎文進行精準識別。郭豐俊表示,甲骨文和古彝文追溯源頭都屬於以刻畫符號表意的文字,兩種文字的識別方式有相通之處,此次古彝文數字化專案的開啟,也成為合合資訊智慧文字識別技術賦能文字保護及文化傳承的重要里程碑。

用科技開啟古彝文“傳統的新生命週期”

1950年,當代著名社會學家費孝通先生訪問貴州畢節時,率先認識到彝文古籍對理解西南邊疆歷史的重要性,並鼓勵籌建翻譯機構,也為當下的古彝文研究提供了支援。古彝文數字化專案發起人、上海大學人類學民俗學研究所講師邵文苑所在的上海大學社會學院,便長期設有費孝通田野調查專案資助計劃。

古籍數字化的過程同時也是保護古籍的過程。2017年,72位全國人大代表聯名建議實施中華古籍數字資源總庫體系建設工程,實現歷史文明的有序傳承。本次合合資訊與上海大學共同研究的《西南彝志》共計26卷,有“彝族歷史文化的百科全書”之譽,對研究彝族歷史、經濟、文化十分重要。

古彝文數字化的價值並不止步於學術研究。隨著我國小康社會的全面建成,人們對精神文化關注度日益提升,以民俗為主題的現代文藝創作、娛樂活動讓傳統文化煥發新的生機,例如中央歌劇院演繹的柯爾克孜族英雄史詩《瑪納斯》,既尊重了民族文化特色,又體現了新時代的風采。

邵文苑提到,古彝文文獻和口傳史詩中記錄了很多南詔古國、夜郎古國、巴蜀古國的奇聞異事,在理解典籍的基礎上,可以透過電影、音樂劇、浸入式戲劇等形式進行創作,或打造“元宇宙”世界、IP主題樂園,讓更多人跨越語種的隔閡,感受更多元的民族文化,傾聽獨具特色的中國故事。

“傳統也和人一樣有生老病死的過程,並和人一樣有通過後代延續‘生命’的能力,這種理論被稱為‘傳統的生命週期’。”邵文苑表示,智慧文字識別技術“牽手”傳統典籍研究,會是古彝文“傳統的新生命週期”的開始。

作者:徐晶卉

編輯:張天弛

*文匯獨家稿件,轉載請註明出處。

推薦文章