甲骨文因年代久遠(yuǎn)、字形變化多樣、無傳世文獻(xiàn)可供對照等因素,對其識別一直是考古學(xué)面臨的難題。南方科技大學(xué)6位本科生運用圖像和文本處理、深度學(xué)習(xí)算法、創(chuàng)新的神經(jīng)網(wǎng)絡(luò)算法和生成對抗算法,結(jié)合甲骨文的形態(tài)、語義、上下文關(guān)聯(lián)等知識,實現(xiàn)甲骨文文字的自動識別、生成和檢索目標(biāo)。
甲骨文,指中國商朝晚期王室用于占卜記事而在龜甲或獸骨上契刻的文字,最早出土于距今3000多年的河南省安陽市殷墟遺址。識別甲骨文一直是困擾學(xué)術(shù)界的難題,為了解決這一問題,南方科技大學(xué)2018級本科生曾鳴、楊睦圳、魯昊天、汪煒、席睿翎和2017級張舒煜等6名同學(xué),在人文社科唐際根老師、計算機(jī)系劉江老師以及研究團(tuán)隊章曉慶、胡玙璠、鐘雯的指導(dǎo)下,以CS330《多媒體信息處理》課程學(xué)到的知識和技能為基礎(chǔ),嘗試用AI解讀甲骨文。
據(jù)介紹,他們首先建立了甲骨文數(shù)據(jù)庫,將已識別的甲骨文圖像及其對應(yīng)漢字收入庫中,目前已完成558個單字、1.8萬多張圖像的錄入。接著,采用經(jīng)典的深度殘差神經(jīng)網(wǎng)絡(luò)(ResNet)模型實現(xiàn)手寫甲骨文圖像識別的任務(wù);然后,選擇pix2pix生成對抗網(wǎng)絡(luò)(GAN)作為生成甲骨文的自動方法,用于增加樣本多樣性和生成一些未知甲骨文,其中基本網(wǎng)絡(luò)采用U-Net結(jié)構(gòu);最后,利用檢索算法將未知甲骨文圖像與已有的甲骨文對比,從數(shù)據(jù)庫檢索出未知甲骨文圖像。
本項目創(chuàng)新地開發(fā)多媒體信息處理和人工智能技術(shù)應(yīng)用于甲骨文的識別和生成,以考古學(xué)研究需求為導(dǎo)向,以多媒體信息處理和人工智能創(chuàng)新算法為核心,充分融合南方科技大學(xué)考古研究與多媒體人工智能算法創(chuàng)新的科研實力,體現(xiàn)了跨學(xué)科交叉融合的魅力與力量,實現(xiàn)了跨越學(xué)科邊界的思維碰撞與技術(shù)共享。目前,合作團(tuán)隊已經(jīng)著手開發(fā)可用于展示和互動的微信小程序,希望將甲骨文的識讀面向大眾,提升大眾對甲骨文的理解。
項目小組組長曾鳴說:“在甲骨文識別項目中,小組學(xué)習(xí)了甲骨文相關(guān)歷史和研究現(xiàn)狀,并把人工智能技術(shù)應(yīng)用到甲骨文。這次人文研究和計算機(jī)技術(shù)的結(jié)合,讓我們體會到交叉學(xué)科研究的魅力!”(記者 吳吉)