4月15日,記者從吉首大學獲悉,以陳炳權(quán)老師為主導的秦簡數(shù)智化科研團隊正緊鑼密鼓完善國內(nèi)首個面向深度學習任務(wù)的秦簡字符與文本大規(guī)模數(shù)據(jù)庫,擬待時機成熟時上線發(fā)布。該數(shù)據(jù)庫名為“Deepseek-QinjianDatabaseV1.0”。據(jù)悉,該數(shù)據(jù)庫是國內(nèi)首個專門用于秦簡數(shù)智化全方位研究的大規(guī)模數(shù)據(jù)庫,一旦成功上線發(fā)布,將大幅提升我國古文字學家、歷史學家、考古學家對秦代文字、歷史和考古研究效率。
該數(shù)據(jù)庫是由吉首大學陳炳權(quán)老師科研團隊花費近6年時間構(gòu)建而成,該庫涵蓋了湖南、湖北、甘肅、北京、四川等國內(nèi)所有出土的秦簡文獻資料,目前還在不斷豐富與完善中。與此同時,陳炳權(quán)老師已聯(lián)合相關(guān)國內(nèi)考古研究院與出版社,擬采用邊建邊發(fā)布邊推出邊上線方式,共同構(gòu)建國內(nèi)首個面向深度學習任務(wù)的秦簡數(shù)智化線上大規(guī)模數(shù)據(jù)庫。截至發(fā)稿日期,“Deepseek-QinjianDatabaseV1.0數(shù)據(jù)庫”共包含17269張文本圖像,共標注115996個字符,涵蓋2847個古文字類別。該數(shù)據(jù)庫按照秦簡字符對應(yīng)于現(xiàn)代漢字聲母順序排列,如同新華字典一般,可以通過聲母拼音查詢到不同字形對應(yīng)的不同秦簡文字圖像與所在文本字符,為我國秦簡數(shù)字化、數(shù)據(jù)化和數(shù)智化保護、傳承研究提供了系統(tǒng)、全面、可靠、標準的數(shù)據(jù)資源支持。隨著湖南省里耶秦簡考古工作的持續(xù)進行,越來越多的秦簡將重見天日,該數(shù)據(jù)庫的真實單字字形容量有望突破100萬樣本大關(guān),其真實文本容量突破20萬條,將徹底滿足目前深度學習大模型對訓練、測試、驗證樣本數(shù)量的要求。該項工作由吉首大學秦簡研究院和通信與電子工程學院以陳炳權(quán)老師為主導的秦簡數(shù)智化科研團隊開展實施,由相關(guān)出版社與考古研究院提供相關(guān)電子數(shù)據(jù)資源支持。屆時,擬將邀請西北師范大學、安陽師范大學等古文字數(shù)字化相關(guān)專家參與上線發(fā)布指導工作。
秦簡是中國秦代記錄文字、歷史、政治、經(jīng)濟等信息的重要載體,主要包括木牘、竹簡、絲帛等,其歷史可追溯至戰(zhàn)國時期的秦國以及中國第一個大一統(tǒng)的封建王朝——秦朝。由于簡牘長期深埋在潮濕的地下,部分甚至長年浸泡在水井之中,字跡模糊、字符殘損等問題十分普遍,嚴重影響到我國考古工作者、文字學專家和歷史學專家對秦簡文字識別與歷史還原工作的開展。而現(xiàn)有的古文字數(shù)字化技術(shù)雖在甲骨文、蒙文、西夏文字、維吾爾語等文字領(lǐng)域取得系統(tǒng)性突破,但在秦簡字符識別、修復、釋義、生成、分析理解等方面仍缺乏高質(zhì)量、標準化、完整性的數(shù)據(jù)庫支撐,嚴重地制約著深度學習技術(shù)在該領(lǐng)域的進一步研究與廣泛應(yīng)用。
“Deepseek-QinjianDatabaseV1.0數(shù)據(jù)庫”的構(gòu)建與擬發(fā)布正是為了解決這一問題。吉首大學秦簡數(shù)字化研究團隊一直堅守“里耶秦簡數(shù)智化研究,賦能文化保護傳承”這一初心,耗費近6年時間構(gòu)建了國內(nèi)首個秦簡文字與文本數(shù)據(jù)庫,填補國內(nèi)目前無標準性、全面性、規(guī)范性、系列性秦簡數(shù)據(jù)庫的空白。該數(shù)據(jù)庫由國內(nèi)知名秦簡古文字專家與吉首大學秦簡數(shù)字化科研團隊聯(lián)合共同標注,確保字符與文本釋讀準確性和機器可讀性。此外,“Deepseek-QinjianDatabaseV1.0數(shù)據(jù)庫”的構(gòu)建與設(shè)計考慮到秦簡通假字、異體字、底紋復雜、殘簡斷簡素簡居多等復雜因素,采用數(shù)字化處理與深度學習技術(shù)對其進行提質(zhì)與擴容,使得該數(shù)據(jù)庫具備良好的深度學習模型泛化能力與自適應(yīng)性。此舉對推動人工智能在秦簡文字、歷史、考古等研究領(lǐng)域的應(yīng)用具有重要的現(xiàn)實意義,對于深挖秦簡的文字價值、歷史價值、政治價值、學術(shù)價值、時代價值、科學價值具有重要的理論指導意義。
“Deepseek-QinjianDatabaseV1.0”數(shù)據(jù)庫經(jīng)過無死角全覆蓋采集(包括人工采集)、清洗、標注、分類、篩選、排序、專家校準等系列環(huán)節(jié),其數(shù)量與質(zhì)量已達到深度學習任務(wù)基本要求。在此數(shù)據(jù)庫基礎(chǔ)上,吉首大學以陳炳權(quán)老師為主導的科研團隊已產(chǎn)出包括國家自然科學基金、科技與學位論文、發(fā)明專利、國際學術(shù)交流會議論文在內(nèi)近30項各類科研階段性成果,并培養(yǎng)了12名具有文博人才素養(yǎng)的碩士研究生,其中6名畢業(yè)生均在國內(nèi)高校、科研院所、國企、央企等單位順利就業(yè),成為所在單位人才培養(yǎng)與技術(shù)研發(fā)的骨干力量。
據(jù)報道,2025年2月19日,湖南省社科研究基地“里耶秦簡研究院”在吉首大學揭牌成立,展現(xiàn)出湖南省在深入挖掘秦簡歷史價值、推進中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化與創(chuàng)新性發(fā)展方面邁出的堅定步伐。該校陳炳權(quán)老師從今年全國兩會期間湖南省代表團的11個議案中獲悉,在譽為“秦簡之都”的湖南成立“中國簡牘中心”這一議案引發(fā)全國各界熱議,而該數(shù)據(jù)庫將會為“中國簡牘中心”落戶湖南提供全方位、寬領(lǐng)域、強有力的基礎(chǔ)數(shù)據(jù)與技術(shù)支持。未來,以陳炳權(quán)老師為主導的秦簡數(shù)智化科研團隊將進一步豐富完善該數(shù)據(jù)庫,爭取早日線上推出“Deepseek-QinjianDatabaseV1.0”數(shù)據(jù)庫,讓秦簡文化“活”在當下,“走”向未來,“奔”向世界,讓“冷門”絕學“熱”起來“火”起來,堅守簡牘文化自信。
本網(wǎng)站的信息及數(shù)據(jù)主要來源于網(wǎng)絡(luò)及各院校網(wǎng)站,本站提供此信息之目的在于為高考生提供更多信息作為參考,由于各方面情況的不斷調(diào)整與變化,敬請以權(quán)威部門公布的正式信息為準。