AI無處不在:能識別識別失傳已久的文字,比如西夏文
2025-11-25 00:45:47 [焦點] 來源:骨軟筋酥網(wǎng)
導讀:人工智能設(shè)計醫(yī)學、無處文教育甚至是識別識別失傳考古領(lǐng)域,隨著人類的已久大連甘井子美女約炮vx《365-2895》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達發(fā)展,人工智能所表現(xiàn)出的字比必定有部分是超越人類的。
曾記得有一次聊天,西夏有個朋友描述他對人工智能的無處文印象,總結(jié)成三個詞:西方的識別識別失傳、商業(yè)的已久、未來的字比。
我當即表示你說的西夏很好,唯一的無處文問題是一條都沒說對。
按下我們倆怎么展開斗毆暫且不提,識別識別失傳這里希望破除的已久是大家對人工智能的某種固有印象。事實上,字比人工智能作為一種很早就發(fā)展起來的西夏通用技術(shù),絕不是西方的專利,也絕不僅僅是夠創(chuàng)造商業(yè)價值。
甚至在某些機緣巧合下,人工智能能夠成為我們用認識歷史、認識自身民族、大連甘井子美女約炮vx《365-2895》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達認識祖先與過去的利器。
梁啟超說“學術(shù)乃天下之公器”,不僅是說學術(shù)天下人共有,同時也是說學術(shù)天下共致。作為一種基礎(chǔ)工具的人工智能,往往能夠在意想不到地方發(fā)生效用。比如說今天為大家介紹的借助人工智能技術(shù),自動識別西夏文——一個純粹中國的人文社科領(lǐng)域。
(圖 美感奇特的西夏文)
雖然這項技術(shù)大多數(shù)人永遠不會涉足,但這個案例的價值在于可以打破我們對AI的某些偏見。AI不只是集中在那幾個領(lǐng)域,也不是歐美寡頭的玩具,它甚至可能無處不在。
為什么要識別西夏文?其中隱含著哪些困難?
我們知道,西夏是與北宋、遼、金先后對峙的黨項族國家,曾經(jīng)統(tǒng)治河西地區(qū)超過二百年。與大眾認知中不同,西夏不是個茹毛飲血的野蠻文明。他們曾經(jīng)創(chuàng)立過驚人的文化、藝術(shù)與宗教文明,但隨著1227年蒙古滅西夏,蒙元不為西夏立史,關(guān)于這個政權(quán)的記錄快速消亡,李元昊立國時創(chuàng)立的西夏文也隨之湮滅。
西夏文又名河西字、番文、唐古特文,曾在西夏王朝統(tǒng)轄的今寧夏、甘肅、陜西北部、內(nèi)蒙古南部地區(qū)盛行了約兩個世紀。但在西夏滅國后,這種參考漢字創(chuàng)立的奇特文字逐漸失傳,最終成為了一種死文字。
直到1804年,武威大云寺發(fā)現(xiàn)了著名的《重修涼州護國寺感通塔碑》,西夏文才在埋藏了數(shù)百年后重現(xiàn)人世。從此識讀西夏文開始成為了學界的重要工作。
(圖 《重修涼州護國寺感通塔碑》局部)
二百年以來,出土的西夏文文獻不斷增多,其中大部分都被英、俄探險家?guī)У搅司惩狻5鲊鴮W者努力下,西夏文的基礎(chǔ)文字識別已經(jīng)完成,現(xiàn)階段的工作重點是依據(jù)文字列表,去識讀大量西夏文文獻的具體內(nèi)容,揭開西夏以及當時中原、西域各國的歷史迷霧。
但在這個過程里,研究人員認讀西夏文必須通過手工翻閱查找,耗費時間異常辛苦不說,由于西夏文是一種相似度極高的文字,人工識別還可能存在很大的錯誤率。
所以就有學者提出,利用計算機來自動識別西夏文。這種設(shè)想很好,但在具體操作中還是有巨大問題。比如西夏文結(jié)構(gòu)復雜、組成字符各部分要素高度相似,并且平均筆畫達到25畫,計算機識別難以入手。
此外,西夏時期雖然已有印刷術(shù),但出土文獻還是以手抄本和刻版文字為主,同一個字的在不同文獻上的位置不固定、整體布局會發(fā)生偏移,都給機器識別帶來巨大困難。
于是有意思的事出現(xiàn)了,寧夏大學相關(guān)研究機構(gòu)為代表的學術(shù)力量,選擇了以人工智能技術(shù)解決西夏文的自動識別。
并且這個工作很早就已經(jīng)開始,不斷有成果涌現(xiàn)。從時間上看,絕不是趕這波AI熱潮的產(chǎn)物。
人工智能完成西夏文自動識別
早在1996年,日本國立亞非語言文化研究所就制作了西夏文字庫和排版系統(tǒng)。1997 年中國學者李范文和日本學者中島干起利用該排版系統(tǒng)合作出版了《電腦處理西夏文〈雜字〉研究》。俄羅斯應(yīng)該也都有西夏文數(shù)據(jù)化和計算機處理的項目與研究成果。
而使用彈性網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、AI算法以及深度學習來識別西夏文,則是中國領(lǐng)先完成的一個創(chuàng)舉。
用AI識別西夏文,主要依托的是計算機字符識別( optical character recognition,OCR) 技術(shù),這種技術(shù)上世紀60年代就成為了人工智能研究的主要領(lǐng)域之一。它的核心技術(shù)主張是基于人工智能運算來識別文字符號的數(shù)字影像,并將其轉(zhuǎn)換為對應(yīng)的數(shù)字文本,達到可識別、可編輯、可轉(zhuǎn)化的目的。
OCR技術(shù)目前在很多領(lǐng)域已經(jīng)相當成熟,比如我們經(jīng)常用到的印刷文件文字提取。在OCR識別領(lǐng)域,更多的應(yīng)用是手寫體內(nèi)容的精準識別,而利用OCR識別考古文獻中的非廣泛使用文字卻基本處于空白。
這里可以結(jié)合論文簡單介紹兩種AI識別西夏文的案例。
比如在《基于彈性網(wǎng)絡(luò)的西夏文識別》當中,研究人員利用彈性網(wǎng)絡(luò)技術(shù),將西夏文中的筆畫特征進行網(wǎng)格化提取。再統(tǒng)計像素點在每個網(wǎng)格內(nèi)的概率分布,形成一種可讀取的特征模型。最后使用文檔主題模型方法對提取的特征降維處理,結(jié)合數(shù)據(jù)庫對文獻進行識別。
根據(jù)論文,這種方法平均識別率可達87.99 %。
再比如《基于Mean Shift算法的西夏文字筆形識別》,Mean Shift算法,即偏移均值向量,是機器學習領(lǐng)域的一種基本算法。其基礎(chǔ)理論是利用信息密度來完成聚類、圖像分割、跟蹤任務(wù),可應(yīng)對相似但界限模糊的圖像處理應(yīng)用。利用這種算法,研究人員將原始資料生成概率統(tǒng)計直方圖,通過相似度來判斷歸類具體的西夏文筆形。
(圖 西夏文智能識別算法流程)
這里僅僅是兩個具體應(yīng)用案例,利用深度學習等前沿人工智能技術(shù)識別西夏文的應(yīng)用還在不斷發(fā)展。
文獻與考古領(lǐng)域的人工智能應(yīng)用
可能識別西夏文距離我們的日常生活還相對較遠,但推廣至當整個人文社科領(lǐng)域,AI的應(yīng)用可能就會從另一個角度無限貼近我們的生活。
從近期來說,AI推動學術(shù)效率,可能會影響我們的學科配置、學術(shù)訓練甚至高等教育體系。從長遠來看,AI推動的進一步識別歷史與文獻的能力,是我們窺探自身過去,了解“中國”為何是“中國”的全新工具。
在我們沉浸于未來帶來的快感時,人工智能卻可能在歷史領(lǐng)域快速發(fā)揮它的價值。通過西夏文識別的例子,不難發(fā)現(xiàn)在文獻與考古這些社科領(lǐng)域當中,人工智能至少可以發(fā)揮以下幾種功效:
1、考古圖像的識別與歸檔,比如基于算法的文物識別、文物數(shù)據(jù)化、考古現(xiàn)場數(shù)據(jù)化。
2、文獻文本的識別與轉(zhuǎn)碼,比如原始文獻的文字識別讀取、文獻聚類、文獻數(shù)據(jù)化。
3、文獻數(shù)據(jù)庫的知識圖譜化與機器學習應(yīng)用。比如學科文獻圖譜化、時代文獻圖譜化、科研項目數(shù)據(jù)圖譜化,以及基于知識圖譜訓練的人文社科領(lǐng)域智能體。這一點尤其重要,想象力也最為充沛。就像金融、翻譯等領(lǐng)域很可能被AI替代一樣,文獻學與歷史研究領(lǐng)域大部分依賴考證、校勘、資料爬梳的工作,也存在被AI取代的可能性。
類似的人文領(lǐng)域與AI跨界還有很多,有些甚至涉及哲學與倫理層面的技術(shù)與人文互搏,以后我們會陸續(xù)介紹。
曾記得有一次聊天,西夏有個朋友描述他對人工智能的無處文印象,總結(jié)成三個詞:西方的識別識別失傳、商業(yè)的已久、未來的字比。
我當即表示你說的西夏很好,唯一的無處文問題是一條都沒說對。
按下我們倆怎么展開斗毆暫且不提,識別識別失傳這里希望破除的已久是大家對人工智能的某種固有印象。事實上,字比人工智能作為一種很早就發(fā)展起來的西夏通用技術(shù),絕不是西方的專利,也絕不僅僅是夠創(chuàng)造商業(yè)價值。
甚至在某些機緣巧合下,人工智能能夠成為我們用認識歷史、認識自身民族、大連甘井子美女約炮vx《365-2895》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達認識祖先與過去的利器。
梁啟超說“學術(shù)乃天下之公器”,不僅是說學術(shù)天下人共有,同時也是說學術(shù)天下共致。作為一種基礎(chǔ)工具的人工智能,往往能夠在意想不到地方發(fā)生效用。比如說今天為大家介紹的借助人工智能技術(shù),自動識別西夏文——一個純粹中國的人文社科領(lǐng)域。
(圖 美感奇特的西夏文)
雖然這項技術(shù)大多數(shù)人永遠不會涉足,但這個案例的價值在于可以打破我們對AI的某些偏見。AI不只是集中在那幾個領(lǐng)域,也不是歐美寡頭的玩具,它甚至可能無處不在。
為什么要識別西夏文?其中隱含著哪些困難?
我們知道,西夏是與北宋、遼、金先后對峙的黨項族國家,曾經(jīng)統(tǒng)治河西地區(qū)超過二百年。與大眾認知中不同,西夏不是個茹毛飲血的野蠻文明。他們曾經(jīng)創(chuàng)立過驚人的文化、藝術(shù)與宗教文明,但隨著1227年蒙古滅西夏,蒙元不為西夏立史,關(guān)于這個政權(quán)的記錄快速消亡,李元昊立國時創(chuàng)立的西夏文也隨之湮滅。
西夏文又名河西字、番文、唐古特文,曾在西夏王朝統(tǒng)轄的今寧夏、甘肅、陜西北部、內(nèi)蒙古南部地區(qū)盛行了約兩個世紀。但在西夏滅國后,這種參考漢字創(chuàng)立的奇特文字逐漸失傳,最終成為了一種死文字。
直到1804年,武威大云寺發(fā)現(xiàn)了著名的《重修涼州護國寺感通塔碑》,西夏文才在埋藏了數(shù)百年后重現(xiàn)人世。從此識讀西夏文開始成為了學界的重要工作。
(圖 《重修涼州護國寺感通塔碑》局部)
二百年以來,出土的西夏文文獻不斷增多,其中大部分都被英、俄探險家?guī)У搅司惩狻5鲊鴮W者努力下,西夏文的基礎(chǔ)文字識別已經(jīng)完成,現(xiàn)階段的工作重點是依據(jù)文字列表,去識讀大量西夏文文獻的具體內(nèi)容,揭開西夏以及當時中原、西域各國的歷史迷霧。
但在這個過程里,研究人員認讀西夏文必須通過手工翻閱查找,耗費時間異常辛苦不說,由于西夏文是一種相似度極高的文字,人工識別還可能存在很大的錯誤率。
所以就有學者提出,利用計算機來自動識別西夏文。這種設(shè)想很好,但在具體操作中還是有巨大問題。比如西夏文結(jié)構(gòu)復雜、組成字符各部分要素高度相似,并且平均筆畫達到25畫,計算機識別難以入手。
此外,西夏時期雖然已有印刷術(shù),但出土文獻還是以手抄本和刻版文字為主,同一個字的在不同文獻上的位置不固定、整體布局會發(fā)生偏移,都給機器識別帶來巨大困難。
于是有意思的事出現(xiàn)了,寧夏大學相關(guān)研究機構(gòu)為代表的學術(shù)力量,選擇了以人工智能技術(shù)解決西夏文的自動識別。
并且這個工作很早就已經(jīng)開始,不斷有成果涌現(xiàn)。從時間上看,絕不是趕這波AI熱潮的產(chǎn)物。
人工智能完成西夏文自動識別
早在1996年,日本國立亞非語言文化研究所就制作了西夏文字庫和排版系統(tǒng)。1997 年中國學者李范文和日本學者中島干起利用該排版系統(tǒng)合作出版了《電腦處理西夏文〈雜字〉研究》。俄羅斯應(yīng)該也都有西夏文數(shù)據(jù)化和計算機處理的項目與研究成果。
而使用彈性網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、AI算法以及深度學習來識別西夏文,則是中國領(lǐng)先完成的一個創(chuàng)舉。
用AI識別西夏文,主要依托的是計算機字符識別( optical character recognition,OCR) 技術(shù),這種技術(shù)上世紀60年代就成為了人工智能研究的主要領(lǐng)域之一。它的核心技術(shù)主張是基于人工智能運算來識別文字符號的數(shù)字影像,并將其轉(zhuǎn)換為對應(yīng)的數(shù)字文本,達到可識別、可編輯、可轉(zhuǎn)化的目的。
OCR技術(shù)目前在很多領(lǐng)域已經(jīng)相當成熟,比如我們經(jīng)常用到的印刷文件文字提取。在OCR識別領(lǐng)域,更多的應(yīng)用是手寫體內(nèi)容的精準識別,而利用OCR識別考古文獻中的非廣泛使用文字卻基本處于空白。
這里可以結(jié)合論文簡單介紹兩種AI識別西夏文的案例。
比如在《基于彈性網(wǎng)絡(luò)的西夏文識別》當中,研究人員利用彈性網(wǎng)絡(luò)技術(shù),將西夏文中的筆畫特征進行網(wǎng)格化提取。再統(tǒng)計像素點在每個網(wǎng)格內(nèi)的概率分布,形成一種可讀取的特征模型。最后使用文檔主題模型方法對提取的特征降維處理,結(jié)合數(shù)據(jù)庫對文獻進行識別。
根據(jù)論文,這種方法平均識別率可達87.99 %。
再比如《基于Mean Shift算法的西夏文字筆形識別》,Mean Shift算法,即偏移均值向量,是機器學習領(lǐng)域的一種基本算法。其基礎(chǔ)理論是利用信息密度來完成聚類、圖像分割、跟蹤任務(wù),可應(yīng)對相似但界限模糊的圖像處理應(yīng)用。利用這種算法,研究人員將原始資料生成概率統(tǒng)計直方圖,通過相似度來判斷歸類具體的西夏文筆形。
(圖 西夏文智能識別算法流程)
這里僅僅是兩個具體應(yīng)用案例,利用深度學習等前沿人工智能技術(shù)識別西夏文的應(yīng)用還在不斷發(fā)展。
文獻與考古領(lǐng)域的人工智能應(yīng)用
可能識別西夏文距離我們的日常生活還相對較遠,但推廣至當整個人文社科領(lǐng)域,AI的應(yīng)用可能就會從另一個角度無限貼近我們的生活。
從近期來說,AI推動學術(shù)效率,可能會影響我們的學科配置、學術(shù)訓練甚至高等教育體系。從長遠來看,AI推動的進一步識別歷史與文獻的能力,是我們窺探自身過去,了解“中國”為何是“中國”的全新工具。
在我們沉浸于未來帶來的快感時,人工智能卻可能在歷史領(lǐng)域快速發(fā)揮它的價值。通過西夏文識別的例子,不難發(fā)現(xiàn)在文獻與考古這些社科領(lǐng)域當中,人工智能至少可以發(fā)揮以下幾種功效:
1、考古圖像的識別與歸檔,比如基于算法的文物識別、文物數(shù)據(jù)化、考古現(xiàn)場數(shù)據(jù)化。
2、文獻文本的識別與轉(zhuǎn)碼,比如原始文獻的文字識別讀取、文獻聚類、文獻數(shù)據(jù)化。
3、文獻數(shù)據(jù)庫的知識圖譜化與機器學習應(yīng)用。比如學科文獻圖譜化、時代文獻圖譜化、科研項目數(shù)據(jù)圖譜化,以及基于知識圖譜訓練的人文社科領(lǐng)域智能體。這一點尤其重要,想象力也最為充沛。就像金融、翻譯等領(lǐng)域很可能被AI替代一樣,文獻學與歷史研究領(lǐng)域大部分依賴考證、校勘、資料爬梳的工作,也存在被AI取代的可能性。
類似的人文領(lǐng)域與AI跨界還有很多,有些甚至涉及哲學與倫理層面的技術(shù)與人文互搏,以后我們會陸續(xù)介紹。
(責任編輯:時尚)
推薦文章
-
植物球吃僵尸!《球球大年夜做戰(zhàn)》x《植物大年夜戰(zhàn)僵尸2》聯(lián)動開啟!
《球球大年夜做戰(zhàn)》九周年慶典第一彈!與《植物大年夜戰(zhàn)僵尸2》的夢境聯(lián)動正式開啟!兩款國仄易遠級戚閑足游重磅開做。現(xiàn)在登錄球球大年夜做戰(zhàn),聘請老友助力便可免費收與聯(lián)動通止證,解鎖[盆栽土豆雷]皮膚。人氣
...[詳細]
-
坐即戰(zhàn)役暢爽玩 足游《仙緣傳講》本日開啟沒有刪檔測試
坐即戰(zhàn)役暢爽玩,足游《仙緣傳講》本日開啟沒有刪檔測試。仙俠題材ARPG足游新做《仙緣傳講》沒有刪檔測試本日開啟,暢快的戰(zhàn)役場景、完整的劇情設(shè)定、掀心的交互體系戰(zhàn)更多樣化的弄法形式,一起去看看吧!【幫派
...[詳細]
-
《無主之天:前傳》最新MOD 第三人稱玩轉(zhuǎn)FPS
2K Games的《無主之天:前傳》已于10月14日出售,登錄PC、Xbox360戰(zhàn)PS3,游戲獲得了沒有錯的評價,并且怯奪Steam周銷量第一名的寶座,便正在游戲新奇出爐熱水晨天的時候,最新MOD也
...[詳細]
-
國產(chǎn)足機正在推新速率上闊步前止,特別是進進了下半年,幾遠每個月皆有新機推出,并且正在標榜“性價比”的線路上一個比一個具有引誘力,正在浩繁的開做壓力下,小米正在推出了年度旗艦小米足機4以后,也按耐沒有住
...[詳細]
-
《刀劍神域:碎夢邊境》公布了新增四位角色情報2024-07-30 10:05:42編輯:柒柒 優(yōu)琪:在《ALO》中被稱為“
...[詳細]
-
《刺客疑條:叛變(Assassin's Cree: Rogue)》最新截圖公布 新演示帶您獵殺刺客
遠日,育碧放出了很多閉于《刺客疑條:叛變Assassin's Cree: Rogue)》的動靜,除肯定游戲?qū)⒄?015年登岸PC的劇情預報片中,借有很多下渾截圖此中一部分是設(shè)定圖)也同時被收到了網(wǎng)上
...[詳細]
-
開辟商Remedy日前公開了公司的第一季度財報,正在財報集會上公開有閉正正在開辟的多個項目標停頓,此中包露《脫越前圓X》、Epic投資的3A項目等。以下為詳情:由Epic收止戰(zhàn)投資的尾款3A游戲即將進
...[詳細]
-
《疆場單馬尾》4月8日開啟測試,出色漫繪同步欣喜上線。兩次元萌娘養(yǎng)成彈講RPG足游《疆場單馬尾》將于4月8日開啟第兩次刪檔計費測試。并且相干漫繪也將于當天同步上線!《疆場單馬尾》同名漫繪由三禍動漫出品
...[詳細]
-
【天下貳】你還不知道這些“性價比之王”?只要3元寶,新坐騎帶回家!
【天下貳】你還不知道這些“性價比之王”?只要3元寶,新坐騎帶回家!2024-07-19 18:01:05編輯:Reset
...[詳細]
-
魔靈回去豪杰起航,足游《魔靈醉覺》本日開啟安卓啟測。51wan足游新做《魔靈醉覺》本日正式開啟開啟安卓刪檔付費啟測,九家S級渠講同步上線,游戲努力為玩家?guī)ハ伦哉谀Щ肕MORPG極致體驗,一起去看看
...[詳細]
熱點閱讀
- 合肥外圍(高端外圍)外圍模特(電話微信199-7144-9724)一二線城市外圍預約外圍上門外圍女,不收任何定金30分鐘內(nèi)快速到達
- 南京外圍(南京外圍女)外圍預約(電話微信199-7144-9724)提供頂級外圍女上門,優(yōu)質(zhì)資源可滿足你的一切要求
- 常州外圍上門外圍女(微信199-7144-9724)提供頂級外圍女上門,可滿足你的一切要求
- 湛頭外圍女靠譜(微信199-7144-9724)湛頭外圍女那個靠譜啊
- 哈爾濱外圍模特經(jīng)紀人(外圍預約)外圍女(電話微信199-7144-9724)一二線城市可以真實可靠快速安排
- 南京高端美女上門外圍上門外圍女(電話微信199-7144-9724)提供全球及一二線城市兼職美女上門外圍上門外圍女
- 貴陽外圍預約流程(電話微信199-7144-9724)貴陽外圍真實可靠快速安排
- 上海外圍(外圍上門)外圍預約(電話微信199-7144-9724)提供高端外圍上門真實靠譜快速安排不收定金見人滿意付款
- 石家莊包養(yǎng)外圍上門外圍女上門外圍上門外圍女(電話微信199-7144-9724)提供1-2線熱門城市快速安排30分鐘到達
- 上海包夜外圍上門外圍女姐(電話微信199-7144-9724)一二線城市均可安排、高端一手資源、高質(zhì)量外圍女模特空姐、學生妹應(yīng)有盡有

PvE迷宮探索《地牢完畢》上線Steam發(fā)售時間未確定
《血咒(BLOODBORNE)》最新預報 只需效盡渾身解數(shù)才氣保存
騰訊天好3A項目熱招 挨制開放天下、射擊項目
《賽車挨算(Project CARS)》新預報 豪車們的山天戰(zhàn)開端了!
《塵封大陸》“新游戲+”模式預告片公布
