• 正文
    • 古籍為何外流?
    • “再現(xiàn)”20萬(wàn)頁(yè)古籍
    •  
    • 不簡(jiǎn)單的工作
    •  
    • “復(fù)現(xiàn)”古籍,意義非凡
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

阿里的“掃地僧”,2年“抄”了20萬(wàn)頁(yè)古籍

2021/05/20
181
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

阿里達(dá)摩院,一個(gè)正兒八經(jīng)搞AI的地方。

但偏偏“掃地僧”們干起了文縐縐的工作:

研究古籍。

他們將流散海外的珍貴古籍善本以數(shù)字化的形式請(qǐng)回故土。

第一批達(dá)20萬(wàn)頁(yè)。

△宋百家詩(shī)存

當(dāng)理科生干起了專(zhuān)業(yè)文科生的工作,會(huì)擦出怎樣的火花?

古籍為何“出海”,又如何“回來(lái)”?

關(guān)于這個(gè)故事,很精彩,也很有意義。

古籍為何外流?

1860年(清咸豐10年),五千年文明古國(guó)此刻風(fēng)雨飄搖。

北有英法聯(lián)軍搗毀圓明園,逼迫中國(guó)簽下《天津條約》、《北京條約》。

南有太平軍進(jìn)入杭州,

藏有《四庫(kù)全書(shū)》的“南三閣”之一杭州文瀾閣,次年毀于戰(zhàn)亂。

閣圮而書(shū)散,無(wú)數(shù)經(jīng)典,從此淹沒(méi)在歷史中。

文瀾閣遭遇“滅頂之災(zāi)”后,杭州藏書(shū)家丁申、丁丙兄弟在逃難途中無(wú)意間發(fā)現(xiàn)文瀾閣《四庫(kù)全書(shū)》殘編。

相傳,丁式兄弟買(mǎi)包子時(shí),偶爾發(fā)現(xiàn)包食物的紙,“皆四庫(kù)書(shū)也”,大驚。

于是他們開(kāi)始緊急救書(shū),上下打點(diǎn),四處尋訪。

經(jīng)歷這輪戰(zhàn)亂,文瀾閣本《四庫(kù)全書(shū)》的四分之一被丁氏兄弟搶救,四分之三消散飄零,不知所蹤。

直到將近100年后的1950年代,清代曹庭棟輯纂的《宋百家詩(shī)存》 (卷七),出現(xiàn)在美國(guó)加州大學(xué)伯克利分校東亞圖書(shū)館。

而這本《宋百家詩(shī)存》,正是丟失的文瀾閣本《四庫(kù)全書(shū)》之一。

目前有線索可查的,只能明確伯克利東亞圖書(shū)館從日本三井文庫(kù)購(gòu)得這批古書(shū)。

△伯克利東亞圖書(shū)館

這類(lèi)古書(shū)文物到底經(jīng)歷了怎樣的顛簸流離,如今已不可考。

據(jù)不完全估計(jì),近代散居海外的中國(guó)古籍超過(guò)40萬(wàn)部、400萬(wàn)冊(cè),包括甲骨簡(jiǎn)牘、敦煌遺書(shū)、宋元善本、明清精槧、拓本輿圖、少數(shù)民族文獻(xiàn)等等。

如今山河無(wú)恙,但流散海外的古書(shū)典籍,卻成了中國(guó)文學(xué)、歷史研究,以及傳統(tǒng)文化傳承難以彌補(bǔ)的遺憾。

“再現(xiàn)”20萬(wàn)頁(yè)古籍

大約兩年前,阿里巴巴聯(lián)合四川大學(xué)、美國(guó)加州大學(xué)伯克利分校,共同發(fā)起一項(xiàng)公益項(xiàng)目漢典重光,尋覓那些流散在海外的中國(guó)古籍,借助達(dá)摩院的AI技術(shù),用數(shù)字化的方式讓它們回歸故土。

而鮮有接觸古籍的達(dá)摩院“掃地僧”們,一開(kāi)始還不知道AI錄入古書(shū)是多么有挑戰(zhàn)的任務(wù)。

OCR(光學(xué)字符識(shí)別),其實(shí)是一種常用的計(jì)算機(jī)視覺(jué)技術(shù),經(jīng)常被用來(lái)識(shí)別文字,比如證件、票據(jù)、電商平臺(tái)的商品圖片等。

但是,我們生活中常見(jiàn)的OCR,絕大部分是針對(duì)現(xiàn)代漢字,而且還是印刷字體,把這樣的系統(tǒng)直接拿來(lái)用在古書(shū)上,根本行不通。

首先,古籍文字的類(lèi)別極其龐大?,F(xiàn)代漢語(yǔ)常用字不過(guò)6000多個(gè),常見(jiàn)印刷體,算法能夠覆蓋到的文字基本上在2萬(wàn)字以內(nèi)。

但是據(jù)估計(jì),古籍文字多達(dá)幾十萬(wàn)。

為什么古籍上面有如此多的字?

古籍上面每個(gè)字都有不同的寫(xiě)法。比如一個(gè)“郷”有各種寫(xiě)法。

此外,還有字體的變化。在雕版印刷古籍中,即使是同一拓片在不同季節(jié)、氣候、地點(diǎn)印出的書(shū)也完全不同,而那些人工抄錄的古書(shū),更是千人千面。

每一個(gè)字形,即使表意可能相同,對(duì)于AI來(lái)說(shuō),也是一個(gè)需要重新學(xué)習(xí)記憶的新知識(shí)。

第三,古書(shū)版式復(fù)雜。除了不同于如今的從右到左,從上到下的排版,在每行字中間還常常夾有批注,這就使得常規(guī)使用的行識(shí)別方法失效。

△古籍版式復(fù)雜

最后,由于年代久遠(yuǎn),古書(shū)保存狀況也各有不同,在AI看來(lái),紙張破損、污漬等等相當(dāng)于大量的人為噪聲。

而達(dá)摩院,專(zhuān)門(mén)為古籍識(shí)別開(kāi)發(fā)出了新的系統(tǒng)的。

主要分為兩大步,一是聚類(lèi)數(shù)據(jù)生產(chǎn)識(shí)別,二是主動(dòng)學(xué)習(xí)數(shù)據(jù)生產(chǎn)識(shí)別。用到了單字檢測(cè)、無(wú)監(jiān)督圖像聚類(lèi)、少樣本分類(lèi)、主動(dòng)學(xué)習(xí)等一系列機(jī)器學(xué)習(xí)方法。

首先是全書(shū)檢測(cè),把古籍正文中的每個(gè)字都摳出來(lái),作為單獨(dú)的一張圖。

其次是聚類(lèi)。

一本古籍總字?jǐn)?shù)可能有10萬(wàn)字,但其中有很多字是重復(fù)的,比如“之、乎、者、也”,聚類(lèi)所做的事就是讓機(jī)器自動(dòng)把字形筆畫(huà)一致的字歸為一類(lèi),接著再由人工進(jìn)行標(biāo)注。也就是說(shuō),原來(lái)要人工標(biāo)注全部10萬(wàn)字的書(shū),經(jīng)過(guò)聚類(lèi),只需要對(duì)全部二三千字類(lèi)進(jìn)行標(biāo)注,一類(lèi)字只標(biāo)注一次。

聚類(lèi)和人工標(biāo)注,不僅完成了每一類(lèi)文字的認(rèn)字過(guò)程,還收獲更多新的訓(xùn)練樣本,可以繼續(xù)喂給機(jī)器學(xué)習(xí)。

一般來(lái)說(shuō),數(shù)據(jù)越多,越有利于模型的訓(xùn)練。但古籍里有很多異體字、生僻字,出現(xiàn)概率極低,根本無(wú)法尋覓這么多的樣本。

所以團(tuán)隊(duì)想到了讓機(jī)器自動(dòng)生成樣本。使用字體遷移方法來(lái)使合成數(shù)據(jù),機(jī)器自動(dòng)為每個(gè)字合成幾個(gè)新的樣本,確保單字樣本量達(dá)到10個(gè)。這樣,就有足夠數(shù)據(jù)訓(xùn)練少樣本識(shí)別模型。

得到少樣本識(shí)別模型之后,就能投入使用,把第一步全書(shū)檢測(cè)獲得的所有圖片進(jìn)行重新標(biāo)注。不同于上一輪聚類(lèi)+人工打標(biāo),這次是識(shí)別模型的自動(dòng)標(biāo)注,如果識(shí)別打標(biāo)的數(shù)據(jù)與前一輪聚類(lèi)的結(jié)果一致,就可以認(rèn)為這張圖片當(dāng)前標(biāo)簽是對(duì)的。如果不一致,那就讓這個(gè)字回到聚類(lèi)步驟,繼續(xù)迭代。

從聚類(lèi)打標(biāo)到少樣本模型打標(biāo)走完一輪,全書(shū)70%左右的文字可以被打上正確的標(biāo)簽,余下的30%,從頭開(kāi)始再來(lái)一遍,第二輪迭代,又能解決余下文字中的70%。

經(jīng)過(guò)兩輪迭代,一本書(shū)的91%的文字可以被打上正確的標(biāo)簽。

它們不僅沉淀為了機(jī)器的字典,也是更豐富的訓(xùn)練數(shù)據(jù)。通過(guò)前期一本書(shū)、一本書(shū)地學(xué)習(xí),產(chǎn)生的訓(xùn)練數(shù)據(jù)越來(lái)越多,機(jī)器的認(rèn)字能力也越來(lái)越強(qiáng)。

最后,就是訓(xùn)練最終模型,能對(duì)100本以上的書(shū)進(jìn)行批量識(shí)別的單字分類(lèi)模型。這個(gè)模型一出手,對(duì)批量數(shù)據(jù)的識(shí)別準(zhǔn)確率就高達(dá)96%。隨著模型的優(yōu)化和迭代,目前系統(tǒng)對(duì)20萬(wàn)頁(yè)古籍的整體識(shí)別準(zhǔn)確率已經(jīng)達(dá)到97.5%。今后,AI學(xué)到的數(shù)據(jù)越多,模型的進(jìn)化程度也會(huì)越高。

回到模型“養(yǎng)成”環(huán)節(jié),AI識(shí)別完絕大部分文字,剩下的需要人工專(zhuān)家補(bǔ)充標(biāo)注。

那么問(wèn)題又來(lái)了AI怎么知道哪一部分是識(shí)別好的,哪一部分是需要交給人類(lèi)專(zhuān)家的呢?

這個(gè)時(shí)候,主動(dòng)學(xué)習(xí)算法出場(chǎng)了。通過(guò)它,機(jī)器自己就能找出那些它識(shí)別不了的文字,交給人類(lèi)來(lái)做最后一步工作。

以往,人工標(biāo)注通常需要“兩錄一檢”以達(dá)到99.97%的出版要求。

以一本100萬(wàn)字的古籍為例,如果全靠專(zhuān)家錄入,每人1000字/天,需要1000天。

達(dá)摩院的古籍識(shí)別算法,用AI替代人工,在兩個(gè)環(huán)節(jié)大幅壓縮了專(zhuān)家標(biāo)注工作量。

在機(jī)器為主進(jìn)行識(shí)別的97.5%的內(nèi)容中,約有1%(1萬(wàn)字左右)需要專(zhuān)家錄入;機(jī)器不能識(shí)別的余下2.5%(2.5萬(wàn)字)的文字,全部交給專(zhuān)家做后期標(biāo)注。

兩部分相加,人工的工作量占全書(shū)的3.5%(3.5萬(wàn)字),還是按照一人1000字/天算,需要35天。因此,相比人工專(zhuān)家錄入,百萬(wàn)字書(shū)籍的數(shù)字化工作量從1000天降低到了35天,效率比人工專(zhuān)家錄入方案提升近30倍。

阿里達(dá)摩院的AI古籍識(shí)別算法,為中華古籍的回歸提供了另一種可行可期的思路。

 

不簡(jiǎn)單的工作

2年,20萬(wàn)頁(yè),平均下來(lái)每天280頁(yè)。

再細(xì)算一下,每個(gè)小時(shí)就是11頁(yè),還得是在不吃不喝的那種情況。

這對(duì)于用傳統(tǒng)方式“復(fù)現(xiàn)”古籍來(lái)說(shuō),簡(jiǎn)直是mission impossible。

為什么這么說(shuō)?

舉個(gè)“人工錄入”的例子,便一目了然。

在乾隆皇帝執(zhí)政期間,便組織過(guò)一次對(duì)《四庫(kù)全書(shū)》的編撰。

《四庫(kù)全書(shū)》共包含3500種書(shū)、7.9 萬(wàn)卷、3.6萬(wàn)冊(cè),總字?jǐn)?shù)多達(dá)8億。

而當(dāng)年參與次項(xiàng)目的人數(shù)則多達(dá)3800人,包括紀(jì)昀等360多位高官、學(xué)者。

但即便如此人力之下,也是耗時(shí)15年才完成。

 

然而量大,并不是這個(gè)工作的唯一難點(diǎn)。

非常直接的一個(gè)問(wèn)題,便是“理科生”和“文科生”之間的碰撞。

阿里達(dá)摩院、四川大學(xué)歷史文化學(xué)院,雙方在各自的領(lǐng)域都堪稱(chēng)是專(zhuān)家級(jí)別。

但之于對(duì)方的領(lǐng)域呢?說(shuō)是小白也不足為過(guò)了。

而且AI技術(shù)、古籍文化,還都屬于上手門(mén)檻很高的那種。

為此,雙方可謂是惡補(bǔ)知識(shí)短板。

歷史學(xué)家、文獻(xiàn)學(xué)家,要去學(xué)習(xí)計(jì)算機(jī)、AI相關(guān)的基礎(chǔ)知識(shí),要了解用AI技術(shù)識(shí)別古籍到底是怎樣一個(gè)過(guò)程。

而阿里達(dá)摩院的工程師們,也花費(fèi)了相當(dāng)多的精力,去學(xué)習(xí)歷史相關(guān)知識(shí)。

例如古籍的版本、雕版、印刷、裝幀、內(nèi)容,還包括古文字、古代文化知識(shí)等等。

用四川大學(xué)歷史文化學(xué)院副院長(zhǎng)王果教授的話說(shuō),就是:

在技術(shù)研發(fā)過(guò)程中,比之前預(yù)想到的難度還要大。

為此,雙方在杭州、成都,開(kāi)了不下10次的技術(shù)研討會(huì)。

整體而言,漢典重光走過(guò)的這兩年時(shí)間,道阻且長(zhǎng)、困難重重。

但阿里達(dá)摩院和四川大學(xué)歷史文化學(xué)院,卻對(duì)此從未放棄過(guò)。

之于原因,實(shí)則這項(xiàng)工作背后所蘊(yùn)含的意義,不僅僅是“復(fù)現(xiàn)”這么簡(jiǎn)單。

 

“復(fù)現(xiàn)”古籍,意義非凡

讓在海外“顛沛流離”的古籍回家,讓“沉眠”數(shù)百甚至上千年的古籍入世,真的有那么重要嗎?

是的,而且非常重要。

具體而言,可以從三個(gè)方面來(lái)看。

首先是國(guó)家層面。

古籍是中華文明的“魂器”, 國(guó)家圖書(shū)館副館長(zhǎng)張志清說(shuō)。

縱觀歷史上世界四大文明,能夠延續(xù)至今的,也只有中華文明。

很重要原因是,我國(guó)擁有一個(gè)連綿不絕、經(jīng)典的文獻(xiàn)世界。

我國(guó)從古便有盛世修史和盛世整理古籍的傳統(tǒng)。

修史、整理文獻(xiàn),表面上是修復(fù)殘破、逸散的古籍,本質(zhì)上實(shí)則是補(bǔ)全中國(guó)文化最重要的載體,是修復(fù)中華文明生生不息的生命力,綿延中國(guó)文化不息的源泉。

“十四五”規(guī)劃和國(guó)家中長(zhǎng)期發(fā)展規(guī)劃中,古籍的保護(hù)、整理、研究、利用,得到高度重視。

 

△宋百家詩(shī)存卷首

其次,是研究者、學(xué)者層面。

以這次從伯克利回歸的20萬(wàn)頁(yè)古籍來(lái)講,就有很多國(guó)內(nèi)少見(jiàn)或者是沒(méi)有的珍稀善本。

因此,當(dāng)這些回歸的古籍被AI識(shí)別并數(shù)字化以后,研究人員、學(xué)者足不出戶,便可以研究在海外的、無(wú)法獲取的古籍,未來(lái)有望產(chǎn)生一大批重要的研究成果。

最后,是民眾層面。

或許很多人會(huì)認(rèn)為古籍離普通老百姓甚是遙遠(yuǎn),但實(shí)則不然。

中國(guó)古籍的內(nèi)容浩如煙海,擁有非常龐大且復(fù)雜的知識(shí)體系,所涉及的范圍也是極其廣泛。

從應(yīng)對(duì)自然災(zāi)害、流行疫病、經(jīng)濟(jì)波動(dòng)、政治斗爭(zhēng)、外交危機(jī)、氣候變遷等等內(nèi)容的經(jīng)驗(yàn)。

有戰(zhàn)爭(zhēng)、瘟疫、地震、洪澇災(zāi)害、病蟲(chóng)害等等方面的經(jīng)驗(yàn)總結(jié),更貼近生活的,還包括醫(yī)療、中藥、養(yǎng)生、家具、服飾、飲食文化等等。

而這些都是“老祖宗”們幾千年來(lái)的經(jīng)驗(yàn)總結(jié)和積累,是民族智慧的繼承。

漢典重光項(xiàng)目沒(méi)有停留在“回歸”海外古籍這個(gè)層面,以數(shù)字化的形式來(lái)展現(xiàn),大大降低了人們學(xué)習(xí)、閱讀古籍的門(mén)檻,拉近了人們與中國(guó)文化的距離。

在發(fā)布會(huì)現(xiàn)場(chǎng),許多研究古籍的知名教授也親臨現(xiàn)場(chǎng),他們的眼中充滿了對(duì)古籍研究的熱情與使命感。

中央文史館館員、四川大學(xué)教授陳力說(shuō),他最大的心愿是,利用現(xiàn)代技術(shù),讓古籍活起來(lái),讓老百姓在古籍面前和祖宗對(duì)話,和傳統(tǒng)文化親密接觸。

再細(xì)數(shù)參與此次工作的人員,除了川大的老一輩教授、專(zhuān)家們,像博士生、碩士生,甚至本科生也參與到了其中。

某種程度上,這也是保護(hù)文化的一種傳承。

也正如阿里達(dá)摩院院長(zhǎng)張建鋒表示:

守護(hù)中華傳世典籍,是科技工作者和文化工作者共同的使命。

而此次“數(shù)字化回歸”的這20萬(wàn)頁(yè)古籍,只是漢典重光邁出的第一步。

阿里和川大還將繼續(xù)聯(lián)手,讓“離家百年、去國(guó)萬(wàn)里”的更多中國(guó)璀璨古籍,以數(shù)字化方式回歸故里。

最后,奉上此次“漢典重光”首批數(shù)字化古籍重要書(shū)目,若想體驗(yàn)完整數(shù)字版,可戳文末鏈接~

 

漢典重光 · 古籍?dāng)?shù)字化平臺(tái):

https://wenyuan.aliyun.com/home

阿里巴巴

阿里巴巴

阿里巴巴集團(tuán)經(jīng)營(yíng)多項(xiàng)業(yè)務(wù),另外也從關(guān)聯(lián)公司的業(yè)務(wù)和服務(wù)中取得經(jīng)營(yíng)商業(yè)生態(tài)系統(tǒng)上的支援。業(yè)務(wù)和關(guān)聯(lián)公司的業(yè)務(wù)包括:淘寶網(wǎng)、天貓、聚劃算、全球速賣(mài)通、阿里巴巴國(guó)際交易市場(chǎng)、1688、阿里媽媽、阿里云、螞蟻金服、菜鳥(niǎo)網(wǎng)絡(luò)等。

阿里巴巴集團(tuán)經(jīng)營(yíng)多項(xiàng)業(yè)務(wù),另外也從關(guān)聯(lián)公司的業(yè)務(wù)和服務(wù)中取得經(jīng)營(yíng)商業(yè)生態(tài)系統(tǒng)上的支援。業(yè)務(wù)和關(guān)聯(lián)公司的業(yè)務(wù)包括:淘寶網(wǎng)、天貓、聚劃算、全球速賣(mài)通、阿里巴巴國(guó)際交易市場(chǎng)、1688、阿里媽媽、阿里云、螞蟻金服、菜鳥(niǎo)網(wǎng)絡(luò)等。收起

查看更多

相關(guān)推薦