【摘要】在這個信息高度膨脹并具有極高共享度的大數據時代,數據資源在學術研究中發揮著越來越重要的作用。新中國誕生之后,數據資源助力中國文史研究取得了豐碩的成果。但應該注意的是,數據資源帶來機遇的同時也帶來了挑戰,面對結構化的數據庫或知識庫,學界的思維方式與治學方法需要轉變。
【關鍵詞】大數據時代 文史研究 治學方法
【中圖分類號】G256 【文獻標識碼】A
在印刷術發明以前,書籍文獻彌足珍貴,人們獲取知識及其他信息的路徑除了人與人之間的口耳相傳,便只有閱讀文字。相比于人與人之間的傳授,閱讀已經足以突破時間和空間的限制,讓人的學習方式更加自主便捷,獲取的知識也更加真實可信。然而,無論是天災還是人禍,都可能對書籍的保存和流通造成巨大損害,知識載體的損毀甚至可能直接帶來知識本身的消亡,有感于此,先賢常通過對古書的編輯來將大量的信息與知識整合在一起,這可以視作古人“數據庫”建設的初步嘗試。
劉向《別錄》敘述左氏學傳承云:“左丘明授曾申,申授吳起,起授其子期,期授楚人鐸椒,鐸椒作《抄撮》八卷,授虞卿作《抄撮》九卷;授荀卿;荀卿授張倉。”由此可見,“抄撮之學的立意,是為了在較短的時間間內,花費較少的精力,而得以對一部著作進行整體的簡要性把握。這一時期的此類著作采取何種體制,是完全忠實于原文還是有所發揮,今已無法考知,但這種刪繁節要,便于觀覽的編纂出發點,是非常值得重視的。”吳坰《五總志》:“唐李商隱為文,多檢閱書史,鱗次堆集左右,時謂為獺祭魚。”辛文房在《唐才子傳》也記載:“商隱工詩,為文瑰邁奇古,辭隱事難。及從楚學,儷偶長短,而繁縟過之。每屬綴,多檢閱書冊,左右鱗次,號‘獺祭魚’。”李商隱為詩為文,都以用典綿密著稱,而支撐他的如此不厭其煩的隱詞比事的獺祭行為,難免成了人們津津樂道的話題,從中我們不難覺察出一種取向,即對知識的占有量和剪裁程度是人們作詩作文內容豐富與否的必要條件。秦觀也提到了自己在成年記憶力衰退之后,感慨檢索文獻之費時,故而不免依樣畫葫蘆。觀古可知,古人在建構自己的知識體系的同時,就已經有意識地對既有知識做減法(所謂“抄撮”之學),以便于記憶和檢索,又對其做加法(所謂“雜學”著述),借雜糅所學所見以屬詞比事。可見,早在電子數據庫誕生以前,中國古代學者已經有了類似的活動,其目的和功用,與現在并無二致。
數據資源助力新中國文史研究取得巨大成就
隨著信息時代的到來,文史研究可以利用的技術手段拓寬,材料獲取途徑的多樣性增強。數字網絡以及移動通信技術的不斷進步,使得學界得以應用計算機和互聯網對徽州文書以及甲骨文等原始文史研究材料進行更有效且有深度的辨析。20世紀50年代,語言學家邁克爾·文特里斯(Michael Ventis)成功地破譯了線形文字B。麻省理工學院和谷歌人工智能實驗室的研究人員提出的神經網絡算法,實現了古希臘邁錫尼文明時期線形文字B的自動翻譯,把67.3%的線形文字B同源詞翻譯成了希臘語。人工智能、核技術和物理化學技術等前沿技術的應用,使得原始材料被更有效地甄別和解釋,從而拓寬了材料廣度,也促進了新材料的發現。除此之外,信息時代帶來的材料的重組、學科的交叉、信息文化的興起,也促進了新材料的發掘、分析及更新。隨著計算機硬件能力的不斷提升,加之數據資源的持續累積,以大數據為核心邏輯的智能應用革命開始逐步影響人類的日常生活。在大數據技術的幫助下,人們可以利用嶄新的視角來實時、多角度、全方位地掌握事物的發展規律,并更好地預測未來,進而為生產和社會活動提供海量而優質的決策。所以,信息文化的快速發展,使得整體文化環境發生轉變,新材料不斷出現、新材料整合速度不斷提高,客觀上促進了數據資源的累積,文史研究方法也因此發生變化。
黨的十一屆三中全會后,在解放思想、實事求是路線的引領下,文史學界不斷開拓創新,中國古代文史研究煥發出嶄新的生命力。隨著我國對外開放的深化,國家經濟實力日益增強,中國古代文史研究取得了豐碩的成果,具體表現在學科構建、人才培養、成果出版、國際交流等方面。中國古代文史研究不斷向全方位、多角度、深層次發展,我國文史工作者在科學系統地借鑒并融合古今中外優秀研究理論和方法的基礎上,不斷整合完善現有資料,積極探索新的文獻和考古材料,許多海內外罕見文獻因此得以整理并出版。以敦煌吐魯番文書、甲骨文、徽州文書、懸泉置簡帛以及眾多民間文書為代表的新出文獻,夯實了我國古代文史領域的研究基礎,豐富了研究內容,拓寬了研究的深度和廣度。與此同時,文獻古籍的數字化也被提上日程,科研單位和各大高校紛紛上線數據庫項目,催生交叉學科研究方法,文史領域治學與數字化時代同步推進的趨勢日益明顯。
進入21世紀以來,我國文史研究者乘科學技術之東風,借助各類互聯網信息技術手段,植根于中國歷史實際,發現、整理和搶救了大量的文獻古籍資料,文獻和古籍的保護進程得以顯著加快,古籍利用和保護之間的矛盾也得到了妥善的解決。近年來,以敦煌文獻數字化和國際敦煌學、海外中華古籍合作保護以及“一帶一路”鄰國語言文字中漢字音的數字化整理等為代表的一批重點研究項目不斷推進,通過目錄匯編、圖像/音頻掃描、4D數據庫建設等工具手段,在全面保護存檔既有資料的同時,有效地提高了文獻內容和考古內容的質量,為未來文史研究領域的廣度和深度提供了可靠的保障。這些成就,與新中國成立以來在文獻數據資料領域持續不懈的探索整理,以及信息技術和數字化手段的有效助力,是分不開的。
大數據時代為文史研究帶來的機遇與挑戰
大數據時代,數據在我們的日常生活與學術研究領域發揮著越來越重要的作用,傳統紙質文獻越來越多地被數字化,各種形式的數據庫層出不窮。數據作為研究成果的同時,其研究基礎的地位也在不斷被強調。具體到人文學科的研究,數字文獻大致可以分成傳統文獻的數字影像和結構化的數據庫。與數字文獻相比,傳統文獻具有天然的劣勢,除了傳播方式單一、傳播時間較長、保存傳播成本較高等眾所周知的原因以外,我們必須注意到:“舊媒體將知識分割于不同的物理載體之中,比如說這本書的知識很難與另一本書的同類知識關聯,這種檢索工具很難跟另一種檢索工具互通,而學術研究則要求盡可能地聯系各方知識,便于重新組合和運算。學者重組知識的能力越強,創造力也就越強。”大數據時代在減少文史研究所耗費的時間和物質成本的同時,使得學者可以高效選取材料進行組合和分析,材料獲取效率增加。以往,學者為了查閱某一文獻資料可能需要跨越大半個中國,準備許多證明材料,而現在足不出戶便能查詢到自己需要的材料。前人遍檢群書而不得的內容,我們可能只需用幾秒鐘就可以得到答案,不會利用電子文獻檢索的學者則成了名副其實的“今之古人”。這使得文史研究從側重獲取新材料轉變為側重提出新問題,學術研究更具有效率性,為學科的深入探究提供了便利。
數據庫的廣泛使用,打破了學科之間的界線,拓寬了專門知識領域的邊界。跨學科的知識鏈接,為新知識體系的出現架起橋梁,“國際數字人文機構聯盟”和“數字人文中心網絡”這兩大人文研究數字聯盟的出現,使人文科學和數字科學加深融合,例如促進了歷史學科從解釋性學科向求是性學科的轉變,實現了學科價值的擴展。進而可以說,數據庫的出現在不斷拓寬文史研究角度的同時也能影響其研究價值的擴展。同時“人文計算”、復雜網絡分析、大規模數據分析等研究方法的使用,雖然在一定程度上弱化了文史研究中的批判性與人文關懷,但卻在某種程度上革新了文史研究的方式,從而使研究更具科學性。
數字文獻的不足也是顯而易見的,從文獻的保存、閱讀和檢索來說,不同的數據庫必然會展示出不同文字的準確率和檢索的查全率、查準率,即使數據庫的制作者精益求精并不斷改進檢索技術,其文本的準確率已經做到了與紙本文獻不相上下,我們依然無法避免在檢索“吳梅”時發現眾多“吳梅村”相關詞條的情況,簡而言之,數據庫在無意識檢索的層面可以速度驚人,卻依然無法代替人類進行有意識的搜索。
從這個角度看來,大數據時代,我們更要警惕的是“方法論”的錯位。前面已經提到,前人也構建過自己的“數據庫”,雖然和如今的數字文獻相比,它的規模無法同日而語,可恰恰是因為被人有意識地編纂,它的優勢在于其內在的系統性和相互之間的關聯性,“比如敦煌卷子中發現的很多小類書,像《孔子備問書》《隨身寶》《太公家教》及《兔園冊》等,它的包羅萬象和排列秩序,其實可以反映當時知識的定型和簡化”,這種系統性和關聯性交織在一起,構成的內在的自足性正是這一時期圖書的編纂者和閱讀者“共識性”知識體系的反映,在這種“共識性”的知識、思想背景之下,同時代或之后的學者分享、傳承彼此的知識與經驗,他們對未知知識的檢索的出發點源自于對既有知識的理解和掌握。如果我們不具備對“已知”的熟悉,而卻偏偏執著于“未知”的汪洋,所面對的,將是極其危險的處境。
即使我們盡最大所能規避以“未知”檢索“未知”的情況,卻依然無法忽視數據(數據庫)本身并不會說話的事實,面對同樣的數據,對文獻的分析和使用也是因人而異的,這種“橫看成嶺側成峰”極有可能導致截然相反的結論。1980年,美國威斯康辛大學陳炳藻先生在《紅樓夢》討論會上發表《從詞匯統計論證紅樓夢的作者》一文,通過統計《紅樓夢》的詞頻,認定后四十回也出自曹氏,一時引起巨大反響,是繼高本漢之后首次全方位運用電子檢索和統計的手段對《紅樓夢》進行研究,然而不久之后,中國學者陳大康先生同樣用精密的統計方法得出與之相左的結論:《紅樓夢》后四十回含有曹雪芹少量殘稿,但并非是作者原作。由此可以看出,數據本身并不會說話,即使在大數據時代,單單靠先進的統計方法,并不是解決人文學科相關問題的“萬能鑰匙”。
大數據時代下文史研究的新路徑
飛速發展的互聯網信息技術,讓我國的文史研究呈現出若干新趨勢、新特點。國家的戰略性規劃,各級政府和相關單位的持續投入,以及優秀學術人才的積極參與,都為我國文史文獻資源研究與建設的系統化、數字化、科學化打下了堅實的基礎。利用大數據技術研究中國古代文史,對其本身與相關領域的學科建設和學術發展,具有極其顯著的意義,這種意義尤其體現在研究范式與方法論的革新上。基于這樣的理解,筆者認為,大數據時代下的文史研究方法,可以在以下三個方面有所創新:
一是解決單憑人力難以徹底解決的疑難問題。如中國古代文學中的周邊國家意象與天朝朝貢體系以及中國古代對外交流關系的演化之間,是否存在聯系?對此類問題來說,數據庫是基礎,文本分析技術是核心,需要通過定量統計分析,進行作品的辨偽、異文對照,解決修辭特色及風格題材的變遷等懸疑難決的問題。二是重新驗證已有成說的史論。例如明代以李夢陽、何景明為代表的前七子,其詩文創作中是否落實了“文必秦漢,詩必盛唐”的主張?在大數據技術的幫助下,我們可以利用共詞及語義分析、人物事件交雜等思路,嘗試全新分析和檢驗諸如社團流派、人物關系、情節演進、階段特征、歷史影響等已有成說的問題。三是超越印象和定量分析層面,科學梳理文史中存在的特征、規律、關聯性問題。例如白居易有詩近四千首,陸游有詩詞近萬首,它們的格局、題材、修辭、風格在不同歷史時期發生過哪些變化?通過對某作家或某一類作品的深度學習,發揮其關聯分析、文本比對等技術優勢,挖掘到以往不曾注意到的跡象或線索,以期提高文學經典研究的科學性和可靠性。
現階段的中國古代文史研究,在數據分析方面雖然已經起步,但多局限于文獻數字化階段。主要用于數據內容存放和管理的數據庫仍然占據主流,而能夠實現分析統計的關系型文史數據庫仍然稀少。近些年,隨著《中華經典古籍庫》等數字化文獻資源庫的推出,數據庫在文獻檢索功能方面已有較大的進步,但結構化的實現統計分析和知識再生、運用數字人文的分析工具和技術方法來研究古代文史等功能,仍處在嘗試性階段,未成規模,影響也不大。如何建設更為豐富、完善的數據庫,如何使數據庫功能更加人性化與科學化,如何讓數據庫在文史研究中發揮更加重要的作用,仍是有待解決的問題。未來,文史研究學界只要與時俱進,解放思想,將文史資源的發掘、考證、研究置于科學技術進步和文化繁榮的背景之下,充分調動各方面資源,就能更好地保護、開發和利用我國的文史資源,使文史研究始終與國家同發展,同時代共進步。
(作者分別為上海師范大學人文學院博士研究生;南京大學文學院博士研究生)
【參考文獻】
①郭醒:《〈藝文類聚〉研究》,沈陽:遼海出版社,2010年。
②史睿:《數字人文研究的發展趨勢》,《文匯報》,2017年8月25日。
③葛兆光:《思想史的寫法——中國思想史導論》,上海:復旦大學出版社,2004年。
責編/周小梨 美編/楊玲玲
聲明:本文為人民論壇雜志社原創內容,任何單位或個人轉載請回復本微信號獲得授權,轉載時務必標明來源及作者,否則追究法律責任。