甲骨文研究中,考释和缀合是公认的重点和难题。随着时代的发展,传统的甲骨文研究手段逐渐遇到瓶颈:已发现的5000多个甲骨文字中能够明确破译出来的只有1500字左右,余下的3000多字,或音不可卒读,或义不可明喻,或形不可构照,考释难度非常大,传统考释方法效果非常不明显,如何才能解决这些难题?

探寻大数据云计算新路径

大数据、云计算的发展为甲骨文研究提供了新的路径和方法。2000年,地处甲骨文发源地的安阳师范学院组建了甲骨文信息化处理团队。16年来,围绕甲骨文信息处理,学院积极整合校内资源,组成一支跨专业、多学科联合攻关的学术团队。凭借已经建成的甲骨文数据库的优势,安阳师范学院甲骨文信息处理团队开始尝试利用语言学、数学、计算机科学、信息技术对甲骨文进行语义、语法处理和知识挖掘。

“我们希望通过努力,实现甲骨文研究从传统的‘文献查阅—经验积累—突发冥想的研究范式’到‘大数据分析—多源异构信息融合—机器学习和知识推理’的新的甲骨文研究范式。”安阳师范学院副院长姚远峰说。

开发甲骨文数字化平台

开创新的研究范式,就要探索新的研究方法。安阳师范学院甲骨文信息处理团队根据成员自身研究方向和甲骨文研究趋势,重点开展了甲骨文语义、语法、字形、数据挖掘研究。

韩江苏是安阳师范学院历史与文博学院的博士,在研究中她发现甲骨文的考辨研究成果丰富,但因为缺乏全面系统的整理,检索起来非常困难。能不能把图、文、字结合起来,开发一个既全面又便捷的信息化资料库?为了将这一想法付诸实践,2001年,韩江苏牵头成立了“甲骨文信息化课题组”,并于2004年申报国家社科基金课题。十年辛苦磨一剑,2011年11月,课题最终成果——“甲骨文图文资料库”迎来了专家组的检查验收。资料库收录了《甲骨文合集》《补编》《英藏》等九种甲骨著录共72264片甲骨。5位国家社科基金鉴定专家认为,该资料库是目前世界上资料最全、检索最为方便、功能定位最明确的甲骨文资料库。

刘永革是安阳师范学院计算机与信息工程学院院长,也是甲骨文数字化平台研究小组的负责人。刘永革介绍,他们团队建设的甲骨文数字化平台已录入7万多条甲骨片资料,是目前国内外最大最全的甲骨文电子信息库。

电脑上输入甲骨文字,查找相应释义,还能查看该字多种写法的所有甲骨图片,这是以前想都不敢想的事情,现已变成现实。刘永革说:“甲骨文数字化平台为甲骨文研究者提供了一个多方位研究手段,未来,我们将朝着把‘一片甲骨惊天下’变成‘数字甲骨惊天下’的方向不断努力。”

让计算机成为“甲骨文专家”

甲骨文专家知识对甲骨文信息处理起着至关重要的作用,但是甲骨文专家知识的共享和传承程度极低。如何让计算机享有甲骨文专家的知识,为甲骨文进行知识挖掘奠定基础?构建甲骨文知识图谱是甲骨文信息处理团队一直努力的方向。“将甲骨文及相关学科的知识构建成大规模知识网络,这样我们就可以让计算机成为‘甲骨文专家’,我们就可以借此开展进一步的研究。”甲骨文信息处理团队成员熊晶说。甲骨文是目前发现最早的成系统的文字,现代汉字在语法和造字上与甲骨文是一脉相承的,熊晶以此还提出了以甲骨文为源头的“汉字基因”和“汉字家族”的概念,汉字的演变历史就是“汉字基因”的选择、交叉和变异过程。“我希望通过汉字的遗传算法计算,找到甲骨文破译的突破口。”熊晶说。

此外,安阳师范学院甲骨文信息处理团队还着手构建甲骨文拓片网络——借助甲骨拓片数据库,针对每个未识别甲骨字,通过多次计算,保留该字“可能性最大的前10~20个语义”,并把这个结果作为辅助考释线索提供给甲骨文专家,再由专家针对这些数量不多的“可能性最大的语义”进行下一步专业的推测和判断;甲骨文单字网络——构建包括甲骨文演化、拓片、语义、构件的多源异构复杂网络,进而利用复杂网络的自组织演化、可控性、信息挖掘和智能算法优化等多个方面解决甲骨文的重大问题;甲骨文语言可拓模型——将甲骨文语言形式化为可拓模型,建立起可拓甲骨文语言模型库,再通过对可拓模型的变换与推理使计算机用可拓方法理解甲骨文语言,为甲骨学研究提供一种新的计算机辅助研究方法。

安阳师范学院院长黑建敏表示,甲骨文是祖先赐给我们的珍贵礼物,未来,学院将利用大数据、云平台等现代技术手段,进一步加大甲骨文研究力度,传承好、发挥好甲骨文的作用,为弘扬中华文明作出安师人应有的贡献。(记者 王胜昔)