“不怕措折地奋斗”中的“措”应为“挫”,“我受爸爸妈妈”中的“受”应为“爱”——这些因发音相同(措/挫,cuò)或字形相近(受/爱)导致的拼写错误,在日常沟通、OCR识别(如扫描文件)中屡见不鲜。传统拼写纠错模型常像“一刀切”的医生,无法精准区分错误类型,纠错准确率长期卡在75%左右。近日,北京理工大学团队在《Frontiers of Information Technology & Electronic Engineering》发表研究,提出多模态预训练模型DRMSpell,通过让AI同时“看字形、听拼音、读文本”,在权威数据集上实现句子级纠错F1分数80.6%的新纪录,尤其擅长处理“形近字”“同音字”等棘手错误。
中文纠错难在哪?“音形陷阱”让AI犯迷糊
中文拼写纠错(CSC)堪称NLP领域的“细节魔鬼”。不同于英文仅26个字母,汉字兼具“形、音、义”三重属性:一个拼音(如“shū”)对应多个声调,每个声调又可能对应十几个汉字(如“书、输、舒”);而字形相近的字(如“己、已、巳”)更是“双胞胎”,连人类都常混淆。
传统纠错模型要么只看文本上下文,像“闭目猜字”;要么简单拼接拼音、字形信息,如同“把三种食材乱炖”,无法针对不同错误类型动态调整注意力。例如纠正“热后我应该回到家”(应为“然后”)时,模型若只关注拼音“rè”,可能误判为“惹”;若只看字形“热”,又可能错改成“然”的形近字“燃”。
DRMSpell:给AI装“模态调节器”和“独立出题官”
团队提出的DRMSpell模型,相当于给AI配备了两个“神器”:
动态重加权多模态(DRM)模块——像“交通指挥官”协调三种模态信息。当遇到音近错误(如“受”误为“爱”,均读ài),模块会给拼音模态“开绿灯”,权重提升至0.58;遇到形近错误(如“热”误为“然”),则让字形模态“唱主角”,权重占比超60%。这种动态调整,解决了传统模型“一碗水端平”导致的模态信息浪费问题。
独立模态掩蔽策略(IMS)——如同“给不同模态独立戴口罩”。训练时,随机对文本、拼音、字形中的一个或多个模态“打码”,迫使模型通过剩余模态推理正确字符。例如掩蔽“然”的拼音,只给文本“热”和字形“?”(模拟OCR识别错误),模型仍能通过字形联想纠正为“然”。这种“逆境训练”让模型对模态噪声更健壮,比如拼音输入错误时(如“ren”误为“ran”),纠错准确率仍保持79%以上。
实测:OCR纠错提升5%,参数规模更轻巧
在SIGHAN中文拼写纠错 benchmark(包含1.2万句真实错误文本)上,DRMSpell表现亮眼:句子级纠错F1分数达80.6%,较现有最优模型DORM提升1个百分点;在OCR扫描文本纠错任务中,句子级纠错F1分数65.4%,比BERT(60.1%)、ChineseBert(63.0%)分别提升5.3和2.4个百分点,尤其擅长修复扫描模糊导致的“形近字”错误(如“机”误为“札”)。
更难得的是,DRMSpell参数规模仅1.5亿,远小于融合语音、图像的PHMOSpell(2.68亿),却实现了更高性能。这意味着它能在普通服务器上高效运行,降低工业落地成本。
未来:让AI“读懂”汉字形音义
目前DRMSpell已展现出在OCR文档处理、语音转文字(ASR)等场景的应用潜力。团队表示,下一步将探索汉字“形义关联”——比如“河、湖、海”都带“氵”,暗示与水相关,让模型从字形结构中学习语义规律,进一步提升纠错鲁棒性。
来源: 信息与电子工程前沿FITEE