“我受爸爸妈妈”里的“受”该改成“爱”?“不怕措折地奋斗”中的“措”实为“挫”?这些因拼音相近或字形相似引发的中文拼写错误,如今有了更精准的AI纠错方案。北京理工大学联合华为诺亚方舟实验室的研究团队,提出多模态预训练模型DRMSpell,通过动态权衡“文本、拼音、字形”三种信息,在中文拼写纠错(CSC)任务中刷新多项纪录,相关成果发表于《Frontiers of Information Technology & Electronic Engineering》。
中文纠错为何难?多模态信息“各唱各调”
中文拼写纠错是自然语言处理的关键环节,直接影响OCR(光学字符识别)、语音转文字等技术的落地效果。但中文“一字多音”“形近字多”的特性,让纠错任务充满挑战:比如“热”和“然”长得像,“措”和“挫”发音同,仅靠文本上下文,AI常因信息不足“卡壳”。
此前,研究者尝试引入拼音(语音)、字形(视觉)等多模态信息辅助纠错,但存在两大短板:一是各模态信息“简单叠加”,没考虑不同错误类型(如拼音错或字形错)需要侧重不同模态;二是预训练时“一刀切”替换所有模态信息,导致模型对噪声(如输入信息不全)的适应能力差。
DRMSpell:给多模态信息装个“智能裁判”
针对这些痛点,团队开发了DRMSpell模型,核心创新在于两大设计:
动态重加权多模态模块(DRM):如同给AI配备“智能裁判”,处理每个汉字时,会动态计算文本、拼音、字形三种模态的“重要度”。例如,遇到“热”和“然”这类字形相似的错误,模型会给“字形”更高权重;遇到“措”和“挫”这类拼音相同的错误,则更依赖“拼音”模态。这种“按需分配”的策略,让AI能根据上下文灵活调整信息优先级。
独立模态掩码策略(IMS):传统预训练中,若一个字被“掩码”(即替换为未知符号),其文本、拼音、字形信息会被同时替换。而IMS会独立处理各模态——比如文本用“热”,拼音用随机噪声“ren”,字形用正确的“然”。这种“出难题”的训练方式,让模型学会在部分信息错误或缺失时仍能准确纠错,抗干扰能力更强。
实验验证:多数据集“霸榜”,OCR纠错更擅长
在SIGHAN13、SIGHAN14、SIGHAN15等权威测试集上,DRMSpell表现亮眼:
- 在SIGHAN15的句子级纠错任务中,F1得分达80.6%,比此前最优模型提升1个百分点;
- 在OCR数据集(含大量形近字错误)中,句子级纠错F1得分比经典模型BERT高5.3个百分点,对OCR识别中“看走眼”的错误纠正更准。
团队还做了“压力测试”:当输入的拼音或字形有噪声(如拼音输错、字形模糊)时,DRMSpell仍能保持高准确率;若输入正确的字形,模型几乎能100%纠正错误——这验证了字形信息对中文纠错的关键作用(每个汉字的字形唯一,歧义更少)。
未来:让AI“更懂汉字”,赋能更多场景
“中文是象形文字,字形里藏着语义密码。”研究人员表示,DRMSpell的突破不仅提升了纠错准确率,更验证了多模态信息动态融合的有效性。未来,团队计划进一步探索字形与文本表示的差异,优化模型对多音字、生僻字的处理能力,助力OCR设备、智能客服、教育类APP等场景的文本处理更精准。
来源: 信息与电子工程前沿FITEE