“不怕措折地奋斗”里的“措”该改成“挫”?“我受爸爸妈妈”中的“受”其实是“爱”?这些因拼音相近或字形相似导致的中文拼写错误,AI现在能更精准地识别纠正了。近日,北京理工大学团队提出的多模态预训练模型DRMSpell,通过动态权衡“看字形、听拼音、读文本”三种信息,在中文拼写纠错(CSC)任务上实现突破,多项指标刷新当前最优(SOTA)。相关成果发表于《Frontiers of Information Technology & Electronic Engineering》。
中文纠错难在哪?多模态信息“各说各话”
中文拼写纠错是自然语言处理的核心任务之一,直接影响OCR(光学字符识别)、语音转文字等技术的准确性。但中文“一字多音”“形近字多”的特点,让纠错变得棘手——比如“热”和“然”字形相似,“措”和“挫”拼音相同,AI仅靠文本上下文常“拿不准”。
此前,研究人员尝试引入拼音(语音)、字形(视觉)等多模态信息辅助纠错,但现有方法存在两个问题:一是各模态信息“简单相加”,没考虑不同错误类型(比如拼音错或字形错)需要侧重不同模态;二是预训练时“一刀切”掩码所有模态,模型对噪声(如输入信息不全)的鲁棒性不足。
DRMSpell:给多模态信息装个“智能裁判”
针对这些痛点,团队提出DRMSpell模型,核心有两大创新:
动态重加权多模态模块(DRM):就像给AI装了个“智能裁判”,处理每个字时会动态计算拼音、字形、文本三种模态的“重要度”。例如,遇到“热”和“然”这类字形相似的错误,模型会给“字形”模态更高权重;遇到“措”和“挫”这类拼音相同的错误,则更依赖“拼音”模态。这种动态调整让AI能根据上下文“灵活取舍”。
独立模态掩码策略(IMS):传统方法预训练时,若一个字被掩码,所有模态(文本、拼音、字形)都会被替换。而IMS会独立掩码各模态——比如文本用“热”,拼音用“ren”(随机噪声),字形用“然”(正确字形)。这种“出难题”的训练方式,让模型学会在部分信息错误或缺失时仍能正确纠错,鲁棒性更强。
实验结果:多数据集“霸榜”,OCR纠错更擅长
在SIGHAN13、SIGHAN14、SIGHAN15等权威测试集上,DRMSpell表现亮眼:
- 在SIGHAN15的句子级纠错任务中,F1得分达80.6%,比此前最优模型提升1个百分点;
- 在OCR数据集(含大量形近字错误)中,句子级纠错F1得分比BERT提升5.3个百分点,对“看走眼”的OCR错误纠正更准。
团队还做了“压力测试”:当输入的拼音或字形有噪声时(比如拼音输错、字形模糊),DRMSpell仍能保持高准确率;若输入正确的字形,模型几乎能100%纠正错误——这验证了字形信息对中文纠错的关键作用(因为每个汉字的字形是唯一的,歧义更少)。
未来:让AI“更懂汉字”,助力更多场景
“中文是象形文字,字形里藏着丰富的语义信息。”研究人员表示,DRMSpell的突破不仅提升了纠错准确率,更验证了多模态信息动态融合的有效性。未来,团队计划进一步探索字形与文本表示的差异,优化模型对复杂汉字(如多音字、生僻字)的处理能力,助力OCR、智能客服、教育类APP等场景的文本处理更精准。
来源: 信息与电子工程前沿FITEE