打造专业领域的“智能化引擎”

现代社会,数字化信息无处不在。人们面临的海量信息来自各种不同领域,呈现着不同形式。人们如何有效处理和利用这些信息,提高工作或生活的效率,解决现实中面临的各种难题呢?为此,科研人员研发了很多不同门类、不同领域的信息处理技术,但大多只能处理特定类型的数据,无法跨越不同行业领域及不同数据形式的鸿沟。

即便是当前风头正盛的生成式AI,也主要在以文字形式为主的文本编辑中大显身手,而且由于种种因素,其对于专业领域的数据处理往往漏洞百出,容易对用户产生误导。实际上,“互联网+”时代,产生了大量多模态、跨领域的数据信息,而且很多的数据产生或集成机构会出于安全、保密等各方面因素考虑,不愿意将一些特定数据信息公开,这也加大了通用型信息处理的难度。

为此,有人设想:能否研发出一套信息处理技术,既能综合处理包括文字、表格、图片、音频、视频等各种形式的数据信息,又能根据每个具体行业的特点,对专业、垂直领域的信息进行高效处理,从而让客户既能获得专业的数据分析服务,又能满足自有数据的安全、保密需要。

2018年,主要致力于数字政府、智慧城市及关键行业数字化转型服务的太极计算机股份有限公司(以下简称“太极计算机公司”)基于承担的国家重点研发计划等多个司法专项课题研究,孵化了“多模态跨领域信息智能处理关键技术研究及产业化应用”项目,力图通过科技攻关,跨越数据形态及行业领域的鸿沟,为用户提供既便捷高效又专业精准的信息处理服务。

实现多种形式数据信息的综合处理

太极计算机公司开发的这套技术系统最大特点就是可利用人工智能和机器学习算法,同时处理如文字、图像、声音、图表等多种形式的数据信息,且不受行业领域限制可以进行快速复制。它能够自动提取数据中的关键信息,并进行分析和处理,从而提供全面且准确的信息处理结果。

项目正式立项后,太极计算机公司迅速组织了一支跨学科的团队,包括计算机专家、数据科学专家、业务领域专家,共同进行技术研究和开发。研究过程中,项目组进行了大量的实验和数据分析,不断优化算法和模型。同时还与一些合作伙伴开展合作,共享数据和资源,加快了研发进程。

经过多次迭代和测试,最终成功地开发出了这套“多模态跨领域信息智能处理系统”,并获得了北京市科技进步二等奖。这项技术的重要意义在于为各个行业和领域提供了一种全新的信息处理方法,特别是比较注重数据信息保密与安全的司法、政务以及企业法务等领域,都可以利用这项技术来处理和分析各种类型的数据,从而更好地理解和应用信息,解决具体的问题。

比如在司法系统中,法官和律师需要处理大量的案件和相关信息,包括诉讼文件、证据材料、法律文本、语音记录或视频材料等。传统上,这些信息会以纸质或电子文档的形式存在,需要人工一页一页或一张一张进行阅读或观看,如果是音频或视频,还得花大量时间去听、去看。这样的方式非常费时费力,面对海量的信息数据,还很容易出现关键信息的遗漏或误解。

而利用这种新开发的信息处理技术,法院可以将不同形式的数据信息进行自动化处理和分析,如系统可以自动识别和提取案件中的关键信息,包括当事人的身份、法律条款的引用和证据的重要细节。同时,系统还可以通过分析文本、图像图表和语音数据之间的关联性,帮助法官或律师更好地理解案件,进而作出准确的判断。比如,它能从一个案件各种形式的信息中或按时间线列出案件发生的大致脉络,或按当事人的生活习惯、工作特点、社会关系等大致推断出其与案件的关联程度。

这项技术还可以用于自动化的语音识别和语义分析。比如在庭审过程中,法庭记录员通常需要记录诉讼双方的陈述和法官的指示,这对于准确记录案件细节至关重要。应用该技术,语音记录可以自动转换为文本,并进行实时的语义分析,以捕捉重要的论点和法律观点,这将大大减轻记录员的工作负担,同时提高记录的准确性和及时性。

产学研协作解决数据收集、文本翻译等技术难点

当然,开发这样一套系统并不容易,好在太极计算机公司在信息处理领域已深耕多年,有深厚的技术积累。项目团队在研发过程中尽管也遇到过诸多问题、难关,但通过坚持不懈的努力,最终都克服了困难,顺利地推进了技术的研发。

尤其是在数据的获取和处理过程中,对于多模态的数据,如文字、图像和声音等,收集、整理和处理数据都是难度很大的挑战,需要大量的数据来训练和验证算法,但不同类型的数据可能有不同的来源,格式也不尽相同。对此,项目团队选择了与合作单位、科研机构和数据提供商进行协作,共享数据和资源,以此获得了更为丰富和多样化数据集,从而保障了数据训练和算法的验证。

这个系统当前最主要的领域是司法方面,但在这些领域,法律文件和判决书通常使用专业的法律术语和复杂的句子结构,这些“法言法语”理解起来有一定难度,在处理这些文书时,往往需要将其转化为更简明易懂的语言,以便法官、律师和当事人更好地理解。为了解决这个问题,项目团队与法学专家进行合作,开发了相应的自然语言处理算法,能够分析和转换法律文本,以便更好地传达法律意义。

司法领域尤其强调数据信息的保密性。为此,项目团队与信息安全专家和法律顾问合作,确保系统的设计和实施符合相关法规,并采取合适的数据保护措施,充分保障了数据的安全性和隐私。

推动我国各行业“智慧化”快速演进

这套技术系统既具有基础架构的通用性,也具有上层应用的专业性,可以在很多专业领域实现定制化服务。在一些特定行业领域,通过系统生成的相关文本,如关键信息汇总、分析报告等,与ChatGPT等通用平台生成的文本相比,其专业度、精准性等方面都具有非常明显的优势。

2021年6月,“多模态跨领域信息智能处理关键技术研究及产业化应用”项目正式结题,一推出就受到各行业领域的普遍欢迎。特别是在智慧政务领域,它构建了“互联网+监管”“互联网+政务”、执法监督、电子证照等多模态信息智能处理业务体系,在国家政务服务平台、教育部、科技部、公安部、司法部、文化和旅游部、应急管理部、海关总署、国家移民管理局、北京市政务服务管理局、北京市民政局等都开展了各类深度应用推广。

在智慧政法方面,相关项目成果在最高法院组织的全国法院卷宗处理系统测试中取得了第一名的好成绩,作为项目承接单位的太极计算机公司也成为最高法院指定的卷宗文书材料智能处理单位。此外,此项技术系统也在西藏、江西等省的高级人民法院以及深圳市中级人民法院、北京市公安局、苏州市公安局、南京市公安局等政法单位得到了良好应用。

这套“多模态跨领域信息智能处理系统”也能与企业管理业务融合,构建起协同办公平台、智能核稿或审稿、合同智能审查、智能问答等系统,有效提高了企业管理的智能化水平,在提升效率的同时降低了运营成本。目前,航天科工、中国电科、中石油、中石化、中移动等30余家在京央企都已采用了这套系统。

除此之外,项目成果还在科技、教育、应急、交通、文化旅游、医疗、媒体等国计民生行业得到快速推广应用,并在促进数字经济快速发展,实现数字政府及数字化转型等方面产生了显著的社会效益。

来源: 北京科技报社

内容资源由项目单位提供