苗夺谦

CAAI粒计算与知识发现专委会主任、同济大学教授、IRRS/CAAI Fellow

摘要人工智能的目的是把人类智能赋予机器,使机器可以代替人完成脑力劳动。经过60多年的研究,机器智能取得了巨大提升,在某些具体领域已经超越人的智能。人工智能的主要研究内容涉及知识表示、知识获取、知识应用。也就是说,人工智能是围绕“知识”展开研究的,然而,什么是知识?在人工智能领域并没有形式化的定义。对精确知识的处理,机器智能早已超越人类;因此,要进一步提高机器智能,重中之重是对不精确知识的处理。粒计算理论是模拟人类对复杂问题求解的 一种新范式。它从信息粒的角度,重新审视不精确问题,试图揭示不精确性的本质与机理。本文将以粒计算理论的模型之一——粗糙集模型,介绍知识的形式化定义;不精确概念边界的计算方法等;以及它对人工智能发展的贡献。

关键词 粒计算;人工智能;概念;知识;知识发现

1. 粒计算理论

粒计算是复杂问题求解的一种新的计算范式,它以结构化思维、结构化问题求解方法、结构化信息处理模式为研究对象,属于人类较高层次认知机理研究的范畴。由于其抽象了人类以多层次、多视角处理问题时所表现出全局观和近似求解能力,粒计算逐渐成为不确定性问题求解的重要理论,其基本思想如图1所示。在过去的30多年中先后涌现出词计算、粗糙集、商空间、云模型、三支决策等经典粒计算理论模型。这些模型已经成功应用于大数据分析与挖掘、知识发现、

复杂问题求解等领域。

图1 粒计算基本思想

1.1 发展历程

美国控制论专家L.A.Zadeh教授指出Cantor集合论为了达到精确和严格的目的,将思维过程绝对化,而现实世界中复杂事物不可能绝对精确,存在着大量模糊现象,于是在1965年提出模糊集合论,其主要思想是使用“隶属函数”对“属于”或“不属于”之间的过渡状态进行量化,对经典集合论进行推广。

在模糊集的基础上,Zadeh于1979年首次提出并讨论了模糊信息粒度化问题,他认为信息粒的概念存在于很多领域中,如自动机与系统论中的“分解与划分”、区间分析里的“区间数运算”等。美国Stanford大学J.R. Hobbs教授于1985年,发表了题为“Granularity”的论文,讨论了粒的分解与合并,提出了产生不同大小粒的模型和方法。1996年,Zadeh提出“词计算理论”,标志着模糊粒度理论的诞生。

粗糙集理论由波兰科学院院士Z.Pawlak于1982年提出,它是关于关系型数据库推理的一种数学工具。其基本思想是利用不可分辨关系(等价关系)构成对象的等价类,所有的等价类构成论域的划分,从而建立一个近似空间。对于任意概念(集合),可以利用近似空间中的一对精确概念(集合)(下近似集和上近似集)来表示,从而建立概念(集合)的边界定义。

1996年,T.Y. Lin教授在加州大学伯克利分校访问时,向Zadeh提出了“Granular Computing”(粒计算,缩写为GrC)的研究,至此,粒计算一词正式诞生。随后,他讨论了二元关系下的粒计算模型,论述了粒结构、粒表示、粒应用等方面的问题。

我国学者张钹院士于1990年提出了基于“商空间”的粒度计算模型。商空间理论用商集表示不同的粒度层次,建立不同粒度世界之间的保真、保假原理。该理论通过观察当前粒度空间是否可解,来决定是否进入更细、更深的粒度空间,将不同粗细的粒世界上的粒的解组合成原问题的解,并提出一种商粒度空间上的多粒度表示法,构建多粒度的分层递阶商空间结构。

20世纪末,我国学者李德毅院士在概率论和模糊数学理论基础上,提出了“云模型”,通过赋予样本点以随机确定度来统一刻画概念中的随机性、模糊性及其关联性。基于云模型的云变换可以实现不同粒度层次上概念的合成和分解,可以实现定性概念与定量数值之间的双向转换,是一种可变粒计算模型。

加拿大里贾纳大学的Y. Y. Yao教授于1999年提出了基于邻域系统的粒度计算模型,对粒度计算进行了研究,提出了粒计算的三元论观点,即“结构化的思维,结构化的问题求解方法,结构化的信息处理模式”。在此基础上,他提出了“三支决策模型”,进而提高决策的准确性,为智能决策提供了新模型。

进入21世纪后,粒计算理论得到国内外越来越多学者的关注与研究。

1.2 主要模型

粒计算理论的代表性模型有模糊集、粗糙集、商空间、云模型和三支决策等,其中,基于模糊集的词计算模型侧重于信息的模糊粒化,以处理计算对象的不确定性为主要目标;而粗糙集、商空间、云模型和三支决策则侧重于不同粒度上复杂问题的不确定性,以复杂问题的多粒度求解为主要目标。

(1)模糊集模型

模糊集合论是通过计算对象关于集合的隶属程度来近似描述不确定性,反映了集合边界的不分明性。

经典模糊集(也称为一型模糊集)中隶属度反映了对象属于模糊集的程度。

隶属度越小,说明属于的程度越低;隶属度越大,说明属于的程度越高。

对信息的模糊粒化,使得计算机能在不精确,以及部分精确的环境下给出合理的决策成为可能。随着模糊集理论的不断发展完善,以模糊逻辑和信息粒化为基础的模糊信息粒化理论将进一步发展,并为词计算模型的发展奠定基础。

(2)粗糙集模型

将在第2章单独重点介绍。

(3)商空间模型

张钹院士在研究复杂问题求解时,独立地提出了商空间理论,将不同的粒度世界与数学上的商集概念统一起来。根据研究目的的不同,商空间理论对同一问题可以构造不同的商空间,从而得到原问题不同角度、不同层次的解,最后综合这些解构成原问题的解。商空间理论中,由等价关系产生论域的不同商集及其对应的商空间构成了原问题的不同粒度世界。分层递阶商空间链可以表示问题的不同粒度空间,利用商空间的保真、保假原理,建立不同粒度空间之间的联系,在不同的粒度世界上进行推理,从而简化问题和加快问题求解的速度。

(4)云模型

云模型是由李德毅院士在概率论和模糊数学理论基础上,独立提出的定性定量转换的认知模型,它可以实现定性概念与定量数值之间的双向转换。云模型通过赋予样本点随机确定度来统一刻画概念的随机性、模糊性及其关联性,利用期望、熵、超熵三个数字特征来整体表征一个定性概念,并通过正向云发生器、逆向云发生器算法形成定性概念与其定量表示之间的不确定性转换。

(5)三支决策模型

在传统的“接受”“拒绝”二支决策选项基础上,加拿大华人学者Y. Y. Yao教授将“不承诺”选项引入其中,提出了三支决策模型。该模型可以有效地规避对象认知不确定情况下误接受或误拒绝所造成的损失。同时,对不承诺项的再研究,可细化对决策对象的认知粒度,进而提高决策的准确性。

近年来,越来越多的国内外学者从事粒计算领域的研究工作,对以上经典的粒计算模型进行推广与扩展,并应用到多个研究领域。

2 粗糙集模型

本章重点而简要介绍粗糙集模型,同时指出其对人工智能的贡献。

2.1 粗糙集模型

大家知道,人工智能的主要研究内容包括知识表示,知识获取,知识应用。即,人工智能是围绕知识展开研究的。但什么是知识?人工智能教科书中并没有给出形式化的定义,这就使得人工智能的研究缺乏科学坚实的基础,在当前人工智能研究正热火朝天的时候,不能不说是一种遗憾。

什么是知识?百度百科是这样解释的:知识是辨别事物的能力。波兰科学院院士Z. Pawlak上世纪70年代初在研究关系型数据库推理问题时,就是抓住了知识的这一特质,甘坐10年冷板凳,给出了知识的形式化定义,创立了粗糙集理论。

Pawlak对知识做了如下联想:知识→对象的划分→等价关系。从而,给出知识的形式化定义。

定义1 知识

假设U是感兴趣的对象组成的非空集合,R是定义在U上的一簇等价关系。则K =(U,R) 称之为一个知识(库)。

这是粗糙集理论对人工智能的第一大贡献。

概念是具有语义的最小单位,现实世界中的概念绝大多数是不精确概念。哲学家在几百年前对其已做了深入的研究,并给出了不精确概念的判据,即,如果一个概念的边界是非空的,则这个概念是不精确的。不精确概念对于模糊学者来说就是模糊概念;对于统计学者来说就是不确定概念;对于粗糙学者来说就是粗糙概念。

定义2 概念的边界

粗糙集理论首次实现了哲学家对不精确概念判定的可计算,这是对人工智能的第二大贡献。

2.2 对人工智能的贡献

宋代苏轼的诗“横看成岭侧成峰,远近高低各不同……”恰如其分地反映了粒计算的思想,为复杂问题求解提供了一条新途径。粗糙集模型是一种典型的粒计算模型,它对知识给出了一种形式化定义,这是粒计算对人工智能的第一大贡献;同时,粗糙集对任意一个概念都可以计算其在某种知识下的边界,实现了哲学家对不精确概念的可计算,这是粒计算对人工智能的第二大贡献。

总的来讲,粒计算提倡多粒度知识表示、多粒度知识获取、多粒度问题求解,将为不精确(不完备、不一致、不确定)问题求解提供一种途径,为人工智能的进一步发展做出更大贡献。

来源: 中国人工智能学会通讯