边界点是拓扑空间的基本概念之一。如果点ζ的任何邻域内都既有属于集合A的点,也有不属于A的点,则称点ζ为A的一个边界点。A的所有边界点组成的集合称为A的边界。1

定义边界点是拓扑空间的基本概念之一,边界概念是康托尔(Cantor,G.(F.P.))在研究欧几里得空间的子集情形时首先引入的。边界点及边界的定义如下:

设A是拓扑空间X的子集,x∈X,若x既不属于A的内部,又不属于A的外部,亦即x的任意邻域既含有A的点也含有不属于A的点,则称x是A的边界点。A的所有边界点组成的集合称为A的边界,记为.2

注:将A的全部内点组成的集合记为Ao,则有

举例例13 设A=[-1,0)∪{1/n | n∈N},则

例23 考虑有理点集Q,则

拓展边界点处理在数据挖掘技术中有重要意义,它们代表了一类归属并不明确的个体,如果单纯地依靠某种方法把其归类到一个特定的簇中,其效果往往适得其反。边界点不同于孤立点和噪声点。孤立点是一类在统计上处于少数地位的对象,噪声点是一类对统计产生干扰或者偏离一定分布的对象,它们通常位于数据空间的低密区域中,而边界点则不同,它们是数据空间中处于高密区域边沿的一类数据对象,它们的一侧是高密区域,一侧是相对的低密区域。

聚类技术的研究是近几年研究的一个热点,已经提出的许多聚类算法,但是,对聚类边界模式的探讨还不多。聚类的边界点是指位于高密聚类边沿的一类数据对象,它代表了游离在两个或多个类别之间的一类个体对象,其归属并不明确,它们常常具有两个或两个以上的聚类特征。边界点研究有着重要的应用价值。

Chen Xia等提出了聚类边界点检测算法BORDER,其边界点的定义如下:

定义 边界点(Boundary point):一个边界点p是指满足下列两个条件的数据对象:

(1)它位于一个高密的区域IR;

(2)p的附近存在一个区域IR’,Density(IR) >> Density(IR’),或者Density(IR)