聚类分析在数据挖掘技术中的应用研究
来源:乌哈旅游
2010年10月总367期 聚类分析在数据挖掘技术中的应用研究 郑砚月 (贵州大学计算机科学与信息学院中图分类号:TP 文献标识码:A 贵州贵阳550025) 文章编号:1007—0745(2010)10—0140—01 摘要:随着数据挖掘技术的广泛应用,数据挖掘所面对的数据对象目趋复杂 聚类研究也面I临 更多新的内容 和挑战 本文针对数据挖掘r技术,尤其是对聚类分析进行 较为系统的分析和研究。_一 关越坷 数据挖掘_象类分衍 。 。 0 。 0 0 数据挖掘『1]在数据库技术和信息领域研究的热点,也是最有发 展前景的主要技术之一。数据挖掘的根本就是统计学,而在统汁方法 中,聚类分析『21是多元数据分析的三大方法之一,因此聚类分析作为 数据挖掘的核心技术已经成为这个研究领域中一个相当活跃的研究 课题。聚类分析是通过分析事物的特征聚类或分类事物。本文主要分 析数据挖掘领域的聚类分析方法及其代表算法,并从多个方面比较 常用算法的性能,最后详述了数据挖掘中聚类分析的应用。 1、聚类分析研究的热点 聚类结果的有效性 在传统的聚类分析方法中,通常都是只能识别凸形或球形的 簇。对于复杂的簇的识别能力较低。而由于数据库规模的不断增 大,数据库中的簇也变得越来越复杂,在数据库中存在大小、密 度、形状各不相同的簇,而有些簇之间的差别也不明显,怎样去识 别这些簇就是目前要研究的问题。 1.2聚类性能 的簇{xi}(i=l,2,3…N),它的聚类特征向量定义为:CF=(N,LS,SS) 其中N为簇中点的个数,LS反映了簇的重心,用来表示N个点 ,的线性和(∑: O i),SS反映了类直径的大小,表示数据点的平方和 (∑ O i2 o 2.4 DBSCAN算法 DBSCAN算法能够把足够高密度的区域划分为簇.并能在带有 噪声的空间数据库中发现任意形状的聚类。该算法定义簇为密度相 连的点的最大集合。如果采用空间索引。此算法的计算复杂度为0 (nlogn),其中n是数据库中对象数目。否则,计算复杂度为O(n2),在参 数设置恰当的情况下,DBSCAN能够有效的发现任意形状的簇。 2.5 STING算法 STING[S]是一种基于网格的多分辨率聚类技术,它划分空间区 域为矩形单元。对于不同级别的分辨率具有多个级别的矩形单元。 这些矩形单元就形成一个层次结构:将高层的每个单元划分为多 个低一层的单元。能够很容易的从低层单元的计算获得高层单元 的统计参数。因为存储在每个单元中的统计信息提供了单元中的 数据不依赖于查询的汇总信息,S,I1NG的计算是独立于查询的。 STING的主要优点就是高效率,并且利于并行处理和增量更新。 2.6 C0BWEB算法 作为机器学习的一种聚类方法.概念聚类方法通常采用统计学的 途径,在决定概念或聚类时使用概率度量。COBWEB算法是以一个分 类树的形式创建层次聚类的,其输入的对象用分类属性值来描述。 3、聚类分析在数据挖掘中的应用 作为数据挖掘的一个功能,聚类分析可以用作得到数据分布 情况的一个独立的工具,用来观察每个簇的特征,集中对特定的 簇做进一步的分析。聚类分析能够作为数据挖掘中其他算法的预 处理过程,这些算法在生成的簇上进行处理。另外还能够用于孤 立点分析。聚类分析在客户分类、基因识别、WWW文本分类、空 间数据处理、卫星照片分析、医疗图像自动检测等众多领域都有 着非常广泛的应用。数据挖掘、机器学习、统计学、空间数据库技 术、生物学和市场学的发展推动着聚类分析研究的发展,使聚类 分析成为目前数据挖掘研究的一个热点。 结语 随着数据库规模的不断增大,数据仓库的出现以及互联网的 高速发展,怎样寻找对于数据个数和维数都有很好的可伸缩性的 算法成为目前研究的一个重要的问题 1_3复杂数据聚类 在聚类分析的新应用中,聚类的对象由传统的数据库中同一模式 的数据变为高维的的数据。还有一些聚类算法的研究不再是建立在数 据空间或降维的基础上来进行,例如:ROCK,PDDP,CLIQUE等。 2、数据挖掘领域中常用的聚类算法 2.1 CLARANS算法 划分方法『3]中最早提出的算法多数都是对小数据集合非常有 效,而对于大数据集合没有良好的可伸缩性,如PAM、CLARA是基于 K一中心点类型的算法,能处理更大的数据集合。CLARA算法是不考 虑整个数据集合的,它随机的选择实际数据的一小部分作为样本,用 PAM方法从样本中选择中心点。CLARANS是CLARA算法不像 CLARA那样每个阶段选取一个固定样本。而是在搜索的每一步都随机 性的选取一个样本.在替换了一个中心点后得到的聚类结构称为当前 聚类结果的邻居,搜索的邻居点数目被用户定义的一个参数加以限制。 如果找到一个比它更好的邻居,就把中心点移到该邻居节点上,否则把 该点作为局部最小量。然后,再随机选择一个点来寻找另一个局部最 小量。该算法的计算复杂度大约是O(n2),n是对象的数目。 本文讨论聚类分析的研究热点.并详细介绍了数据挖掘中常 用的聚类算法,分析聚类分析技术在数据挖掘中的广泛应用。 2.2 CURE算法 CURE算法选择基于质心和基于代表对象方法之间的中间策 参考文献: 略。该算法首先把每个数据点看成一簇,然后再以一个特定的收 [11范明、孟小峰译.数据挖掘:概念与技术——聚类分析[M].北京: 缩因子向中心“收缩”它们。即合并两个距离最近的代表点的簇。 机械工业出版社,2007,251—3o0. 这种算法把一个簇用多个代表点来表示.使它能够适应非球形的 【2]朱明.数据挖掘[MI.合肥:中国科学技术大学出版社,2002,154— 几何形状。其次,收缩因子降底了聚类中噪音的影响,从而使其对 157.孤立点的影响更健壮,同时可以识别非球形和大小变化较大的 【31毛国君、段立娟、王实、石云.数据挖掘原理与算法fMJ.北京:清 簇。CURE的复杂度是0(n),n是对象的数目。 华大学出版社,2006.156—182. 【41李浪波.聚类分析在科学数据挖掘中的应用研究【D].电子科技大 2.3 BIRCH算法 BIRCH[4]是一个综台的层次聚类方法。该算法利用聚类特征 学。2006. 和聚类特征树fC 概括聚类描述:对于一个具有N个d维数据点 [51周东华.数据挖掘中聚类分析的研究与应用[D】.天津大学,2006. 一140—