您的当前位置:首页数据挖掘论文

数据挖掘论文

2021-06-11 来源:乌哈旅游


K-最临近分类算法 K-Nearest Neighbour

课程名称 数据仓库与数据挖掘 院(系) 计算机学院、软件学院 专 业 计算机科学与技术 指导老师 叶水仙 班 级 姓 名 时 间

1

摘 要

K-最临近分类算法(kNN)是著名的模式识别统计学方法,是最好的文本分类算法之一,在机器学习分类算法中占有相当大的地位,是最简单的机器学习算法之一。

随着当今社会,计算机的普遍使用,出现了连绵不断的文本文件,如何对这些毫无逻辑、毫无层次的文件进行分门别类的整理,做到井井有条,层次鲜明呢?

文本自动分类就是针对上述情况,采用机器,通过一定的约束条件和一些分类算法,自动的对这些文件进行遍历,从而实现分门别类。这样用机器代替人来“阅读”文章,用机器代替人来“整理”文章,不仅减轻了工作人员的负担,而且大大节省了时间,工作人员可以去做更多有意义的事情。

KNN算法的核心思想是,通过计算每个训练样本到待分类数据的距离,取和待分类数据距离最近的K个训练样本, K个样本中哪个类别的训练样本占多数,则待分类数据就属于哪个类别。本文旨在利用K-最临近分类算法进行数据挖掘。

关键词:kNN算法;文本分类;分类算法;数据挖掘;

ABSTRACT

KNN algorithm, a famous statistical method of pattern recognition,which is one of the best algorithms for dealing with text categorization, is playing an important role in machine learning classification algorithm, and it is one of the simplest algorithms in machine learning.

With today's society, the widespread use of computers, the continuous of the text file, how about these no logic, no level of sort, classify files on do in perfect order, hierarchy and bright?

Text automatic classification is according to the above situation, using the machine, through a certain constraint condition and some classification algorithm, automatic to traverse these files, so as to realize classify. So using machines instead of people to \"read\placing workers with machines not only reduce the burden of the staff, and greatly saves time and staff do more meaningful things.

Thecore idea of KNN is to be classified, the distance ofdata calculated for each training sample, and the data from the nearest K training samples, which category K sample training samples inthe majority, are to be classified data belongs to which category. This article is for the purpose of data mining using K-Nearest Neighbour.

Key words:KNN algorithm, Text classification, Classification algorithms, data mining

1.研究背景及现状

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法: C4.5,k-Means, SVM, Apriori,,EM, PageRank, AdaBoost,kNN,Naive Bayes,,and CART。

国外对于文本分类的研究开展较早,20世纪50年代末,H.P.Luhn[3]对文本分类进行了开创性的研究将词频统计思想应用于文本分类,1960年,Maro发表了关于自动分类的第一篇论文,随后,K.Spark,GSalton,R.M.Needham,M.E.Lesk以及K.S.Jones等学者在这一领域进行了卓有成效的研究。目前,文本分类已经广泛的应用于电子邮件分类、电子会议、数字图书馆]、搜 索引擎、信息检索等方面[4]。至今,国外文本分类技术在以下一些方面取得了不错的研究成果。

KNN算法是对NN(nearest neighbor)算法即近邻算法的改进,最初的近邻算法是由T.M. Cover,在其文章”Rates of Convergence for Nearest Neighbor Procedures,”中提出的,是以全部训练样本作为带标点,计算测

2

试样本与所有样本的距离并以最近邻者的类别作为决策,后学者们对近邻算法进行了各方面的改进。KNN算法最初由Cover和Hart于1968年提出[8],是一个理论上比较成熟的方法。

2.数据及来源

1)数据理解

选择第二包数据Iris Data Set,共有150组数据,考虑到训练数据集的随机性和多样性,选择rowNo模3不等于0的100组作为训练数据集,剩下的50组做测试数据集。

(1) 每组数据有5个属性,分别是:1. sepal length in cm 2. sepal wrowNoth in cm 3. petal length in cm 4. petal wrowNoth in cm 5. class:

-- Iris Setosa

-- Iris Versicolour -- Iris Virginica

(2) 为了操作方便,对各组数据添加rowNo属性,且第一组rowNo=1。 2)数据清理

现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致。

(a)缺失值:当数据中存在缺失值是,忽略该元组(注意:本文选用的第二组数据Iris Data Set的Missing Attribute Values: None)。

(b)噪声数据:本文暂没考虑。 3)数据来源: 数据堂。

3.方法及基本原理

KNN(k Nearest Neighbors)算法又叫k最临近方法,假设每一个类包含多个样本数据,而且每个数据都有一个唯一的类标记表示这些样本是属于哪一个分类, KNN就是计算每个样本数据到待分类数据的距离,如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事

3

先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

(1)算法思路:

K-最临近分类方法存放所有的训练样本,在接受待分类的新样本之前不需构造模型,并且直到新的(未标记的)样本需要分类时才建立分类。K-最临近分类基于类比学习,其训练样本由N维数值属性描述,每个样本代表N维空间的一个点。这样,所有训练样本都存放在N维模式空间中。给定一个未知样本,k-最临近分类法搜索模式空间,找出最接近未知样本的K个训练样本。这K个训练样本是未知样本的K个“近邻”。“临近性”又称为相异度(Dissimilarity),由欧几里德距离定义,其中两个点 X(x1,x2,„xn)和Y(y1,y2,„yn)的欧几里德距离是:

222 D(x,y)(xy)(xy)...(xy)1122nn未知样本被分配到K个最临近者中最公共的类。在最简单的情况下,也就是当K=1时,未知样本被指定到模式空间中与之最临近的训练样本的类。

(2)算法步骤:

step.1---初始化距离为最大值

step.2---计算未知样本和每个训练样本的距离dist step.3---得到目前K个最临近样本中的最大距离maxdist

step.4---如果dist小于maxdist,则将该训练样本作为K-最近邻样本 step.5---重复步骤2、3、4,直到未知样本和所有训练样本的距离都算完 step.6---统计K-最近邻样本中每个类标号出现的次数 step.7---选择出现频率最大的类标号作为未知样本的类标号

4.计算及结果

1)算法源代码

//////////////////////////////////////////////////////////////////////////////////////////////////////// //

// KNN.cpp K-最近邻分类算法 //

//////////////////////////////////////////////////////////////////////////////////////////////////////// #include #include #include #include #include #include

4

#include

//////////////////////////////////////////////////////////////////////////////////////////////////////// //

// 宏定义 //

//////////////////////////////////////////////////////////////////////////////////////////////////////// #define ATTR_NUM 4 //属性数目

#define MAX_SIZE_OF_TRAINING_SET 1000 //训练数据集的最大大小 #define MAX_SIZE_OF_TEST_SET 100 //测试数据集的最大大小 #define MAX_VALUE 10000.0 //属性最大值 #define K 7 //结构体 struct dataVector { };

struct distanceStruct { };

//////////////////////////////////////////////////////////////////////////////////////////////////////// //

// 全局变量 //

////////////////////////////////////////////////////////////////////////////////////////////////////////

struct dataVector gTrainingSet[MAX_SIZE_OF_TRAINING_SET]; //训练数据集 struct dataVector gTestSet[MAX_SIZE_OF_TEST_SET]; //测试数据集 struct distanceStruct gNearestDistance[K]; //K个最近邻距离 int curTrainingSetSize=0; //训练数据集的大小 int curTestSetSize=0; //测试数据集的大小 //////////////////////////////////////////////////////////////////////////////////////////////////////// //

// 求 vector1=(x1,x2,...,xn)和vector2=(y1,y2,...,yn)的欧几里德距离 //

//////////////////////////////////////////////////////////////////////////////////////////////////////// double Distance(struct dataVector vector1,struct dataVector vector2) {

double dist,sum=0.0;

for(int i=0;isum+=(vector1.attributes[i]-vector2.attributes[i])*(vector1.attributes[i]-vector2.attributes[i]); int ID; //ID号 double distance; //距离 char classLabel[15]; //分类标号 int ID; //ID号 char classLabel[15]; //分类标号 double attributes[ATTR_NUM]; //属性

5

}

}

dist=sqrt(sum); return dist;

//////////////////////////////////////////////////////////////////////////////////////////////////////// //

// 得到gNearestDistance中的最大距离,返回下标 //

//////////////////////////////////////////////////////////////////////////////////////////////////////// int GetMaxDistance() { }

//////////////////////////////////////////////////////////////////////////////////////////////////////// //

// 对未知样本Sample分类 //

//////////////////////////////////////////////////////////////////////////////////////////////////////// char* Classify(struct dataVector Sample) {

double dist=0;

int maxid=0,freq[K],i,tmpfreq=1;;

char *curClassLable=gNearestDistance[0].classLabel; memset(freq,1,sizeof(freq)); //step.1---初始化距离为最大值 for(i=0;i//step.2---计算K-最近邻距离 for(i=0;i//step.2.1---计算未知样本和每个训练样本的距离 dist=Distance(gTrainingSet[i],Sample);

//step.2.2---得到gNearestDistance中的最大距离 maxid=GetMaxDistance();

//step.2.3---如果距离小于gNearestDistance中的最大距离,则将该样本作为K-最近邻样本 if(distgNearestDistance[i].distance=MAX_VALUE; int maxNo=0; for(int i=1;iif(gNearestDistance[i].distance>gNearestDistance[maxNo].distance) maxNo = i;

return maxNo;

6

}

}

}

gNearestDistance[maxid].ID=gTrainingSet[i].ID; gNearestDistance[maxid].distance=dist;

strcpy(gNearestDistance[maxid].classLabel,gTrainingSet[i].classLabel);

//step.3---统计每个类出现的次数 for(i=0;i//step.4---选择出现频率最大的类标号 for(i=0;ireturn curClassLable;

if(freq[i]>tmpfreq) { }

tmpfreq=freq[i];

curClassLable=gNearestDistance[i].classLabel; for(int j=0;jif((i!=j)&&(strcmp(gNearestDistance[i].classLabel,gNearestDistance[j].classLabel)==0)) { }

freq[i]+=1;

//////////////////////////////////////////////////////////////////////////////////////////////////////// //

// 主函数 //

////////////////////////////////////////////////////////////////////////////////////////////////////////

void main() {

char c;

int i,j, rowNo=0,TruePositive=0,FalsePositive=0; ifstream filein(\"iris.data\"); FILE *fp;

if(filein.fail()){cout<<\"Can't open data.txt\"<char *classLabel=\"\";

7

}

rowNo++;//第一组数据rowNo=1

if(curTrainingSetSize>=MAX_SIZE_OF_TRAINING_SET) { }

cout<<\"The training set has \"<//rowNo%3!=0的100组数据作为训练数据集 if(rowNo%3!=0) { }

//剩下rowNo%3==0的50组做测试数据集 else if(rowNo%3==0) { }

gTestSet[curTestSetSize].ID=rowNo; for(int i = 0;i < ATTR_NUM;i++) { }

filein>>gTestSet[curTestSetSize].attributes[i]; filein>>c;

gTrainingSet[curTrainingSetSize].ID=rowNo; for(int i = 0;i < ATTR_NUM;i++) { }

filein>>gTrainingSet[curTrainingSetSize].attributes[i]; filein>>c;

filein>>gTrainingSet[curTrainingSetSize].classLabel; curTrainingSetSize++;

filein>>gTestSet[curTestSetSize].classLabel; curTestSetSize++;

filein.close();

//step.2---KNN算法进行分类,并将结果写到文件iris_OutPut.txt fp=fopen(\"iris_OutPut.txt\//用KNN算法进行分类

fprintf(fp,\"************************************程序说明***************************************\\n\"); fprintf(fp,\"** 采用KNN算法对iris.data分类。为了操作方便,对各组数据添加rowNo属性,第一组rowNo=1!\\n\"); fprintf(fp,\"** 共有150组数据,选择rowNo模3不等于0的100组作为训练数据集,剩下的50组做测试数据集\\n\"); fprintf(fp,\"***********************************************************************************\\n\\n\"); fprintf(fp,\"************************************实验结果***************************************\\n\\n\"); for(i=0;i

%d

fprintf(fp,\"************************************

8

**************************************\\n\ }

}

fprintf(fp,\"***********************************结果分析**************************************\\n\fprintf(fp,\"TP(True fclose(fp);

positive):

%d\\nFP(False

cout<%3d

\

KNN

分类结果:

%s

(

正确类标

classLabel =Classify(gTestSet[i]); { }

cout<<\"rowNo: \";

cout<TruePositive++;

if(strcmp(classLabel,gTestSet[i].classLabel)==0)//相等时,分类正确

号: %s )\\n\

if(strcmp(classLabel,gTestSet[i].classLabel)!=0)//不等时,分类错误 { // }

fprintf(fp,\"%d-最临近数据:\\n\for(j=0;jfprintf(fp,\"\\n\");

fprintf(fp,\"rowNo:

%3d

\

Distance:

%f

cout<<\" ***分类错误***\\n\";

fprintf(fp,\" ***分类错

误***\\n\");

cout<\ClassLable: %s\\n\

FalsePositive=curTestSetSize-TruePositive;

positive): %d\\naccuracy: %f\\n\ return;

2)详细描述该算法获得的模型

采用第二包数据Iris Data Set,共有150组数据,考虑到训练数据集的随机性和多样性,选择rowNo模3不等于0的100组作为训练数据集,剩下的50组做测试数据集。对未知样本进行分类(括号里的正确类标号是读取的iris.data文件里的类标号,括号外的是计算所得),本文取k=7个最邻近数据。

以第19组为例进行说明,未知样本ROWNO为57,经过KNN算法分类,与之最临近的7组数

9

据rowNo号分别为:52、86、128、139、92、64、71,其中类标号为Iris-versicolor的有5个,类标号为

Iris-virginica的有2个,Iris-versicolor为最多,因此据此估计该组样本的类标号为Iris-versicolor。

50组测试样本运行结果如下:

************************************程序说明*************************************** ** 采用KNN算法对iris.data分类。为了操作方便,对各组数据添加rowNo属性,第一组rowNo=1! ** 共有150组数据,选择rowNo模3不等于0的100组作为训练数据集,剩下的50组做测试数据集 ***********************************************************************************

************************************实验结果***************************************

************************************第1组数据**************************************

rowNo: 3 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

43 Distance: 0.300000 ClassLable: Iris-setosa 2 Distance: 0.300000 ClassLable: Iris-setosa 4 Distance: 0.244949 ClassLable: Iris-setosa 13 Distance: 0.264575 ClassLable: Iris-setosa 7 Distance: 0.264575 ClassLable: Iris-setosa 46 Distance: 0.264575 ClassLable: Iris-setosa 10 Distance: 0.316228 ClassLable: Iris-setosa

************************************第2组数据**************************************

rowNo: 6 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

22 Distance: 0.412311 ClassLable: Iris-setosa 47 Distance: 0.387298 ClassLable: Iris-setosa 11 Distance: 0.346410 ClassLable: Iris-setosa 49 Distance: 0.360555 ClassLable: Iris-setosa 19 Distance: 0.331662 ClassLable: Iris-setosa 20 Distance: 0.387298 ClassLable: Iris-setosa 17 Distance: 0.400000 ClassLable: Iris-setosa

************************************第3组数据**************************************

rowNo: 9 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

14 Distance: 0.346410 ClassLable: Iris-setosa 2 Distance: 0.509902 ClassLable: Iris-setosa 4 Distance: 0.300000 ClassLable: Iris-setosa 13 Distance: 0.424264 ClassLable: Iris-setosa 46 Distance: 0.424264 ClassLable: Iris-setosa 31 Distance: 0.489898 ClassLable: Iris-setosa 43 Distance: 0.316228 ClassLable: Iris-setosa

10

************************************第4组数据**************************************

rowNo: 12 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

31 Distance: 0.300000 ClassLable: Iris-setosa 25 Distance: 0.300000 ClassLable: Iris-setosa 40 Distance: 0.316228 ClassLable: Iris-setosa 50 Distance: 0.300000 ClassLable: Iris-setosa 7 Distance: 0.300000 ClassLable: Iris-setosa 8 Distance: 0.223607 ClassLable: Iris-setosa 10 Distance: 0.346410 ClassLable: Iris-setosa

************************************第5组数据**************************************

rowNo: 15 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

34 Distance: 0.412311 ClassLable: Iris-setosa 17 Distance: 0.469042 ClassLable: Iris-setosa 11 Distance: 0.583095 ClassLable: Iris-setosa 37 Distance: 0.591608 ClassLable: Iris-setosa 16 Distance: 0.547723 ClassLable: Iris-setosa 49 Distance: 0.655744 ClassLable: Iris-setosa 19 Distance: 0.556776 ClassLable: Iris-setosa

************************************第6组数据**************************************

rowNo: 18 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

1 Distance: 0.100000 ClassLable: Iris-setosa 40 Distance: 0.173205 ClassLable: Iris-setosa 29 Distance: 0.173205 ClassLable: Iris-setosa 5 Distance: 0.173205 ClassLable: Iris-setosa 41 Distance: 0.141421 ClassLable: Iris-setosa 8 Distance: 0.200000 ClassLable: Iris-setosa 28 Distance: 0.173205 ClassLable: Iris-setosa

************************************第7组数据**************************************

rowNo: 21 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

49 Distance: 0.374166 ClassLable: Iris-setosa 37 Distance: 0.424264 ClassLable: Iris-setosa 11 Distance: 0.360555 ClassLable: Iris-setosa 29 Distance: 0.360555 ClassLable: Iris-setosa 28 Distance: 0.300000 ClassLable: Iris-setosa 40 Distance: 0.360555 ClassLable: Iris-setosa 32 Distance: 0.282843 ClassLable: Iris-setosa

11

************************************第8组数据**************************************

rowNo: 24 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

40 Distance: 0.374166 ClassLable: Iris-setosa 26 Distance: 0.447214 ClassLable: Iris-setosa 44 Distance: 0.264575 ClassLable: Iris-setosa 28 Distance: 0.424264 ClassLable: Iris-setosa 32 Distance: 0.387298 ClassLable: Iris-setosa 8 Distance: 0.387298 ClassLable: Iris-setosa 50 Distance: 0.435890 ClassLable: Iris-setosa

************************************第9组数据**************************************

rowNo: 27 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

1 Distance: 0.316228 ClassLable: Iris-setosa 50 Distance: 0.300000 ClassLable: Iris-setosa 41 Distance: 0.331662 ClassLable: Iris-setosa 44 Distance: 0.223607 ClassLable: Iris-setosa 40 Distance: 0.244949 ClassLable: Iris-setosa 8 Distance: 0.223607 ClassLable: Iris-setosa 28 Distance: 0.316228 ClassLable: Iris-setosa

************************************第10组数据**************************************

rowNo: 30 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

31 Distance: 0.141421 ClassLable: Iris-setosa 38 Distance: 0.264575 ClassLable: Iris-setosa 4 Distance: 0.173205 ClassLable: Iris-setosa 13 Distance: 0.316228 ClassLable: Iris-setosa 7 Distance: 0.316228 ClassLable: Iris-setosa 35 Distance: 0.264575 ClassLable: Iris-setosa 10 Distance: 0.264575 ClassLable: Iris-setosa

************************************第11组数据**************************************

rowNo: 33 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

34 Distance: 0.346410 ClassLable: Iris-setosa 22 Distance: 0.509902 ClassLable: Iris-setosa 11 Distance: 0.458258 ClassLable: Iris-setosa 49 Distance: 0.424264 ClassLable: Iris-setosa 47 Distance: 0.346410 ClassLable: Iris-setosa 20 Distance: 0.374166 ClassLable: Iris-setosa 17 Distance: 0.458258 ClassLable: Iris-setosa

12

************************************第12组数据**************************************

rowNo: 36 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

38 Distance: 0.346410 ClassLable: Iris-setosa 2 Distance: 0.300000 ClassLable: Iris-setosa 41 Distance: 0.331662 ClassLable: Iris-setosa 35 Distance: 0.346410 ClassLable: Iris-setosa 29 Distance: 0.346410 ClassLable: Iris-setosa 50 Distance: 0.223607 ClassLable: Iris-setosa 10 Distance: 0.346410 ClassLable: Iris-setosa

************************************第13组数据**************************************

rowNo: 39 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

13 Distance: 0.424264 ClassLable: Iris-setosa 46 Distance: 0.424264 ClassLable: Iris-setosa 4 Distance: 0.300000 ClassLable: Iris-setosa 14 Distance: 0.244949 ClassLable: Iris-setosa 7 Distance: 0.469042 ClassLable: Iris-setosa 31 Distance: 0.509902 ClassLable: Iris-setosa 43 Distance: 0.200000 ClassLable: Iris-setosa

************************************第14组数据**************************************

rowNo: 42 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

14 Distance: 0.781025 ClassLable: Iris-setosa 2 Distance: 0.818535 ClassLable: Iris-setosa 4 Distance: 0.836660 ClassLable: Iris-setosa 13 Distance: 0.793725 ClassLable: Iris-setosa 31 Distance: 0.911043 ClassLable: Iris-setosa 46 Distance: 0.768115 ClassLable: Iris-setosa 43 Distance: 0.911043 ClassLable: Iris-setosa

************************************第15组数据**************************************

rowNo: 45 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

28 Distance: 0.547723 ClassLable: Iris-setosa 49 Distance: 0.500000 ClassLable: Iris-setosa 22 Distance: 0.412311 ClassLable: Iris-setosa 47 Distance: 0.360555 ClassLable: Iris-setosa 20 Distance: 0.412311 ClassLable: Iris-setosa 44 Distance: 0.479583 ClassLable: Iris-setosa 25 Distance: 0.538516 ClassLable: Iris-setosa

13

************************************第16组数据**************************************

rowNo: 48 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-setosa ( 正确类标号: Iris-setosa )

7-最临近数据:

13 Distance: 0.300000 ClassLable: Iris-setosa 43 Distance: 0.223607 ClassLable: Iris-setosa 4 Distance: 0.141421 ClassLable: Iris-setosa 31 Distance: 0.300000 ClassLable: Iris-setosa 7 Distance: 0.223607 ClassLable: Iris-setosa 46 Distance: 0.300000 ClassLable: Iris-setosa 10 Distance: 0.346410 ClassLable: Iris-setosa

************************************第17组数据**************************************

rowNo: 51

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-versicolor ( 正确类标号: Iris-versicolor )

7-最临近数据:

59 Distance: 0.519615 ClassLable: Iris-versicolor 77 Distance: 0.458258 ClassLable: Iris-versicolor 55 Distance: 0.655744 ClassLable: Iris-versicolor 134 Distance: 0.905539 ClassLable: Iris-virginica 53 Distance: 0.264575 ClassLable: Iris-versicolor 76 Distance: 0.538516 ClassLable: Iris-versicolor 52 Distance: 0.640312 ClassLable: Iris-versicolor

************************************第18组数据**************************************

rowNo: 54

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-versicolor ( 正确类标号: Iris-versicolor )

7-最临近数据:

82 Distance: 0.435890 ClassLable: Iris-versicolor 70 Distance: 0.316228 ClassLable: Iris-versicolor 100 Distance: 0.547723 ClassLable: Iris-versicolor 83 Distance: 0.519615 ClassLable: Iris-versicolor 68 Distance: 0.591608 ClassLable: Iris-versicolor 95 Distance: 0.458258 ClassLable: Iris-versicolor 91 Distance: 0.509902 ClassLable: Iris-versicolor

************************************第19组数据**************************************

rowNo: 57

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-versicolor ( 正确类标号: Iris-versicolor )

7-最临近数据:

52 Distance: 0.264575 ClassLable: Iris-versicolor 86 Distance: 0.374166 ClassLable: Iris-versicolor 128 Distance: 0.458258 ClassLable: Iris-virginica 139 Distance: 0.479583 ClassLable: Iris-virginica 92 Distance: 0.424264 ClassLable: Iris-versicolor 64 Distance: 0.489898 ClassLable: Iris-versicolor 71 Distance: 0.469042 ClassLable: Iris-versicolor

14

************************************第20组数据**************************************

rowNo: 60

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-versicolor ( 正确类标号: Iris-versicolor )

7-最临近数据:

97 Distance: 0.624500 ClassLable: Iris-versicolor 89 Distance: 0.547723 ClassLable: Iris-versicolor 100 Distance: 0.556776 ClassLable: Iris-versicolor 70 Distance: 0.538516 ClassLable: Iris-versicolor 82 Distance: 0.616441 ClassLable: Iris-versicolor 65 Distance: 0.547723 ClassLable: Iris-versicolor 95 Distance: 0.509902 ClassLable: Iris-versicolor

************************************第21组数据**************************************

rowNo: 63

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-versicolor ( 正确类标号: Iris-versicolor )

7-最临近数据:

95 Distance: 0.734847 ClassLable: Iris-versicolor 80 Distance: 0.707107 ClassLable: Iris-versicolor 70 Distance: 0.519615 ClassLable: Iris-versicolor 68 Distance: 0.547723 ClassLable: Iris-versicolor 83 Distance: 0.583095 ClassLable: Iris-versicolor 82 Distance: 0.616441 ClassLable: Iris-versicolor 88 Distance: 0.591608 ClassLable: Iris-versicolor

************************************第22组数据**************************************

rowNo: 66

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-versicolor ( 正确类标号: Iris-versicolor )

7-最临近数据:

59 Distance: 0.316228 ClassLable: Iris-versicolor 76 Distance: 0.141421 ClassLable: Iris-versicolor 53 Distance: 0.547723 ClassLable: Iris-versicolor 98 Distance: 0.556776 ClassLable: Iris-versicolor 55 Distance: 0.424264 ClassLable: Iris-versicolor 52 Distance: 0.346410 ClassLable: Iris-versicolor 77 Distance: 0.509902 ClassLable: Iris-versicolor

************************************第23组数据**************************************

rowNo: 69

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-versicolor ( 正确类标号: Iris-versicolor )

7-最临近数据:

88 Distance: 0.264575 ClassLable: Iris-versicolor 55 Distance: 0.678233 ClassLable: Iris-versicolor 127 Distance: 0.734847 ClassLable: Iris-virginica 79 Distance: 0.728011 ClassLable: Iris-versicolor 73 Distance: 0.509902 ClassLable: Iris-versicolor 124 Distance: 0.714143 ClassLable: Iris-virginica 74 Distance: 0.707107 ClassLable: Iris-versicolor

15

************************************第24组数据**************************************

rowNo: 72

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-versicolor ( 正确类标号: Iris-versicolor )

7-最临近数据:

83 Distance: 0.346410 ClassLable: Iris-versicolor 68 Distance: 0.447214 ClassLable: Iris-versicolor 62 Distance: 0.400000 ClassLable: Iris-versicolor 97 Distance: 0.458258 ClassLable: Iris-versicolor 100 Distance: 0.412311 ClassLable: Iris-versicolor 89 Distance: 0.547723 ClassLable: Iris-versicolor 98 Distance: 0.331662 ClassLable: Iris-versicolor

************************************第25组数据**************************************

rowNo: 75

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-versicolor ( 正确类标号: Iris-versicolor )

7-最临近数据:

92 Distance: 0.447214 ClassLable: Iris-versicolor 98 Distance: 0.200000 ClassLable: Iris-versicolor 55 Distance: 0.387298 ClassLable: Iris-versicolor 52 Distance: 0.412311 ClassLable: Iris-versicolor 76 Distance: 0.264575 ClassLable: Iris-versicolor 79 Distance: 0.489898 ClassLable: Iris-versicolor 59 Distance: 0.360555 ClassLable: Iris-versicolor

************************************第26组数据**************************************

rowNo: 78

KNN分类结果: Iris-virginica ( 正确类标号: Iris-versicolor )

***分类错误*** 7-最临近数据:

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

124 Distance: 0.519615 ClassLable: Iris-virginica 77 Distance: 0.424264 ClassLable: Iris-versicolor 148 Distance: 0.412311 ClassLable: Iris-virginica 134 Distance: 0.500000 ClassLable: Iris-virginica 55 Distance: 0.529150 ClassLable: Iris-versicolor 53 Distance: 0.316228 ClassLable: Iris-versicolor 112 Distance: 0.556776 ClassLable: Iris-virginica

************************************第27组数据**************************************

rowNo: 81

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-versicolor ( 正确类标号: Iris-versicolor )

7-最临近数据:

80 Distance: 0.424264 ClassLable: Iris-versicolor 83 Distance: 0.447214 ClassLable: Iris-versicolor 82 Distance: 0.141421 ClassLable: Iris-versicolor 95 Distance: 0.547723 ClassLable: Iris-versicolor 68 Distance: 0.529150 ClassLable: Iris-versicolor 70 Distance: 0.173205 ClassLable: Iris-versicolor 100 Distance: 0.574456 ClassLable: Iris-versicolor

16

************************************第28组数据**************************************

rowNo: 84

KNN分类结果: Iris-virginica ( 正确类标号: Iris-versicolor )

***分类错误*** 7-最临近数据:

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

139 Distance: 0.469042 ClassLable: Iris-virginica 143 Distance: 0.360555 ClassLable: Iris-virginica 124 Distance: 0.412311 ClassLable: Iris-virginica 134 Distance: 0.331662 ClassLable: Iris-virginica 127 Distance: 0.424264 ClassLable: Iris-virginica 128 Distance: 0.424264 ClassLable: Iris-virginica 73 Distance: 0.424264 ClassLable: Iris-versicolor

************************************第29组数据**************************************

rowNo: 87

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-versicolor ( 正确类标号: Iris-versicolor )

7-最临近数据:

76 Distance: 0.346410 ClassLable: Iris-versicolor 59 Distance: 0.316228 ClassLable: Iris-versicolor 53 Distance: 0.282843 ClassLable: Iris-versicolor 92 Distance: 0.624500 ClassLable: Iris-versicolor 55 Distance: 0.374166 ClassLable: Iris-versicolor 52 Distance: 0.374166 ClassLable: Iris-versicolor 77 Distance: 0.346410 ClassLable: Iris-versicolor

************************************第30组数据**************************************

rowNo: 90

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-versicolor ( 正确类标号: Iris-versicolor )

7-最临近数据:

83 Distance: 0.387298 ClassLable: Iris-versicolor 91 Distance: 0.424264 ClassLable: Iris-versicolor 82 Distance: 0.435890 ClassLable: Iris-versicolor 100 Distance: 0.374166 ClassLable: Iris-versicolor 68 Distance: 0.479583 ClassLable: Iris-versicolor 70 Distance: 0.244949 ClassLable: Iris-versicolor 95 Distance: 0.300000 ClassLable: Iris-versicolor

************************************第31组数据**************************************

rowNo: 93

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-versicolor ( 正确类标号: Iris-versicolor )

7-最临近数据:

89 Distance: 0.469042 ClassLable: Iris-versicolor 97 Distance: 0.387298 ClassLable: Iris-versicolor 100 Distance: 0.264575 ClassLable: Iris-versicolor 95 Distance: 0.316228 ClassLable: Iris-versicolor 83 Distance: 0.141421 ClassLable: Iris-versicolor 70 Distance: 0.264575 ClassLable: Iris-versicolor

17

rowNo: 68 Distance: 0.244949 ClassLable: Iris-versicolor

************************************第32组数据**************************************

rowNo: 96

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-versicolor ( 正确类标号: Iris-versicolor )

7-最临近数据:

89 Distance: 0.173205 ClassLable: Iris-versicolor 95 Distance: 0.331662 ClassLable: Iris-versicolor 100 Distance: 0.244949 ClassLable: Iris-versicolor 97 Distance: 0.141421 ClassLable: Iris-versicolor 56 Distance: 0.374166 ClassLable: Iris-versicolor 62 Distance: 0.360555 ClassLable: Iris-versicolor 68 Distance: 0.387298 ClassLable: Iris-versicolor

************************************第33组数据**************************************

rowNo: 99

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-versicolor ( 正确类标号: Iris-versicolor )

7-最临近数据:

70 Distance: 1.029563 ClassLable: Iris-versicolor 82 Distance: 0.818535 ClassLable: Iris-versicolor 61 Distance: 0.721110 ClassLable: Iris-versicolor 65 Distance: 0.900000 ClassLable: Iris-versicolor 94 Distance: 0.387298 ClassLable: Iris-versicolor 58 Distance: 0.387298 ClassLable: Iris-versicolor 80 Distance: 0.793725 ClassLable: Iris-versicolor

************************************第34组数据**************************************

rowNo: 102

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

122 Distance: 0.316228 ClassLable: Iris-virginica 128 Distance: 0.479583 ClassLable: Iris-virginica 127 Distance: 0.519615 ClassLable: Iris-virginica 139 Distance: 0.479583 ClassLable: Iris-virginica 115 Distance: 0.509902 ClassLable: Iris-virginica 124 Distance: 0.547723 ClassLable: Iris-virginica 143 Distance: 0.000000 ClassLable: Iris-virginica

************************************第35组数据**************************************

rowNo: 105

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

125 Distance: 0.387298 ClassLable: Iris-virginica 133 Distance: 0.300000 ClassLable: Iris-virginica 145 Distance: 0.479583 ClassLable: Iris-virginica 113 Distance: 0.435890 ClassLable: Iris-virginica 101 Distance: 0.509902 ClassLable: Iris-virginica 104 Distance: 0.500000 ClassLable: Iris-virginica

18

rowNo: 121 Distance: 0.469042 ClassLable: Iris-virginica

************************************第36组数据**************************************

rowNo: 108

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

109 Distance: 0.877496 ClassLable: Iris-virginica 103 Distance: 0.547723 ClassLable: Iris-virginica 106 Distance: 0.529150 ClassLable: Iris-virginica 136 Distance: 0.678233 ClassLable: Iris-virginica 130 Distance: 0.556776 ClassLable: Iris-virginica 121 Distance: 0.927362 ClassLable: Iris-virginica 131 Distance: 0.264575 ClassLable: Iris-virginica

************************************第37组数据**************************************

rowNo: 111 KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

146 Distance: 0.424264 ClassLable: Iris-virginica 113 Distance: 0.547723 ClassLable: Iris-virginica 116 Distance: 0.374166 ClassLable: Iris-virginica 148 Distance: 0.223607 ClassLable: Iris-virginica 142 Distance: 0.509902 ClassLable: Iris-virginica 140 Distance: 0.519615 ClassLable: Iris-virginica 128 Distance: 0.529150 ClassLable: Iris-virginica

************************************第38组数据**************************************

rowNo: 114

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

139 Distance: 0.648074 ClassLable: Iris-virginica 122 Distance: 0.331662 ClassLable: Iris-virginica 115 Distance: 0.519615 ClassLable: Iris-virginica 143 Distance: 0.264575 ClassLable: Iris-virginica 128 Distance: 0.678233 ClassLable: Iris-virginica 127 Distance: 0.648074 ClassLable: Iris-virginica 124 Distance: 0.670820 ClassLable: Iris-virginica

************************************第39组数据**************************************

rowNo: 117

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

113 Distance: 0.424264 ClassLable: Iris-virginica 133 Distance: 0.469042 ClassLable: Iris-virginica 148 Distance: 0.360555 ClassLable: Iris-virginica 140 Distance: 0.519615 ClassLable: Iris-virginica 125 Distance: 0.509902 ClassLable: Iris-virginica 104 Distance: 0.244949 ClassLable: Iris-virginica

19

rowNo: 112 Distance: 0.387298 ClassLable: Iris-virginica

************************************第40组数据**************************************

rowNo: 120 rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

73 Distance: 0.435890 ClassLable: Iris-versicolor 88 Distance: 0.707107 ClassLable: Iris-versicolor 143 Distance: 0.678233 ClassLable: Iris-virginica 74 Distance: 0.741620 ClassLable: Iris-versicolor 124 Distance: 0.663325 ClassLable: Iris-virginica 134 Distance: 0.678233 ClassLable: Iris-virginica 127 Distance: 0.728011 ClassLable: Iris-virginica

************************************第41组数据**************************************

rowNo: 123

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

130 Distance: 1.122497 ClassLable: Iris-virginica 119 Distance: 0.412311 ClassLable: Iris-virginica 106 Distance: 0.264575 ClassLable: Iris-virginica 118 Distance: 1.019804 ClassLable: Iris-virginica 131 Distance: 0.678233 ClassLable: Iris-virginica 136 Distance: 0.700000 ClassLable: Iris-virginica 103 Distance: 1.024695 ClassLable: Iris-virginica

************************************第42组数据**************************************

rowNo: 126

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

130 Distance: 0.346410 ClassLable: Iris-virginica 140 Distance: 0.741620 ClassLable: Iris-virginica 125 Distance: 0.663325 ClassLable: Iris-virginica 121 Distance: 0.655744 ClassLable: Iris-virginica 113 Distance: 0.734847 ClassLable: Iris-virginica 103 Distance: 0.387298 ClassLable: Iris-virginica 131 Distance: 0.469042 ClassLable: Iris-virginica

************************************第43组数据**************************************

rowNo: 129

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

112 Distance: 0.374166 ClassLable: Iris-virginica 113 Distance: 0.458258 ClassLable: Iris-virginica 133 Distance: 0.100000 ClassLable: Iris-virginica 104 Distance: 0.331662 ClassLable: Iris-virginica 109 Distance: 0.556776 ClassLable: Iris-virginica 116 Distance: 0.538516 ClassLable: Iris-virginica

20

rowNo: 148 Distance: 0.469042 ClassLable: Iris-virginica

************************************第44组数据**************************************

rowNo: 132

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

106 Distance: 0.883176 ClassLable: Iris-virginica 130 Distance: 1.284523 ClassLable: Iris-virginica 136 Distance: 0.927362 ClassLable: Iris-virginica 131 Distance: 1.161895 ClassLable: Iris-virginica 118 Distance: 0.412311 ClassLable: Iris-virginica 110 Distance: 0.932738 ClassLable: Iris-virginica 103 Distance: 1.240967 ClassLable: Iris-virginica

************************************第45组数据**************************************

rowNo: 135

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

134 Distance: 0.583095 ClassLable: Iris-virginica 143 Distance: 0.774597 ClassLable: Iris-virginica 104 Distance: 0.538516 ClassLable: Iris-virginica 124 Distance: 0.836660 ClassLable: Iris-virginica 73 Distance: 0.741620 ClassLable: Iris-versicolor 112 Distance: 0.663325 ClassLable: Iris-virginica 109 Distance: 0.754983 ClassLable: Iris-virginica

************************************第46组数据**************************************

rowNo: 138

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

113 Distance: 0.509902 ClassLable: Iris-virginica 116 Distance: 0.547723 ClassLable: Iris-virginica 112 Distance: 0.458258 ClassLable: Iris-virginica 104 Distance: 0.244949 ClassLable: Iris-virginica 133 Distance: 0.509902 ClassLable: Iris-virginica 125 Distance: 0.509902 ClassLable: Iris-virginica 148 Distance: 0.387298 ClassLable: Iris-virginica

************************************第47组数据**************************************

rowNo: 141

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

140 Distance: 0.412311 ClassLable: Iris-virginica 116 Distance: 0.447214 ClassLable: Iris-virginica 146 Distance: 0.424264 ClassLable: Iris-virginica 145 Distance: 0.244949 ClassLable: Iris-virginica 113 Distance: 0.346410 ClassLable: Iris-virginica 125 Distance: 0.374166 ClassLable: Iris-virginica

21

rowNo: 121 Distance: 0.264575 ClassLable: Iris-virginica

************************************第48组数据**************************************

rowNo: 144

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

103 Distance: 0.412311 ClassLable: Iris-virginica 101 Distance: 0.556776 ClassLable: Iris-virginica 125 Distance: 0.316228 ClassLable: Iris-virginica 140 Distance: 0.556776 ClassLable: Iris-virginica 145 Distance: 0.316228 ClassLable: Iris-virginica 113 Distance: 0.489898 ClassLable: Iris-virginica 121 Distance: 0.223607 ClassLable: Iris-virginica

************************************第49组数据**************************************

rowNo: 147

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

112 Distance: 0.374166 ClassLable: Iris-virginica 127 Distance: 0.387298 ClassLable: Iris-virginica 143 Distance: 0.547723 ClassLable: Iris-virginica 128 Distance: 0.556776 ClassLable: Iris-virginica 73 Distance: 0.412311 ClassLable: Iris-versicolor 124 Distance: 0.244949 ClassLable: Iris-virginica 134 Distance: 0.509902 ClassLable: Iris-virginica

************************************第50组数据**************************************

rowNo: 150

rowNo: rowNo: rowNo: rowNo: rowNo: rowNo: rowNo:

KNN分类结果: Iris-virginica ( 正确类标号: Iris-virginica )

7-最临近数据:

124 Distance: 0.538516 ClassLable: Iris-virginica 71 Distance: 0.360555 ClassLable: Iris-versicolor 127 Distance: 0.469042 ClassLable: Iris-virginica 139 Distance: 0.316228 ClassLable: Iris-virginica 128 Distance: 0.282843 ClassLable: Iris-virginica 143 Distance: 0.331662 ClassLable: Iris-virginica 122 Distance: 0.458258 ClassLable: Iris-virginica

5.结论和建议

分类性能分析:

程序计算TP和FP,结果如下: -TP(True positive): 48 -FP(False positive): 2 -Accuracy: 0.979592

22

kNN算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

k值选择过小,得到的近邻数过少,会降低分类精度,同时也会放大噪声数据的干扰;而如果k值选择过大,并且待分类样本属于训练集中包含数据数较少的类,那么在选择k个近邻的时候,实际上并不相似的数据亦被包含进来,造成噪声增加而导致分类效果的降低。如何选取恰当的K值也成为KNN的研究热点。k值通常是采用交叉检验来确定(以k=1为基准)。

经验规则: k一般低于训练样本数的平方根。在训练集中,有些样本可能是更值得依赖的。可以给不同的样本施加不同的权重,加强依赖样本的权重,降低不可信赖样本的影响。

kNN是一种懒惰算法,而懒惰的后果:构造模型很简单,但在对测试样本分类地的系统开销大,因为要扫描全部训练样本并计算距离。已经有一些方法提高计算的效率,例如压缩训练样本量等。

kNN算法的指导思想是 “近朱者赤,近墨者黑”。KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说, KNN方法较其他方法更为适合。

kNN算法因其提出时间较早,随着其他技术的不断更新和完善, kNN算法的诸多不足之处也逐渐显露,因此许多kNN算法的改进算法也应运而生。针对以上算法的不足,算法的改进方向主要分成分类效率和分类效果两方面。

6.评价

这篇论文则是对所学数据挖掘知识的一个综合的训练及考核,是对所学知识的全面的检验。考验我们如何根据要做的题目对现有的资料进行理解和运用。需要把以前所学的知识综合贯通,并不断学习和自我完善。

从刚确定论文题目以来,我首先是查找一些相关的书籍及资料,然后分析设计,并根据实际情况拟定设计方案,从而达到优化方案。在寻找挖掘数据时,我发现了数据堂这个网站,这就省去了一部分寻找数据时间,要知道没有数据就没有挖掘,数据是挖掘的基础。最难的是理解K-最临近分类算法(kNN),需要看大量的资料,但在老师和同学的帮助下完成了这次作业。

通过这次论文设计,我对数据挖掘有了更深的了解,知道了数据挖掘领域的十大经典算法。我在各个方面都有了很大的提高,特别是在动脑思考方面使我受益匪浅。一方面为我即将面临的工作奠定了很好的基础。 同时,在这次论文设计中深深认识到自己的各个方面的不足之处,本着提高思考能力以及检测所学数据挖掘知识的目的,我严格要求自己,每一环节都认真对待,能完成任务我非常高兴。 在以后的学习中,我会进一步丰富理论,完善知识结构。由于环境条件的影响,理论与实践还是有一定的差距,这也要求我们在实践中注意检验理论。

参考文献

[1] 《数据挖掘概念与技术》.Jiawei Han、Micheline Kamber、Jian Pei.机械工业出版社.2013年11月第1版(原书第3版)

[2] http://blog.csdn.net/aladdina/article/details/4141177 [3] http://wenku.baidu.com/view/a7a0aed6fab069dc502201ff.html [4] http://wenku.baidu.com/view/6755b4320b4c2e3f5727634b.html [5] http://wenku.baidu.com/view/d84cf670a5e9856a561260ce.html [6] http://wenku.baidu.com/view/3cb58772c281e53a5902ff51.html [7] http://wenku.baidu.com/view/7ed8c91452d380eb62946dbc.html [8] http://wenku.baidu.com/view/5d0268216c175f0e7cd137c5.html [9] http://wenku.baidu.com/view/09ce0bbd998fcc22bdd10d46.html

23

[10] http://wenku.baidu.com/view/4e2e14d94028915f804dc235.html [11] http://wenku.baidu.com/view/ac98d633eefdc8d376ee32c6.html [12] http://wenku.baidu.com/view/7e63137610a6f524ccbf85f2.html

24

因篇幅问题不能全部显示,请点此查看更多更全内容