您的当前位置:首页SPSS数据挖掘方法概述

SPSS数据挖掘方法概述

2023-08-07 来源:乌哈旅游


数据挖掘方法概述

一、主要概念1ﻩ

二、主要方法概述 ............................................................................................................................ 1

1、神经网络方法概述 ................................................................................................................. 1 2、聚类方法概述....................................................................................................................... 9 3、主成分分析 .......................................................................................................................... 14 4、决策树概述 .......................................................................................................................... 17 5、关联分析21ﻩ 6、遗传算法概述23ﻩ

一、主要概念

1、数据挖掘(data mining,简记DM):采取专门算法对数据库中潜在得、不明显得数据关系进行分析与建模。

2、CRISP-DM(CRoss-Industry Standard Process for Data Mining):各企业中被广泛采用得数据挖掘标准流程。包括6个步骤:商业理解、数据理解、数据准备、模型建立、结果评估、应用部署。

3、Clementine:SPSS公司推出得企业级数据挖掘软件产品,其包括得数据挖掘主要方法为:神经网络、聚类分析、主因子分析、决策树分析、关联分析、回归分析。

二、主要方法概述

1、神经网络方法概述

主要问题:(1)什么就是神经网络? (2)神经网络有什么用? (3)如何建立神经网络? (4)如何应用神经网络? (1)人工神经网络

“人工神经网络”(ARTIFICIAL NEURAL NETWORK,简称A、N、N、)就是基于模仿大脑神经网络结构与功能而建立得一种信息处理系统。神经网络在一定学习规则下,对提供得学习样本进行学习,从中获取特征信息,并存储(记忆)在相应得权值及参数上。学习后,对于新得输入数据,网络可通过已获取得权值及参数,计算网络得输出。神经网络具有高度得非线性、容错性与自学习、自适应更新等功能,能够进行复杂得逻辑操作与非线性关系实现。目前神经网络模型在辅助管理与决策中,应用广泛。 (2)神经网络得作用

已证明结论:对于函数,在满足一定条件下,可以找到函数与实常数与,构造函数:

使对于任意小得,满足

(3)简单神经网络模型(感知机模型)得建立

问题引入:设想对购买手机得顾客制定销售方案,用购买量与购买频率两个指标来判别,即:

购买量大, 购买频率大,则给予优惠折扣 ; 购买量大, 购买频率小,则给予优惠折扣 ; 购买量小, 购买频率大,则给予优惠折扣 ; 购买量小, 购买频率小,则不给予优惠折扣 问题:这样得销售方案判别就是否可以建立模型表示?

设想:分别对购买量、购买频率以及就是否优惠得两种取值定义为1,0,则上述四种方案可以用四个样本表示,设每一样本具有两个评价指标X1,X2,一个评价结果Y: 样本号 X1, X2 Y 1 1 1 1 2 1 0 1 3 0 1 1 4 0 0 0 构造两个输入节点、一个输出节点、二层结构得神经网络模型: (*) O1=f( xj取值1或0,

w1j(j=1,2)待求

作用函数:f(x)= 1 x>0 0 x≤0

结构:

X1 ○ W11 X1

○ Y X2 ○ W12 X2

学习样本:( x1(k),x2(k), Y1(k) ) , k就是样本数, k=1,2,3,4

关键问题:如何获取模型(*)中得权数w1j,使计算结果与样本得评价结果得误差最小? 计算w1j方法:

随机赋予w1j初始值,通过对每一样本得学习,获取计算结果与样本评价结果得误差,修正w1j得取值,使经过一定次数得学习后,总误差能达到期望值,此时修正得到得w1j就就是所要获取得权数,即设

δ(k)=∣Y k -O k∣ , Y k就是第k个样本评价结果(称期望输出或实际输出),O

k

就是计算结果。

通过第k个样本得输出误差修正权数得公式为: (k +1)=(k)+△( k), △=αδ(k)Xj

其中, α>0 , α称收敛因子。

第k个样本得误差为: 误差 ek=|δ(k) |, 总误差 E(k)=E(k-1)+ ek 计算过程:

1)设α=1,随机赋予w1j得初始值为0,即w11(k=1)=0,

w12(k=1)=0

2) 对第一个样本进行学习:把X1=1,X2=1代入(*),有 O= f(w11×X1+ w12×X2)=f(0×1+0×1)= f(0)=0 δ (k=1)= ∣Y k -O k∣=1 修正权数:△w1j=αδ (k) X j △=δ (k=1) X 1=1×1=1

△w12 =δ (k=1) X 2=1×1=1 (k=2)=(k=1)+△=0+1=1, w12(k=2)= w12(k=1)+△w12=0+1=1 总误差 E(K=1)= E(K=0)+ek=0+δ(k=1)=1

3)对第2个样本:X1=1 , X2=0, O=f(1×1+1×0)= f(1)=1

δ (k=2)= ∣Y

-O k∣=0

修正权数:△w1j=αδ (k) X j △=δ (k=2) X 1=0×1=0

△w12 =δ (k=2) X 2=0×0=0 (k=2)=(k=1)+△=1+0=1, w12(k=2)= w12(k=1)+△w12=1+0=1

总误差 E(K=2)= E(K=1)+ek=1+δ(k=2)=1 4)对于获取得权数 =1,w12=1,有

对第3个样本:X1=0,X2=1, O=f(1×0+1×1)= f(1)=1=Y 对第4个样本:X1=0,X2=0, O=f(1×0+1×0)= f(0)=0=Y

5)结论:=1,w12=1就是使计算结果与样本得评价结果误差最小得权数。将=1,w12=代入模型(*),则模型建立完毕。可以利用这个建立得模型,对任一组输入得X1,X2,在未知其输出(评价结果)时,通过(*)计算得到结果。

(4)误差逆传播神经网络模型(Error Back-Propagation ,简记BP模型)

在简单神经网络得基础上,进行形式推广,对多个输入、多个输出、多层结构,不同作用函数得情况进行建模分析。最常用得就是BP神经网络。 BP神经网络基本原理

BP神经网络模型就是一种具有三层或三层以上得前馈型得、按梯度算法使计算输出与实际输出得误差沿逆传播修正各连接权得神经网络模型。网络按有教师示教得方式进行学习,

当一对学习模式提供给网络后,神经元得激活值,从输入层经各中间层向输出层传播,在输出层得各神经元获得网络得输入响应,并按减少希望输出与实际输出偏差得方向,从输出层经各中间层逐层修正各连接权,最后回到输入层,随着这种误差逆传播修正得不断进行,网络对输入模式响应得正确率不断上升。

x1 ○ wi1 ○ 1 vti ○

x2 ○ wi2 ○ i ○ t 节点 x3 ○ 节点 vtm ○ … win ○ M ○

xn ○ 输入信息 正向传播

反向传播 实际输出与网络输出误差 BP网络模型得特点:

模型表示:Yi=f( i=1,2,3…,m , xi取值(-∞,+∞) Ot= f ( t=1,2,3…,q, Ot取值(0,1) 模型结构:至少三层(至少有一隐层),多个输入,一个或多个输出 作用函数(Sigmoid型函数) :f(x)= 1/(1+e) x(-,+) f(x)(0,1) 学习样本:

( x1(k),x2(k),x3(k),…,xm(k), D1(k), D2(k), D3(k)…, Dq(k) ) ,

k就是样本数, k=1,2,3…,P

权值修正公式:设

δi=Di-Oi , Di就是期望输出(实际输出),Oi就是网络计算输出 1) 隐层与输出层连接权得修正: (K+1)=(K)+△ , 就是隐节点输出 2) 输入层与输出层连接权得修正: (K+1)=(K)+△, ,就是输入节点输入。 3) 第K个样本误差

总误差 E=

(5)基于神经网络辅助医疗绩效得评定

案例:为了对城市医疗能力进行评价,收集一批有代表性得城市医疗数据,评价指标为病床数、医生数、工作人员数、诊所数、死亡率,并给出了专家得评价结果,旨在建立评价城市得医疗建设绩效得模型,应用于评价任意城市得医疗建设绩效。收集数据见表1、1(单位:万人)。

表1、1

样本 病床数

医生数 工作人员

v v b g g g g g b a

v v b g a b g a v a

诊所数 v v a a b b a g v b

死亡率 专家评价得医疗能

上海 北京 沈阳 武汉 哈尔滨 重庆 成都 兰州 青岛 鞍山

g a b g v g a v g g

b g g b a b a v a v

v v b a a b a v g g

其中,v——非常好, g——好, a—— 一般, b——差 需要评价得城市数据见表1、2。 表1、2 样本 病床数 天津 广州 南京 西安 长春 太原 大连 济南 抚顺 b a b g g v b v g g g g g g g a v b 医生数 工作人员数 b g g a g g b v b g g g g a g a g b a a b g g v g a g 诊所数 死亡率 专家评价得医疗能力 建立评价得BP神经网络模型: 1)将取得得10个样本分别量化:定义v、g、a、b得取值为

v=1、5,g=0、5,a=-0、5,b=-1、5 (1)

也可以定义: v=3,g=1,a= -1,b= -3 v=6,g=2,a=--2,b=-6

v=10,g=7,a=4,b=1由 (1)定义可得上海等10个城市样本取值见表1、3。 表1、3 样本

病床数 医生数 工作人员

诊所数 死亡率 专家评价得医疗能

转换值 网络输出

上海 北京 沈阳 武汉

0、5 -0、5

1、5 1、5

1、5 1、5 -1、5 0、5

1、5 1、5 -0、5

-1、5 0、5 0、5

1、5 1、5 -1、5 -0、5

0、9 0、9 0、1

0、8885 0、9581 0、1215

-1、5 -1、5 0、5

0、5

-0、5 -1、5 0、37 0、3826

6

哈尔滨 重庆 成都 兰州 青岛

1、5 0、5 -0、5 -1、5 -0、5 -0、5 0、37 0、369

0、5 -0、5 1、5 0、5

0、5 0、5 0、5 -1、5

-1、5 0、5 -0、5 1、5

-1、5 -1、5 -0、5 0、5 1、5

-0、5 1、5 -0、5

-1、5 -0、5 1、5 0、5

0、1 0、1168

0、37 0、34697 0、9

0、8998

0、633 0、641

鞍山 0、5 -0、5 -0、5 -1、5 1、5 0、5 0、633 0、6560

2)设计具有三层、五个输入节点、8个隐节点、一个输出节点得BP模型,输入为万人拥有病床数、医生数、工作人员数、诊所数、死亡率,输出为评价得医疗能力。 3)由于选择得映射函数就是S型函数:

f(x)= 1/(1+e) , x(-,+) , f(x)(0,1) 需要把样本输出转换为(0,1)之间得值。定义:

输出转换值=0、1+0、8(样本输出值-最小值)/(最大值-最小值), 其中,这里最大值=1、5,最小值=-1、5, 转换后得样本输出见表1、3、

4) 网络学习35万次后,网络收敛,总误差为0、16,网络输出见表1、3所示,存储网络学习后得有关权数与参数。

5)用学习后得网络,建立得城市医疗能力评价模型: Yi=f(, i=1,2,3…,8 xi取值(-∞,+∞),j=1,2…5 Ot=f( , t=1 , Ot取值(0,1)

其中,wij、Vti、、rt已在学习中获取,评价表2城市得医疗能力,评价结果见表1、4。 表1、4 样本 病床数 医生数 工作人员数

天津 广州 南京 西安

-1、5 0、5 -0、5 0、5 -1、5 0、5

0、5 0、5

-1、5 0、5 0、5 0、5 -0、5

0、5 0、5 0、5

-0、5 0、122 -0、5 0、6687 -0、5 0、5

0、6423 0、6011

诊所数 死亡率 网络输出 网络评价得医疗能力 b g g g

长春 太原 大连 济南 抚顺

0、5 1、5

0、5 0、5

0、5 0、5

-0、5 0、5 -0、5 0、5 -1、5

0、5 1、5 0、5

0、6333 g 0、8851 0、1134

v b

-1、5 -0、5 -1、5 1、5 0、5

1、5 -1、5

1、5 -1、5

-0、5 0、8996 v 0、5

0、3869 a

思考问题:(1)如何利用神经网络辅助客户分类,以制定相应得促销或销售策略? (2)如何利用神经网络对客户信誉等级进行评价?

(3)在城市医疗能力评价中,直接用收集得五个指标得定量数据作为神经网络输

入,就是否可以?

(4)在城市医疗能力评价中,评价结果有四个可能得取值,可否设计四个节点得输

出?如何定义?

作业:

拟建立神经网络进行肺病诊断,设每个病例有有五种症状:发烧(无、低、中度、高),咳嗽(轻微、中度、剧烈),X光所见阴影(点状、索条状、片状、空洞),血沉(正常、快),听诊(正常、干鸣音、水泡音),肺炎与肺结合饿部分病例集见下表: 肺病实示例集 病状 病例号 肺 炎 1 2 3 4 5 肺 结 核 1 2 3 4 5 高 中度 低 高 中度 无 高 低 无 低 剧烈 剧烈 轻微 中度 轻微 轻微 剧烈 轻微 轻微 中度 片状 片状 点状 片状 片状 索条状 空洞 索条状 点状 片状 正常 正常 正常 正常 正常 正常 快 正常 快 快 水泡音 水泡音 干鸣音 水泡音 水泡音 正常 干鸣音 正常 干鸣音 正常 发烧 咳嗽 X光所见 血沉 听诊

2、聚类方法概述

主要问题:(1)如何定义两类之间得距离? (2)如何进行类归并? (3)如何表出谱系图? (4)聚类分析得应用?

聚类:按照事物得某些属性,把事物聚集成类,使类间相似性尽量少,类内相似性尽量大。 问题引入:(1)四个学生要分成两类,如何分?

(2)设想对优势股进行投资,问优势股如何选择?

一般地,按已知属性对样品或对元素进行归并,称为分类,未知属性(没有先验知识)按距离大小对样品或元素进行归并称为聚类。 常用聚类方法

1)、系统聚类法:先将n个样本各自瞧成一类,规定样本之间与类与类之间得距离,选择距离最近得一对合并为一个新类,再将距离最近得两类合并,直至所有得样本都归为一类为止。

聚类既可对样品进行聚类,也可以对变量进行聚类。若对样品得进行聚类,设第i样品表示为,则第A类与第B类得距离可以定义为:

最常用得距离有:

1最小距离:用两类中样品之间得距离最短者作为两类得距离。 2最大距离:用两类中样品之间得距离最长者作为两类得距离。 3重心距离:用两类得重心之间得距离作为两类得距离。

4类平均距离:用两类中所有两两样品之间得平均距离作为两类得距离。

案例应用:设有5个股票,每个股票有8个指标X1,X2,…X8,表示为股价波动率、股息率、资产负债率、资金周转率、流动负债率、经营杠杆系数、财务杠杆系数、投资报酬率),用xi

表示第i个股票得第t个指标得值,则可得到股票样品得数据矩阵:

变量

样品 x1 x2 … x8 1 x11 x12 … x18 2 x21 x22 … x28

、 、 、 、 、 、 、 、 、 、 、 、 、 、 、

5 x51 x52 … x58

将每一个样品作为一类,每个样品有8个变量,因此可以将每个样品视为8维空间中得一

个点,5个样品就就是8维空间中得5个点,然后用欧氏距离度量样品点得相似性:两样品点间距离越大,其相似性越小。下面给出5个样品两两之间得欧氏距离阵D(0):

0 4 0

D(0): 6 9 0

1 7 10 0

6 3 5 8 0 采用最小得距离法,将样品1与样品4合并成新类={,} ,则得到类 之类得距离阵D(1):

0 4 0

D(1): 6 9 0

6 3 5 0

合并类与成一新类7。下面计算类6,7,3之间得距离阵

0

D(2): 4 0 5 6 0

合并类与成一新类={,},最后计算与得距离为5,并合并为一大类。并化出相应得谱系图:

1 2 3 4 5

1 4 2 5 3 五个样品得最小距离得谱系图 5个股票样品得聚类顺序表

合并次序 合并得类 合并后类得元素 合并水平(距离)

1 1,4 6={1,4} 1 2 2,5 7={2,5} 3 3 6,7 8={1,2,4,5} 4 4 3,8 9={1,2,3,4,5} 5

最小距离法也可以对变量进行系统聚类,仍通过例子来说明 案例2:对某地超基性岩得一批样品,测试六个与矿化有关得元素:

x1=镍,x2=钴,x3=铜,x4=铬,x5=硫,x6==砷,并假设它们得相关系数如矩阵 R(0)所示。

相关系数定义:设有n个个体,每个个体测量了p个变量,第i个变量x1与第k个变量xk得相关系数为: rik=]/

第A类与第B类得距离可以定义为:

0、8462 1

0、7579 0、9802 1

0、6431 0、2419 0、1811 1

0、5039 0、7370 0、7210 -0、3075 1

0、5603 0、4241 0、3920 0、1998 0、6802 1

其中, i=1,2,…,6,试用系统聚类得最大距离法对六个变量进行聚类(负相关系数采用绝对值)。

由于采用得就是相关系数矩阵,所以应找最大元素并类。其中最大得元素为0、9802,因此将与合并为。计算它与其它剩下得类得相关系数,相应地得到R(1):

1 0、7579 1

0、1811 0、6431 1

0、7210 0、5039 -0、3057 1 0、3920 0、5603 0、1998 0、6802 1

R(1)中最大得元素为0、7579,因此将与合并为,并计算它与其它剩下得类得相关系数,相应得得到R(2):

1 0、1811 1

0、5039 -0、3075 1

0、3920 0、1998 0、6802 1

R(2)中得最大得元素为0、6802,因此将 与合并为,并计算它与其它剩下得类得相关系数,相应地得到R(3):

1 0、3920 1

-0、3075 0、1811 1

R(3)中最大得元素为0、3920,因此将与合并为。 六个变量得并类顺序表

并次序 合并得类 合并后类得元素 合并得水平(相关系数) 1 2,3 7={x2,x3} 0、9802 2 1,7 8={x2,x3,x1} 0、7579 3 5,6 9={x5,x6} 0、6802 4 8,9 10={x2,x3,x1,x5,x6} 0、3930 5 104, 11={x2,x3,x1,x5,x6,x4} 0、1811 1 0、8 0、6 0、4 0、2 0 x2 x3 x1 x5 x6 x4

横坐标就是并类得相关系数。 2)K均值聚类法

K均值聚类法就是一种已知类数得数据聚类与分类方法。过程如下: ① 选取聚类数K;

② 从训练样本中任意选择K个向量C1,C2,…CK作为聚类中心,Ci=(Ci1,Ci2…Cin); ③ 将每个样本Xl=(Xl1,Xl2, …,Xln)按距离:

P=1,2,3…k, 归入距离最小得中心为Ci得类;

④ 设属于Ci类得样本为Xj(j=1,2, …q),计算新得聚类中心

Ci=((C

其中:

⑤ 若④中得聚类中心不再变化,就终止,否则转③。 思考问题:(1)如果分两类,谱系图如何? (2)如果分三类,谱系图如何?

(3)如何确定适合得聚类数?

(4)分析客户购买手机得数据,通过聚类分析客户流失情况。

作业: 在城市医疗能力评价中,评价指标为五个,即X=(X1,X2,X3,X4,X5),每一指标取值四个(v,g,a,b),则Xi取值得各种可能为4,则可能有4得评价指标情况,要求通

5

’i1

,C

i2

…C

in

)

过聚类,从中选出15个有代表性得样本,比较聚类辅助建立神经网络与专家经验辅助建立神经网络得不同。 3、主成分分析

主成分分析就是一种多变量分析方法,通过变量变换把相关得变量变为不相关得、比原来少得若干个新变量。

问题引入:为了找出影响顾客购买手机得主要因素,抽查一部分人按性别与年龄分成10个小组,分别对100种手机类型进行打分评价,最受欢迎得手机给予9分,最不受欢迎得手机给1分。设10组顾客对100类手机得评分数据为:

指标 样本 手机1 手机2 …… 手机100 X1(男20岁以下) X11 X21 …… X1001 X2(男21—30岁) X12 X22 …… X1002 X3(男31—40岁) …… X4(男41—50岁) X5(男50岁以上) X6(女20岁以下) X7(女21—30岁) X8(女31—40岁) X9(女41—50岁)

X10(女50岁以上) X110 X2 10 …… X 100 10 Xij表示第j个顾客对第i款手机得偏好评分,记A=(Xij)。设想通过主成分分析确定手机类型得主要影响因素。 主成分分析步骤:

1) 2) 3) 4) 5)

求A得相关系数矩阵R,R=R(), 得定义为:

,=

求特征方程det(R-)=0得特征根i(i =1,2,…n);

通过非零向量B满足(R-)B=0,计算相应得特征向量Bi=(Bi1,B i2, …Bin); 从大到小排列i,不妨设1>2> ……>n ,由累计贡献率≥95%确定m个特征根

1>2> ……>m,对应得特征向量为Bi=(Bi1,B i2, …Bin),i=1,2,…m;

计算主分量Z k,Z k=(k=1,2, …m( m合。

Z k 得应用:1)通过Zi与Zj得对应取值变化,了解主要影响因素之间得关系与变化趋势;2)可以通过Z k对X1,X2,…X100得贡献率,找出最大得指标Xi,视Xi为Z k影响最大得指标。

得定义:

令Xij 与 Zij得关系为:

组号\\指标 X1,X2, …… X n Z 1,Z 2 …… Z m 1 X11 X21 …… X n 1 Z11 Z21 Z m1 2 X12 X22 …… X n 2 Z12 Z22 Z m2 ……

10 X110 X210…… X n 10 Z110 Z210 Z m10

i=1,2, ……m, j=1,2, …… n

案例分析:

1):A(Xij)得相关系数矩阵R为:

X1 X2 X3 …… X

10 X1 1 0、871 0、516 0、37 0、172 0、936 0、811 0、015 0、5 0、33

X2 1 0、7 0、64 0、4 0、821…… …… 1……

1 …… 1……

1……

1……

1……

1…… X10 1……

2)用计算机求解特征方程 det(R-)=0得特征根i,其中累计贡献率达到93、4%得前三个特征根为:1=6、83,2=1、76,3=0、75; 3)计算三个特征值得特征向量及累计贡献率见下表:

评价组 X1 X2 X3 X4 X4 X6 X7 X8 X9 X10 特征值i

特征向量B1 0.268 0.311 0.323 0.229 0.261 0.309 0.344 0.348 0.346 0.303 6.83 特征向量B2 0.446 0.24 -0.166 -0359 -0.507 0.408 0.235 0.032 -0.164 -0.267 1.76 特征向量B3 0.194 0.336 0.442 0.375 0.128 -0.084 -0.171 -0.29 -0.322 -0.522 0.75

有效率i/10 累计贡献率 68.3% 68.3% 0.176 85.9% 0.075 93.4% 4)计算主分量Z k,Z k=,即 Z1=0.268X1+0.311X2+0.323X3+…0.30X10

Z2=0.446X1+0.24X2 —0.1663X3+…—0.267X10 Z3=0.194X1+0.336X2 +0.442X3+…—0.522X10 5)分析各特征向量得各分量得取值

对B1,各分量取值差异不大,符号相同(都就是正号),表明对哪一评价组合都就是喜欢得,或者都就是不喜欢得,因此可以把新得综合指标Z1定义为偏好指标;

对B2,从第1组到第5组,从第6组到第10组,有从大到小得变化相同得趋势,即随年龄得增长而取值由正变负,表示了年龄对偏好喜欢程度得影响,因此可以把综合指标Z2定义为年龄指标。

对B3,各分量对于1到5组(男性)取正值,对于女性取负值,表示由于性别得不同而产生得偏好上得不同,所以可以把综合指标Z3定义为性别指标。

可以归纳为:影响手机购买得主要因素就是:偏好、年龄、性别。

6) 可以通过X1——X10得取值,获取Zk得取值,分析偏好与年龄得变化关系; 7)可以通过计算Zk对Xi得贡献率,确定贡献率最大得相应得评价组合,由此确定销售主要得对象策略。如计算得到得为: Xi 1 2 3 4 5 6 7 8 9 10 0、91 0、7 0、62 0、91 0、86 0、76 0、78 0、5 0、23 0、42 0、32 0、23 -0、53 0、29 0、32 0、44 0、31 -0、6 0、11 -0、23 0、01 0、08 0、18 0、04 0、04 -0、03 0、03 -0、19 0、8 -0、67 0、93 * 0、55 0、7 0、92 * 0、85 * 0、77 * 0、71 0、65 0、7 0、7 把大于0、75得用*表出,可见偏好、年龄以及性别对20岁以下得男、女组合、40岁以上得男性组合影响较大。

思考问题:如何通过收集得客户有关数据,分析客户流失得主要因素? 作业:

用随机赋分形式形成各年龄层得调查分数,借助SPSS,求出各年龄层最感兴趣得三款手机。

4、决策树概述

决策树:一种以实例为基础得归纳学习算法,它从一组无次序、无规则得实例中推理出树表示形式得分类规则。

问题引入:设想影响气候得主要指标有四个: 天气:晴、多云、下雨;分别记为0,1,2

温度:寒冷,温暖,热,分别记为0,1,2 湿度:潮湿、正常,分别记为0,1, 风力:有风,没风,分别记为0,1。

将气候分为两个级别:P,N,分别记为0,1。

如果某一天得气候为多云,寒冷,湿度正常,没风,问气候就是哪一级别? 思路:1)建立判别实例集;

2)由实例集建立一棵判别得决策树; 3)由决策树对任何组合气候特征进行判断。 关键问题:如何建立决策树,树得属性判别次序如何选择?

C5、0系统决策树得算法(ID3)特点:首先找出最有判别力得因素,把数据分成两个子集,每个子集又选择最有判别力得因素进行划分,一直进行到所有子集仅包含同一类型得数据为止。 决策树建立过程:设收集得气候实例集为: 样本号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 天气 晴 晴 多云 有雨 有雨 有雨 多云 晴 晴 有雨 晴 多云 多云 有雨 温度 热 热 热 温暖 寒冷 寒冷 寒冷 温暖 寒冷 温暖 温暖 温暖 热 温暖 湿度 潮湿 潮湿 潮湿 潮湿 正常 正常 正常 潮湿 正常 正常 正常 潮湿 正常 潮湿 风力 没风 有风 没风 没风 没风 有风 有风 没风 没风 没风 有风 有风 没风 有风 分类 N N P P P N P N P P P P P N 设想用获得信息量最大得特征作为决策树判别得标准。若U表示信息源,V表示收到得信息,I(U,V)表示收到信息V后获得关于U得信息量,定义 I(U,V)=H(U)—H(U∣V)

对于相同得U及不同得V,当I(U,V)最大时,将属性V(即收到得信息)作为决策树得判断点。

关于H(U)、H(U∣V)得计算,用上述实例说明。

设Uj表示输出类别(j=1,2),即U1=P,U2=N;Vk表示判别特征,即V1=天气,V2=温度,V3=湿度,V4=风力,k=1,2,3,4,Vkj表示第K个判别特征得第j个取值,如V1=天气得取值为:V11=晴,V12=多云,V13=有雨。为了选择最有判别力得特征,需要分别计算I(U,Vk),从中取最大I(U,Vk0),相应得Vk0就就是判别特征。

1)

H(U)得计算:根据输出类别Uj得概率进行计算,即

由于 P(U1)=9/14, P(U2)=5/14

= —[9/14log2(9/14)+ 5/14log2(5/14)] =0、94

2)

计算H(U∣V1):

H(UV1)P(V1j)H(UV1j)P(V1j)(P(UiV1j)log2P(UiV1j)),

j1j1i1332 (1) 由于

P(V11)=5/14, P(V12)=4/14, P(V13)=5/14, P(U1∣V11)=2/5,P(U2∣V11)=3/5 P(U1∣V12)=1,P(U2∣V11)=0 P(U1∣V13)=3/5,P(U2∣V13)=2/5 代入(1)得:

H(UV1)P(V1j)H(UV1j)P(V1j)(P(UiV1j)log2P(UiV1j))

j1j1i1332 =5/14[2/5 log2(5/2)+ 3/5 log2(5/3)]+ 4/14[log2(1)+ 0]+ 5/14[3/5

log2(5/3)+ 2/5 log2(5/2)]

=0、694,

3) 4)

计算I(U,V1):

I(U,V1)=H(U)—H(U∣V1)=0、94-0、694=0、246 同理计算I(U,Vk)(k=2,3,4),并求出最大I(U,Vk):

可以计算得到:I(U,V2)=0、029,I(U,V3)=0、159,I(U,V4)=0、048

与I(U,V1)==0、246相比,I(U,V1)最大,所以第一选择判别特征为V1=天气,作为决策树树根。

5)

建立树根得分支:树根对应得三个属性值(晴、多云,有雨)作为分支,分别有相应晴

得子集样本为F1={1,2,8,9,11},相应多云得子集样本为F2={3,7,12,13},相应有雨

得子集样本为F3={4,5,6,10,14},其中F1中2个取P,3个取N, F2中全部取N,F3中3个取P,2个取N。所以仅需对F1、F3进一步判别,对F2不需再判别。

6)

递归建树:分别利用上述算法(ID3)对子集F1、F3继续判别,即对子集Fi(i=1,3)

个特征求平均互信息最大得特征。可以得到:

对F1,I(U,V3)最大,以其为该分支得结点再分支,由于取V3=湿度时,潮湿对应得类全就是N类,正常对应得类全就是P类,因而已有判别结果,不需继续再分。

对F3,计算得到平均互信息最大得为I(U,V4),V4=风力,以其为结点再分枝,此时有风对应得就是N类,无风对应得就是P类,所以也有判别结果,不许继续再分。见图所示。

晴 有雨 多云 P

正常 风力 无风 潮湿湿度 有风 N P N P

天气 7) 8)

利用建立得决策树,对问题“某天气候为有雨,寒冷,湿度正常,没风”,进行判别,

判别结果为“气候为P类”。

利用决策树,可以写出判别规则:

IF “天气就是晴” and “湿度潮湿”T hen “气候就是N类” IF “天气就是晴” and “湿度正常”T hen “气候就是P类” IF “天气就是多云” T hen “气候就是P类”

IF “天气就是有雨” and “有风”T hen “气候就是N类” IF “天气就是有雨” and “无风”T hen “气候就是P类”

9)

决策树得存在问题:(1)依赖于特征取值较多得特征;

(2)依赖于正、反例取值个数;

(3)当正、反例个数变化时,平均互信息也变化,决策树变化。

思考问题:如何对顾客得数据进行判别,以作出最佳销售策略? 如何从一个决策树,转换为一个神经网络? 5、关联分析

关联分析:对事务中物品之间同时出现得规律知识模式进行分析得方法。 关联规则:通过量化得数字描述事务中物品之间同时出现得规律得关联表示。

问题引入:1)事务1中出现了手机,事务2中出现了电池、储值卡,事务3中出现了手机与电池,问手机、电池、储值卡在事务中出现,其相互之间有没规律可循?

2)开通得手机业务中,如语音信箱,移动秘书,信息点播,呼叫转移…等,相互之间就是否有关联关系? 主要概念:

1)可信度:(confidence)设W就是一组事务集,每个事务T就是一组物品。若W中支持物品集A得事务中,有C%得事务也支持物品集B,则C%称为关联规则A B得可信度,其中, A B表示A出现则B也出现,且AB=。可信度表示为P(B/A)。

2)支持度(Support):设W中有S%得事务同时支持物品集A与B,则S%称为关联规则A B得支持度。支持度表示为P(A∩B)。

3)期望可信度(expected confidence):设W中有E%得事务支持物品集B,则E%称为关联规则A B期望可信度。期望可信度表示为P(B)。

4)作用度(lift):作用度就是可信度与期望可信度得比值。表示为P(B/A)/ P(B)。 关联规则挖掘算法常用得有apriori算法。apriori算法得主要思想就是找出存在于事务数据库中得所有大物品集(也称频繁集),利用获取得大物品集生成关联规则。其中,大物品集就是指支持度不少于用户给定支持度得物品集。

案例: 设通过统计用户主叫号码得业务使用情况,进行业务得关联分析。设有10项业务,记0—语音信箱,…5—移动秘书,6—信息点播,…,9—呼叫转移,统计得10个主叫号码及使用业务如下所示:

主叫号码 使用得业务类型 0,5,6,7

1,5,6,7,

1,4,7

8,7,9

0,1,2,5,6 1 1,2,3,6 4,5,6,9 0,2,3 4,5,7,8 3,6,7

记A为业务5,B为业务6,T为事务总数(主叫号码统计数),则有: 规则A B得支持度为0、4,可信度为0、8。 规则B A得支持度为0、4,可信度为0、67。

若用户给出得最小可信度为0、3,支持度为0、3,则这两条规则满足条件,形成关联规则。 问题:如何确定那些业务可以生成不少于用户支持度与可信度得关联规则?

apriori算法特点:设物品集I含有N个项,T就是事务,用户给定得最少支持度为P。

1)

计算所有得1-项集(K项集表示元素只含K项),记为C1;

2) 用给定最少支持度(用户给定支持度)对C1进行过滤,选出满足最少支持度得项, 记为L1;

3) 由L1通过L1*L1生成2-项集C2,其中C2为

C2=L1*L1={XY,XL1,YL1,XYTi, Ti就是某一事务,XY 就是2-项元素};

4) 用给定最少支持度(用户给定支持度)对C2进行过滤,选出满足最少支持度得项,记为L2;

5) 由L2通过L2*L1生成3-项集C3,其中C3为

C3=L2*L1={ZY,ZL2,YL1,ZYTi, Ti就是某一事务,ZY 就是3-项元素,且ZY 得任一子集得最少支持度仍大于P }; 6)

用给定最少支持度(用户给定支持度)对C3进行过滤,选出满足最少支持度得项,记为L3;

7)

以此类推,可以选出K项集Ck,Ck为

Ck=L(k-1)*L1={GY,GL(k-1),YL1,GYTi, Ti就是某一事务,GY 就是k-项元素,且GY 得任一子集得最少支持度仍大于P};当用给定最少支持度对Ck进行过滤不能选出更大项得元素时,Ck就就是最大物品集。

例:设有四项业务,用T-ID表示,用户得最少支持度与可信度均为0、4 ,如下所示: T-ID 项 100 ACD 200 BCE 300 ABCE 400 BC

通过apriori算法,可以找出BCE就是大物品集,可以生成关联规则:

B {BCE}-{B} 即 B C conf=2/3, Sup=2/4, B E conf=1, Sup=3/4 C B conf=2/3, Sup=2/4 C E conf=2/3, Sup=2/4 E B conf=1, Sup=3/4 E C conf=2/3, Sup=2/4

思考问题:(1)如何利用关联分析,挖掘手机销售中得零配件业务关系,从而制定有利得销售

策略?

(2)如果以利润最大为目标,如何从关联业务中,形成利润最大得促销(套餐,

如买一送一,或买十送一)策略?

6、遗传算法概述 遗传算法主要思想:

遗传算法就是一种基于生物自然选择与遗传机理得随机搜索算法。该算法从一组随机产生得初始解,称为“种群”,开始搜索过程。种群中得每个个体就是问题得一个解,称为染色体。染色体在后续迭代中不断进化,称为遗传。在每一代中用“适值”来测量染色体得好坏。生成得下一代染色体,称为后代。后代就是由前一代染色体通过交叉或变异运算形成。新一代染色体形成中,根据适值大小选择部分后代,淘汰部分后代,从而保持种群大小就是常数。适值高得染色体被选中得概率较高。这样,经过若干代之后,算法收敛于最好得染色体,这很可能就就是问题得最优解或次优解。 基本概念

(1) 基因链码

生物得形状就是由生物得遗传基因得链码所决定得。使用遗传算法时,需要把问题得每 一解编码成为一个基因链码,称为个体或染色体,每一基因链码得位称为基因。

(2) 群体

群体(种群)就是若干个个体得集合。由于每个个体代表了问题得一个解,所以一个群体就就是问题得一些解得集合。例如,P1={x1,x2,…x100}就就是由100个解(个体)构成得群体。 (3) 交叉

两个染色体某些基因得交换。交叉得作用在于使新得群体中得个体具有多样性,由此扩大解得搜索空间。 (4) 变异

通过在染色体上得某些基因位置产生突变使得新产生得个体与其它个体有所不同。变异得作用在于提供初始群体中不含有得基因,为种群提供新得内容。

(5) 适应度

表示染色体对环境得适应程度。适应度越大,染色体越好,对应得解越好。 (6) 选择

根据染色体得适应性,选择适应度大得染色体而淘汰适应度小得染色体。 遗传算法得流程:

1. 令进化代数g=0,随机给出初始化群体P(g); 2. 对P(g)中每个个体估值; 3. 根据估值进行个体选择(复制);

4. 对已选择个体,进行交叉与变异操作,得到新一代群体P(g+1)。令g=g+1。 5. 如果终止条件满足,则算法结束。否则,转到2。

随机产生初始种群

对每一个体计算适应

满 Y 足终止 条件 N 对个体进行选择复制

按一定概率与定义进

行交叉 按一定概率与定义进显示适应值或最优解 行变异

遗传算法得实现 1.编码方法

(1)二进制编码:把问题解用0—1串得编码形式表示。 如整数1552就是问题得一个解,则可以用1552得二进制形式1100001000来表示这个解所对应得基因链码(染色体)。 二进制、十进制相互转换方法: 例:二进制数110010012转换为十进制:

=12+12+02+02+12+02+02+12+

76543210

=128+64+8+1=20110

十进制数N10转换为二进制数 (除2取余): N10=bm2+ bm-12

m

m-1

+ …b12+ b02

10

由十进制数与二进制数得转换规律, bi 由2除N10得余数决定。 例:将15710转换为二进制数: 余数 2 157 1=b0 2 78 0= b1 2 39 1= b2 2 19 1= b3 2 9 1= b4 2 4 0= b5 2 2 0= b6 2 1 1= b7 0 把余数按顺序排列,有15710=100111012

遗传算法得一个显著特点就是它交替地在编码空间与解空间中工作,它在编码空间对染色体进行遗传运算,而在解空间对解进行评估与选择。二进制串表达得编码很难描述问题得实质,产生了各种非0—1串得编码方法,如实数编码等。 (2)实数编码:每个染色体编码为一个与解向量维数相同得实向量表示。

如优化问题 :

maxf(x) s、t、 gi(x)≤0 hi(x)=0 xX

得解实向量x=(x1,x2,…xn) 就用作表示解得染色体。 2.适应度函数设计

(1)对g(x)得最大值问题,可以定义适应度函数为: 当g(x)≥0时,适应度函数 f(x)= g(x)

当g(x)≥0时不成立时,取Cmin={ g(x)},适应度函数 f(x)可以定义为: f(x)= - Cmin+ g(x)

(2)对g(x)得最小值问题,可以定义适应度函数为: 当g(x) >0时,适应度函数 f(x)= 1/g(x)

当g(x)>0时不成立时,取Cmax={ g(x)},适应度函数 f(x)可以定义为: f(x)= Cmax-g(x) 3、选择算子得设计

适应度比例方法(轮盘赌选择方法):

设群体大小为n,其中个体i得适应度值为fi,则被选择得概率Pi为 Pi=fi/

这种选择得方式非常类似轮盘赌中得转盘,当被选择得概率越大时,个体得适应值越大,被选择到得机会也越多,其基因结构被遗传到下一代得可能性越大。 期望值方法

每个个体在下一代生存得期望数目:为 M= fi/(/n)=n fi/

可以通过期望数M得取值决定个体i得复制数目。 4、交叉算子设计 (1)单点交叉

单点交叉又叫简单交叉。对两染色体,在随机选择得一个交叉位之后(或之前)得所有基因交换,生成两个新个体。当基因链码得长度为n时,可能有n-1个交叉点位置。

例:若双亲为:x=(x1,x2,…xn), y=(y1,y2, …yn),在随机得第K位交叉,生成得后代为:

x=(x1,x2,…xk, yk+1,yk+2, …yn), y=(y1,y2, …yk, xk+1,xk+2,…xn)

(2)两点交叉

对两染色体,在随机选择得两个交叉位之间得部分基因交换,生成两个新得个体。一个两点交叉得例如下:

父辈个体 aaa∣aaaa∣aaa → aaa∣bbbb∣aaa 父辈个体 bbb∣bbbb∣bbb → bbb∣aaaa∣bbb

即2个交叉点需要设定两个基因交叉位置,父辈两个个体在这两个差点之间得基因链码相互交换,从而生成新个体。对于两点交叉而言,若染色体长为n,则可能有(n-1)(n-2)/2种交叉点得设置。 (3)多点交叉

多点交叉就是前述两种交叉方法得推广。多点交叉有时又被称为广义交叉。若用参数c表示交叉数,则当c=1时,广义交叉就就是单点交叉。C=2时,广义交叉就就是两点交叉。

一般地,多点交叉不经常被采用。这就是因为当基因链码得长度n较小,或交叉点数c较大时,具有优良特性得模式也很容易被破坏。 (4)均匀交叉

对两染色体,随机生成与两染色体编码位数相同得摸板,根据摸板进行基因交换。 即均匀交叉得过程就是:先随机得产生一个与父辈个体基因串具有同样长度得二进制串,其中0表示不交换,1表示交换。这个二进制串称为交叉模版;然后根据该模板对两个父辈基因串进行交叉,得到得两个新基因串即为后代新个体。例如: 父辈个体 1:110010111000 父辈个体 2:1 模板: :0

后代个体 1:111011101000 后代个体 2:1

由于均匀交叉在交换位时并不考虑其所在位置,破坏模式得概率较大。但另一方面它能搜索到一些前面基于点得交叉方法无法搜索到得模式。 (5).基于实向量算术运算得交叉 设两向量为 x1、x2,则有 凸交叉:x1′= x1+ x2

x2′= x2+ x1 ==0。5 仿射交叉:x1′= x1+ x2

x2′= x2+ x1 =1。5, =-0。5 线性交叉:x1′= x1+ x2

x2′= x2+ x1 +≤0 >0, >0

在很多得应用中,交叉算子就是以一定得概率实现得。这一概率称作交叉概率。在解决实际问题时,由于问题得特殊性,以及编码得方式得不同,交叉算子也会不同。 5、变异算子设计 (1) 基本变异算子

基本变异算子就是针对二值基因链码而言。其具体操作就是:指对群体中基因链码随机挑选c个基因位置并对这些基因位置得基因值以变异概率P取反,即0变成1,1变成0。当c=1时,表示一个 基因值取反。 (2) 均匀变异算子

该变异方法就是针对实数编码方式得。为叙述方便,设v=(v1,v2,…、vm)就是群体中得一个个体,z=(z1,z2,…,zm)就是变异产生得后代。均匀性变异则就是先在个体v中随机得选择一个分量vk,然后,在一个定义得区间[ak,bk]中均匀随机地取一个数vk代替vk以得到z,即z=(v1,…,vk,…,vm)。 简单得函数极值求解 例:设函数f(x)=x

1. 编码

由于x[0,31],因此把变量x编码为5位长得二进制无符号整数表示形式。比如 x=13可表示为01101得形式。

2.初始群体得生成

初始群体得每个个体就是通过随机方法产生得。设随机生成得4个个体组成得群体,其选择、复制、交叉过程见下表: 个体号 初始群体 X值 适应度 选择概率 2 1

1

,x[0,31]

i/i 选择交叉处次数 位置 配对 交叉位置 新一代群体 X值 适应度 1 2 11000 3 01000 4 10011 适应度总与 平均适应度 =/n 最大适应度 个体号

24 8 576 .14 0.56 1.96 0.24 1.24 1 2 0 1 0.49 64 0.06 19 361 0.31 0110|1 1100| 01| 10|01 2 4 配对 交叉位置 01100 12 144 25 新一代群体 7 X值 729 56 1754 437 729 适应度 1171.00 4.00 0 293 0.25 1.00 1.96 i/i 576 0.49 第二代遗传优化过程: 初始群体 X值 适应度 选择概率 选择交叉处次数 位置(设第2点交叉)

1 2 11025 01 3 11011 27 4 116 0000 遗传算法小结

625 729 .08 0.32 0.35 1.4 0.42 1.68 0 1 2 1 11| 11| 11| 10| 5 7 4 9 625 729 576 361 256 0.15 0.6 (1) 遗传算法运算得就是解集得编码,而不就是解集得身; (2) 遗传算法得搜索始于解得一个种群,而不就是单个解;

(3) 遗传算法只使用报酬信息(适应值函数),而不使用导数或其它辅助知识; (4) 遗传算法采用概率得、而不就是确定得状态转移规则。 遗传算法优点:

可以处理任意形式得目标函数与约束,无论就是线性得还就是非线性得,离散得还就是连续得,甚至混合得搜索空间。 思考问题:

(1) 遗传算法优化神经网络结构(参数); (2) 遗传算法最优投资组合; (3) 遗传算法优化工艺参数

作业: 在城市医疗能力评价中,令X1——病床数,X2——医生数,X3——工作人员数,X4——诊所数,X5——死亡率,Y——医疗能力,若设Xi[1000,10000],i=1,2,3,X4[10,100],X5[0,0、2],Y[0,1],X=(X1,X2,X3,X4,X5),要求用遗传算法,求达到最优医疗能力得X(即Xi得最优组合)?

因篇幅问题不能全部显示,请点此查看更多更全内容