数据筛选实验总结
重庆科技学院
实 验 报 告
课程名称:统计软件与应用 开课学期:xx-xx学年第二学期 学 院: 法政与经贸学院 开课实验室:H414 学生姓名: 专业班级:资环13-2学 号: xx4
重庆科技学院学生实验报告
统计学实验报告与心得体会
班级: 姓名:学号:成绩:
一 实验报告成绩: 实验一 数据的搜集与
实验目的和要求
培养学生处理数据的基本能力,熟悉Excelxx的基本操作界面,熟悉间接和直接数据的搜集方法,掌握不同类型的数据处理方法,以及数据的编码、分类、筛选、排序等操作的方法。
实验步骤
1、 数据的搜集:确定数据,主要由两种渠道,间接数据和直接数据。间接数据一种
方式是直接进入专业数据库网站查询,另一种是使用搜索引擎。直接数据搜集步骤有:调查方案设计、调查问卷设计、问卷发放、问卷收回、数据初步等。
2、数据的编码:如果数据是由开放式的问题来获取的,那么,需要对答案进行罗列、合并、设码三个过程来完成编码工作。
3、数据的录入:Excel的数据录入操作比较简单,一般只要在工作表中,单击激活一个单元格就可以录入数据了。通过“格式-单元格格式”(Ctrl+1)菜单来实现数据的完整性。
4、数据文件的导入:导入的方法有二,一是使用“文件-打开”菜单,二是使用“数据-导入外部数据-导入数据”菜单,两者都是打开导入向导,按向导一步步完成对数据文件的导入。
5、数据的筛选:Excel中提供了两种数据的筛选操作,即“自动筛选”和“高级筛选”。
6、数据的排序:在选中需排序区域数据后,点击“升序排列”(“降序排列”)工具按钮,数据将按升序(或降序)快速排列
7、数据文件的保存:保存经过初步处理的Excel数据文件。可以使用“保存”工具按钮,或者“文件-保存”菜单,还可以使用“文件-另存为”菜单。
实验二 描述数据的图标方法
实验目的和要求
通过软件辅助,将数据转换为直观的统计表和生动形象的统计图,掌握Excel的制图和制表功能,并能准确地很据不同对象的特点加以运用。 实验步骤
利用Frequency函数获取频数频率:1、将数据输入并激活分别符合条件的单元格。2、打开“插入函数”对话框,选择函数。3、点击“插入函数”对话框确定按钮进入“函数参数”对话框,选中符合条件的对话框。4、使用组合键“Ctrl+Shift+Enter”,得到频数,返回结果。5、对结果进行修饰,加入分组标志及其值,再加入频数具体名称,并且计算频数。
利用直方图:1、将数据输入到指定单元格。2、使用“工具——数据分析”菜单,选择“直方图”。3、进入“直方图”分析工具库,选中复选框。4、单击确定按
钮,得到直方图分析工具扩展函数的返回结果。5、对结果进行修饰。
实验三 统计数据的描述
实验目的及要求
应用统计软件,描述统计数据的集中趋势、离散程度、分布偏态。掌握Excel xx中描述统计指标对应的函数,包括算数平均数、调和平均数、几何平均数、众数、中位数、标准差、方差等。.熟练掌握Excel xx“描述统计”工具进行描述统计。
实验步骤
掌握一些常用的使用函数。就Average函数进行举例,计算参数的算术平均值,简单算术平均数:1、直接将数据输入到符合条件的单元格。2、然后激活一个空白单元格,输
入公式“=AVERAGE( )”,回车返回结果;加权算术平均数,Excel没有提供专门的内置函数,1、可先计算各组的组中值,作为该组一般代表2、激活一空白单元格,输入相关公式,回车返回结果。
“描述统计”分析工具扩展函数:1、使用“工具——数据分析”菜单,打开“数据分析”对话框,从分析工具下框中选择“描述统计”。2、点击数据分析对话框的确定按钮进入“描述统计”对话框,输入区域点击右侧箭头,选择需要分析描述统计结果的数据。3、点击描述统计对话框确定按钮,得到描述统计结果。
实验四 参数估计
实验目的和要求
应用统计软件,完成抽样的工作,并且在抽样数据获取的基础上,计算样本统计量,对对应总体参数进行区间估计。了解抽样组织形式以及如何抽取样本数据,掌握Excelxx中应用函数表单进行参数估计的方法和步骤。
实验步骤
“抽样”分析工具将输入区域视为总体,并使用总体来建立样本。1、使用“工具——数据分析”菜单打开“数据分析”对话框,选择“抽样”,并将其打开。2、点击输入区域右侧的箭头,鼠标拖动选择单元格。3、点击“抽样”对话框的确定按钮,返回结果。
点估计是依据样本估计总体分布中所含的参数或参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,
作为参数或参数的函数的估计值
区间估计:1、选中单元格,使用“插入——名称——指定”菜单,打开“指定名称”,选择“首行”,点击确定。2、构建函数表单框架。3、输入框架下对应的数据和函数公式。
实验五 假设检验
实验目的与要求
了解不同假设检验内容要求的不同检验统计量和检验方法;掌握利用函数表单进行假设检验的方法和步骤;掌握Excel xx中应用分析工具库进行假设检验的方法和步骤。
实验步骤
1、创建样本数据,确定需进行假设检验的总体参数2、确定抽样样本统计量及其服从的分布3、进行假设设计(单侧,双侧)4、确定置信水平5、计算检验统计量6、计算置信水平下的检验区间(或检验临界值)7、比较检验统计量与检验区间(或检验临界值) ,得出结论。
实验六 方差分析
实验目的与要求
应用统计软件,对数据进行单因素饭方差分析和双因素方差分析。了解方差分析的假设前提,掌握Excel xx中应用分析工具库进行方差分析的方法和步骤。 实验步骤
单因素方差分
1、使用“工具——数据分析”打开数据分析对话框,选择“方差分析:单因素方差分析”分析工具,点击确定按钮打开“方差分析:单因素方差分析”对话框。
2、输入区域点击右侧箭头,选择单元格。3、分组方式选择“列”单选框。4、点击“方差分析:单因素方差分析”对话框确定按钮,返回结果。
双因素方差分析
1、使用“工具——数据分析”打开数据分析对话框,选择“方差分析:无重复双因素方差分析”分析工具,点击确定按钮打开“方差分析:无重复双因素方差分析”对话框。2、输入区域点击右侧箭头,选择单元格。3、分组方式选择“标志”复选框。4、点击“方差分析:无重复双因素方差分析”对话框确定按钮,返回结果。
二 心得体会 成绩:
统计学实验心得体会
某生产车间30名工人的日产零件数如下(单位:个),试对其一组距为10进
一个学期的实训不知不觉的就这样过去了,在这里不敢说自己学到很多的东西,但我真的懂得了很多,也在其中明白了很多。在这学期的统计学实验学习中,我加深了对统计学原理的学习,以及对数据知识的理解和掌握,同时也对Excel操作软件的应用有了更深刻的了解,巩固了所学知识,拓展了知识面。结合以上的数据分析,以下是我这几次实验的一些心得和体会。
在统计实验中,对数据的筛选和处理是比较重要的内容和要求。同时对数据的分析也离不开相关软件的支持。比如,要求一个企业30名职工的日生产零件数,就要对数据进行导入、分析、筛选,最后得出答案。因此,Excel软件是实
数据分析与筛选
[1 ]
在预测与决策时,经常需要对所要研究的对象进行分析和收集数据,从大量的统计数据中找规律,而这些数据真实与否直接影响分析结论的科学性。在多数情况下会发现,统计来的数据是按照某一规律且起伏并不是很大,但其中都可能混有“异常数据”,这些异常数据是由异常因素(例异常时间、干扰或误差等)造成的与大多数观察值不一致。有些异常值可能是在统计时度量或执行错误所得到的,在分析过程中应剔除的,但有些数据非任何统计错误所致不能简单地剔除,否则可能导致重要的隐藏信息丢失[2,特别有些异常数据非常有价值,若剔除则可能影响到结论的科学性。因此,对于异常数据的挖掘及处理(利用)是值得研究的问题。 ]
异常数据的挖掘方法
所谓数据挖掘就是按照既定的目标, 对大量的统计数据进行探索, 揭示隐藏其中的规律并进一步将之模型化的一种先进有效的方法。对异常数据的挖掘我们认为实际上就是识别统计数据是否为异常值,挖掘过程实际上是识别过程,可以用以下几种方法进行挖掘:
3σ检测法[2 ]
一般统计数据若没有明显的上升或下降趋势(若是时间序列一般为平稳的时间序列),都分布在其均值周围,标准差σ能反映其离散程度。统计数据可以是某一总体的样本。如果是一般总体,可以由概率统计中的切贝谢夫不等式知道,对于任意的0ε>,有:
2
P{|X?E(X)|??}?2 ?
21特别地有,P{|X?E(X)|?3?}?即统计数据与其均值的偏差超过?2(3?)9
3σ 比例不超过1/9则由不等式P{|X?E(x)|?3?}?2[1??(3)]?0.027 ,即在正态分布下统计数据与平均值的离差大于3?的概率仅为0.27%,所以可将那3σ 些有均值之差的绝对值超过3σ的统计数据视为异常数据。 根据概率论中的中心极限定理,
因此3σ检测法在实际中比较常用。当然它的局限性是只适用于单维异常数据的挖掘。
2.3利用聚类分析法对数据处理
聚类分析又称群分析,是研究分类问题的一种多元统计方法。在聚类分析的过程中,将样品或变量按相互之间距离的大小或由相似系数反映出的相近性聚成若干类,常用的距离有欧氏距离、马氏距离、兰氏距离等,马氏距离可以排除指标之间相关性的干扰且不受量纲的影响,最为实用。根据聚类的结果,距离较小
或相似系数大的可以聚为一类,但最终聚成几类,并没有严格的限制。如果存在几个样品,聚合成哪一类都不合适,或与其它样品的距离都比较远,那么就可断定这些样品数据为异常数据。
1、数据在聚类分析之前要进行数据的变换,常用的方法有
a中心化变换:
x*?xij?x(i?1,2,3,...m)
变换后的数据均值为0,而协方差不变。
B.标准变换:
xij?xjx*?(i?1,2,...n;j?1,2,...m) sj
其中sj是标准差;变换后的数据每个变量的样本均值为0,而且标准变换后的数据与变量的量纲无关;
2、由聚类分析法的基本思想,即可得出
① 数据变换:常用的数据变换方法在上面已经详细举出。数据变换的目的时为了便于计算和比较,或改变数据的结构;
② 计算n各样品两两间的距离,得到样品间的距离(常用欧式距离)矩阵D(0); ③ 初始(第一步:i=1)n个样品各自构成一类,类的个数k=n,第i类Gi?{x(ij)}(i?1,2,...n),此时类的间距就是样品距离,然后对样品X(i)(i?1,2,...,n)执行并类过程④和⑤;
④ 对步骤3得到的距离矩阵Di?1,合并类间距离最小的两类为一新类,此时类的总个数k减少一类,即k=n-i+1;
⑤ 计算新类与其他类的距离,得到新的距离矩阵,若合并后的总个数k仍然大于1,重复以上的过程,
⑥ 画谱系聚类图;
⑦ 觉定分类个数及各类的成员。
2.4.典型例子——市场占有率问题
一个企业的销售量(或销售额)在市场同类产品中所占的比重。直接反映企业所提供的商品和劳务对消费者和用户的满足程度,表明企业的商品在市场上所处的地位。市场份额越高,表明企业经营、竞争能力越强。市场份额根据不同市场范围有4种测算方法:
(1).总体市场份额。指一个企业的销售量(额)在整个行业中所占的比重。
(2).目标市场份额。指一个企业的销售量(额)在其目标市场,即它所服务的市场中所占的比重。一个企业的目标市场的范围小于或等于整个行业的服务市场,因而它的目标市场份额总是大于它在总体市场中的份额 。
(3).相对于3个最大竞争者的市场份额。指一个企业的销售量和市场上最大的 3个竞争者的销售总量之比。如:一个企业的市场份额是30%,而它的3个最大竞争者的市场份额分别为20%,10%,10%,则该企业的相对市场份额就是30%÷40%=75%,如4个企业各占25%,则该企业的相对市场份额为33%。一般地,一个企业拥有33%以上的相对市场份额,就表明它在这一市场中有一定实力。
4.相对于最大竞争者的市场份额。指一个企业的销售量与市场上最大竞争者的销售量
之比。若高于100%,表明该企业是这一市场的领袖。
三、数据筛选
数据的筛选在数学建模中占有很重要的地位,它是数学建模的第一步,我们只有得到好的数据才能保证得出的结果的真实性与准确性。而在实际的问题中我们遇到的数据量往往是巨大的。为了保证我们所用的方法能够在原始数据的支持下得以实现,我们必须要对数据进行筛选,使得解决方法简单化。但是我们又要保证筛选出来的数据具有代表性,使得到的结果更加准确与真实。
数据筛选有很多种不同的方法
3.1:随机抽样
从一个总体的样本X中随机抽取出n个个体,这样称对总体X进行随机抽样,其中n叫做样本容量,这n个个体构成了样本。在随机抽样过程中满足随机性和独立性两个特征,即对于每一次的抽样在总体中的每一个个体被抽到的概率都相同,每次抽取的结果不会影响到下一次的抽取。
这样的随机抽样适用于对总体的概率分析等统计方面的应用,比如可以分析数据中的最大值、均值、众数等数据特征不能够对数据的
3.2利用粗差法筛选数据
1基本假设
利用粗差法筛选数据的方法是一种基于数理统计理论得出的一种筛选数据的方法,其主要的运用体现在矿井通风阻力测定数据前处理的运用中,以及其他相类似的数据处理。以下我们就以矿井的通风阻力为例介绍粗差筛选数据的方法。
在进行通风阻力测量时,要求选择合理的测量路线,在每条测量路线上选择合理的测量点,每个测量点至少要求5个数据。在测量期间,如果巷道通风状况等条件保持稳定,则某点的数据样本符合正态分布,且其平均值近似为真值。
某测点测量数据的样本x=(x1,x2,x3.....xn),n>5,的方差为
1n2s?(x?xi)2 (1) ?n?1i?1