第三讲 DATA菜单项的讲解
教学目的:对于菜单基本功能使用熟练;
教学重点:文件转置;文件合并;数据分类汇总;
教学难点:文件转置;
具体教学内容:
一般来讲,建立一个数据文件以后,就可以进行统计分析了。但是在许多时候,需要对数据进行全面彻底的检查,及时地对数据进行增加、删减、更新,并相应地进行数据的排序、分类、组合、拆分等,使数据更加符合工作需要。这就需要对数据进行经常性的编辑处理。SPSS软件对数据的编辑处理功能主要集中在Data、Transform这两个菜单中。
一、Data命令菜单的数据编辑功能
1.Define Dates:定义时间序列的日期型变量
要进行与时间序列有关的统计分析需要预先定义时间序列的日期型变量。SPSS软件提供了这一功能。点击Data=>Define Dates,弹出定义窗口。该窗口大致分为两个部分:
(1)Case Are:选择时间序列的日期格式。格式中的“Not dated”,是不定义时间序列的意思。选择该格式,将删除所有曾经定义过的实际序列的变量格式,即所有名称为Year_、Quarter_、Month_、Week_、Day_等形式的变量。格式中的“Custom”,选择此项以后,在数据文件中,由用户通过命令语句创建的时间序列不会对该文件产生影响。
(2)First Case Is:对时间序列的起始时间进行定义。选择不同的时间格式,每一个时间单位都会显示在时间格式框的右侧。在各个时间单位以后的空白框中,添入适宜的数据,作为时间序列的起始时间。“Periodicity at higher level”对可以输入的数据进行了限定。在各个空白框中的数字,不能超过其右侧的规定限制。
上述定义完毕以后,点击“OK”即可完成操作。我们可以看到,在数据文件中心增加了几个以时间单位与下划线组合而成的新变量。在显示的结果文件当中,对新形成的变量进行了描述。这些新变量就是要参与时间序列分析的重要变量。
2.Insert Variable、Insert Cases:插入新变量、新记录
其功能是在当前光标位置,插入新变量或新记录。
3.Go to Case:定位到具体记录
对需要了解的具体记录进行定位。比如,需要对第22条记录进行修改,则可以选择该命令,在弹出的窗口中写入22,即可迅速定位到底22条记录。
4.Sort Case:对记录进行排序
5.Transpose:文件行列转置
行列转置就是依据原文件,将其行列互换,形成一个新文件。转置以后的新文件里,原来的变量成为新文件的观测量,而原有的观测量则成为变量。点击Data=>Transpose,进入转置界面。左边是变量框。右边有两个选项框,分别是Variable(s)、Name Variable。将有待于转置的变量选定以后,点击箭头选入Variable(s)选项框。这时可以点击“OK”完
成操作。Name Variable主要是生成称名变量,成为新文件中变量名的全部或一部分。对该项定义抑或不定义,新文件中的格式是不同的。然后分别依据各自的目的进行转置。
由于转置带来了变量名称、类型等方面的变化,文件的转置可能会带来某些信息的丢失。尤其是含有字符串型变量的文件行列转换,日期型变量的转置等,基本上全部丢失或变形。这在转置中是需要加以注意的。
行列转置还会形成结果文件,结果文件对参与转置的变量、观测量,新文件包含的变量、观测量等进行了详尽的解释与说明。
6.Merge Files:合并数据文件
在实际统计工作中,经常要根据需要合并数据文件。SPSS软件Merge Files的命令,提供了数据文件合并的功能。
Merge Files包括两个对话框,分别对应了两种合并方式:Add Cases(记录合并)、Add Variable(变量合并),具有两种不同的操作程序与功能。
(1)Add Cases是指从外部数据文件中增加记录到当前工作文件中,要求合并的数据文件中具有相同的变量。合并完毕,当前文件的变量数没有增加,但是外部数据文件的记录全部追加过来。
基本步骤是:首先打开工作文件,点击Data=>Merge Files=>Add Cases,弹出打开外部文件对话框。选中需要添加的数据文件并按OK,弹出Add Cases对话框。
该框题头标明了外部数据的路径。左右两个变量框中,将两个文件的所有变量列入其
中。变量名后缀以“<”表示该变量为字符串型;缀以[*]表示该变量来自当前工作文件,[+]表示来自于外部数据文件。
左侧框显示两个数据文件中不匹配1的变量名,该合并两个“编号”不匹配,是因为两个“编号”变量类型,一个是标准数值型,一个是字符串型。对于变量名不匹配的变量,可以用Rename按钮对不匹配变量改名(先选中)或用强行匹配(即先按Ctrl键选中匹配的两个变量再单击Pair钮)。而对于其他方面引起的不匹配,则要取消操作,回到工作文件,对变量进行修改。当前的合并,由于不匹配变量形成在于类型不同,而不是名称不同,因此, 先要取消操作,回到当前工作文件,将“编号”变量类型修改为数值型,然后再进行合并。
右侧显示的是匹配的变量名。可以在右侧框中根据需要选择合并后文件中的变量。例如,合并后的文件不需要“教育年限”这一项,就可以选择该项,点击中间的箭头,将之移到左边的变量框中。
“Indicate case source as variable”选框,选择该项以后,可以形成一个新变量,并对合并后的记录来源进行标记。新变量默认名称为“Sourse01”,在新文件中,“0”值表示来自原文件(即工作文件),“1”代表来自外部文件。上述操作完毕,点击“OK”按钮,合并完成。合并以后得到的新文件对新材料进行了追加。
(2)Add Varible是指从外部数据文件追加新变量到当前数据文件。
选择菜单Data==>Merge Files==>Add Variable对话框,弹出打开数据文件对话框,选择“补充材料”后,弹出Add Variable对话框。
1
两个变量最重要特征与属性,主要是名称、类型完全相同,才是匹配的变量。
这个窗口与记录合并很相似。左边的“Excluded Variables”列出工作文件与外部文件重名的变量(许多时候这样的变量可以选择作为Key Variables即关键变量2),在这里是两个文件都有的“编号”。如果想在新文件中还包含这一项,要选中该变量以后,点击“Rename”进行重新命名。命名完毕,回到上一窗口,点击上面的向右箭头,就可以选入新文件。
右边的“New Working Data File”是对新文件中即将囊括的所有变量的列表。如果某些变量无需加入,则可以通过箭头的操作,将其排除在外。
上述操作完毕以后,可以直接点击“OK”按钮,完成合并。由于没有对关键变量进行定义,所以,该合并是依据记录号,也就是文件中记录的自然位置,进行合并的。如果可以保证文件记录位置是一一对应的,这样操作也是可以的。
如果文件操作具有关键变量,则通常还要进行如下的操作。左下是两个选项。选中关键变量,并通过箭头操作将关键变量移到右下方的框中。然后点击“Match cases on key variables in sorted files”(在已经排序的数据文件中依据关键变量匹配观测量)。激活下面的3种选择:
——“Both files provide cases”,观测量由双方提供,是系统默认方式。合并形成的文件中,关键变量值相等的记录,合并成为一条记录;不相等的记录,则作为独立的记录存在;空缺的变量值,作为缺失值来处理。
——“External file is keyed table”,选择该选项,可以保持当前工作文件记录总数不变,而将外部文件中与当前工作文件中的关键变量值相等的那部分记录合并过来。
2关键变量
Key Variables是在两个文件中都存在的、名称与类型都相同的变量,在文件合并中作用很大。关键变量可以从“Excluded Variables”中挑选出来,然后点击下面的箭头选入。当然,如果两个文件存在完全相同的观测量,且其排列顺序也相同,则无需定义关键变量。
——“Working Data File is keyed table”,选择该选项,可以保持外部文件的记录总数不变,而将当前工作文件中与外部文件中的关键变量值相等的那些记录合并过去。
右下角的“Indicated case source as Variables”将生成新文件标记记录的来源。
7.Aggregate:分类汇总
分类汇总就是按指定的分类变量对观测量进行分组,对每组记录的各变量值求一个描述统计量,并形成可以存入结果的新数据文件。
点击Data=>Aggregate,进入分类汇总界面。这个界面中,Break Variables框用于选择分组变量, Aggregate Variables框用于选择被汇总的变量。这里,选入该变量以后,就激活了Name & Label与Function按钮。Name & Label按钮用于定义新产生的汇总变量名称和标签,其默认变量名是“(全部或部分的)原变量名加_1”。Function按钮用于定义汇总函数,可选的函数有均数(默认选项)、第一个记录、最后一个记录、同组记录数、标准差、最小值、和、最大值等。
将上述选项定义完毕以后,点击“Continue”将回到主界面。
“Save Number of cases in break group as variable”选框用于定义一个新变量以便于存储同类别的记录个数,默认为“N_BREAK”。
“Create new data file”用于定义一个新文件以存储汇总结果,右侧的File按钮用于定义具体文件名,默认文件名为“AGGR.sav”;而“Replace working data file”用于将汇总的结果替换原来数据(通常我们不选择这项)。
上述操作完毕,点击“OK”完成操作。按照存盘路径,我们可以打开经过分类汇总后生成的新文件。可以看到,该文件中与原来的文件在结构上有了很大的不同。
8.Split File拆分数据文件
进行统计分析经常要对数据进行分组的分析,通常需要对数据文件进行拆分处理。数据文件的拆分,不是将原文件“拆”成两个独立成组的文件,而是按照分类的变量进行排序,并在随后的统计分析中默认其为分组的文件,结果文件也依照分组的形式予以呈现。
点击Data=>Split File,进入拆分对话框。在该窗口里,“Analyze all cases”选项表示,分析所有数据,不拆分文件;“Compare groups”选项表示,按所选变量拆分文件,各组分析结果集中在一起以利于相互比较;Organize output by groups选项表示,按所选变量拆分文件,各组分析结果将独立分开显示。“Groups based on”选项框表示被选择来拆分数据文件的变量。“Sort the file by grouping variables”表示将数据按所用的拆分变量进行排序;“File is already sorted”表示,虽然对数据进行拆分,但在数据文件中数据将保持原状,不按照拆分变量排序。
9.Select Cases挑选数据
很多时候统计分析不需要针对全部数据,而是按要求分析其中一部分(比如前30个数据),这时用Select Cases对数据进行挑选,可以减少不必要的工作量。
点击Data=>Select Cases,进入挑选记录的界面。该对话框主要包含对数据进行限定的5条命令选项。
——“All cases”,使系统默认选项,选中它将分析所有的记录;
——“If condition is satisfied”,只分析满足一定条件的记录。点击if按钮,就会弹出If对话框。
进入上述选框可以赋予数据一定的条件。选项框的右侧,主要是定义条件所需要的一些工具或者函数等。
——“Random sample of cases”,表示从原数据集中按照某种条件进行抽样处理。选择该项激活“Sample”按钮。点击“Sample”按钮,进入新界面。
“Approximately”表示按设定的百分比抽取记录;“Exactly”表示精确设定从前n个记录中抽取多少个记录。选定该项以后,点击“Continue”回到主界面。
——“Based on time or case range”表示依据数据的记录序号选择数据。选择该项,激活“Range”按钮,进入新界面,在“Observation”后的空格里,依次输入记录序号范围。输入完毕,点击“Continue”回到主界面。
——“Use filter variable”,表示用过滤器变量来选择记录。选择该项需要在下面选入一个过滤器变量,该变量取值为0的记录将被剔出,不进入以后的分析过程;值非0的将保留下来参与统计分析。
上述为数据限定的条件选项。另外,在这组选项的下面,还有两个关于挑选后数据显示方式的选项,即“Filtered”与“Deleted”。选择“Filtered”,在挑选后的文件中,未被选中的记录只是被隔离,在记录号上被加上斜杠以示区别;选择“Deleted”,未被选中
的记录将被删除3。当对数据集完成挑选后,所做的筛选将在以后的分析中一直有效,直到再次改变选择条件。并且系统会自动产生一个名为“filter_$”的过滤器变量,被选中的记录该变量取值为1,反之则为0。
10.Weight Cases:数据加权处理
在默认情况下,我们所接触的数据文件,每一行就是一条记录。但有时并非如此,需要对数据进行加权处理。比如有时文件的观测量代表的是频数,这个时候进行统计分析,如果不对数据进行加权,则系统默认其为数据的实际值进行处理。
其具体做法为:点击Data=>Weight Cases,进入变量加权的窗口。该窗口共有两个选项,“Do not weight cases”是系统的默认状态,表示不必为数据加权。选中“Weight cases by”将激活下面的“Frequency Variable”选框,在左边选中并双击变量以后,将被选入该选框,单击“OK”即可完成操作。文件一旦加权,其结果将持续保留下来,直到取消。
课堂讨论题目:什么时候需要进行加权处理?
课后作业题目:尝试自选文件的汇总与转置,并进行初步总结。
3
一般都不使用这一选项。
因篇幅问题不能全部显示,请点此查看更多更全内容