做spss调查问卷实例的数据spss应该怎么检查异常值

异常值探测及检验的探索 spss日星期四10 38异常值探测及检验的探索 摘..
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
异常值 探测及检验的探索
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口当前位置: >
使用IBM SPSS Modeler进行数据挖掘工作中的数据理解工作(4)
使用 Modeler 进行异常值分析
什么是异常值
异常值就是数据文件中那些和其它值相比有明显不同的值,它们可以通过观察数据分布来确定。
在具体考虑异常值时,我们需要注意异常值的类型,一般分为两种,一种是可枚举类型,比如超市里的商品名,商品名不可能有异常值。假如我们利用会员购买的商品来预测他会不会购买体育用品,因为商品很多,使得购买相同商品的用户数量很少,所建模型就会很不稳定。这时我们应该对商品进行抽象,比如抽象为水果,零食,日用品,蔬菜,化妆品等,用这样的数据进行预测,就会使模型可靠性提升。利用 Modeler 里的&分布&节点可以对这种可枚举类型的数据进行分组。
图 10. 001 用户消费记录
假如我们有上表这样的数据,我们如何将商品进行抽象分组呢?首先我们建立一个 stream,用&可变文件节点&来读取数据。然后连接一个&分布&节点。运行分布节点,得到下图。
图 11. 分布节点运行结果
比如我们可以选择梨,苹果,然后右键选择&组&,建立一个水果组。类似的建立一个化妆品组。然后我们可以选择&生成&菜单,让 Modeler 自动帮我们生成一个分组节点。这样,我们就可以用水果,化妆品这样的具有一定抽象意义的值来代替原来具体的值。
另一种类型就是连续型数据,比如用户收入,用户年龄等。对于连续型数据,运行数据审核节点,在质量页面我们就可以查看离群值和极值。默认情况下,Modeler 是根据平均值的标准差来确定离群值和极值的。在运行&数据审核&结果页面我们也可以设置离群值和极值的处理方法
图 12. 处理异常值的设置
选择工具条里的生成按键,选择离群值和极值超节点。这时,Modeler 会帮我们自动生成一个过滤离群值和极值的超节点。我们连接&可变文件&节点和这个超节点,Modeler 就会帮我们按照我们期望的处理方式来处理离群值和极值。
还有一种异常值是需要多个列组合才能看出来。比如某顾客每个月在超市消费额都在 1000 以上,但是他的会员信息显示他的月收入为 1000 元,这条记录就可以被识别为异常值。需要进一步分析。同样 Modeler 也提供了相应的功能来帮助我们识别这样的联合分布的异常值。
图 13. 用户收入消费表
从上边的数据中,我们很难发现哪条数据有异常,下边我们就用 Modeler 里的&图&节点来帮助我们分析数据。
我们将&可变文件&节点的数据文件指向示例数据,添加一个&图&节点,并双击&图&节点,如图:
图 14. 设置图节点
运行图节点。
图 15. &图&节点结果
这是我们能明显看到左上角的一个异常值,鼠标移动到这个点上,我们可以看到这个点所代表的详细信息。
使用IBM SPSS Modeler进行数据挖掘工作中的数据理解工作(4)的相关阅读:
本站文章《》除注明转载外,均为本站原创或编译
转载请注明:本文由()提供欢迎免费转载,转载时请保留该信息,谢谢合作!
------分隔线----------------------------
使用IBM SPSS Modeler进行数据挖掘工作中的数据理解工作(4)的网友评论如何用SPSS探测及检验异常值
引用及总结自&原文链接(版权所有者陈日生,2007)
&&&&&&&&&&&
一、采用数据探索过程探测异常值
  SPSS菜单实现程序为:
主菜单--&“Analyze”--&“Descriptive
Statistics”--&“Explore……”选项--&“Statistics”按钮--&选中“Outliers”复选框。输出结果中将列出5个最大值和5个最小值作为异常的嫌疑值。
  二、采用箱线图(boxplot)探测异常值
&&& 比较直观、形象,易于理解,因此它在统计分析中占有非常重要的地位。
利用上述的数据探测过程,在“Explore”对话框中单击“Plots”,出现如图2所示的对话框,通过“Boxplots”方框可以确定箱线图的生成方式。“Factor
levels together”复选框表示将要为每个因变量创建一个箱线图,“Dependent
together”复选框表示将为每个分组变量水平创建箱线图,“None”复选框表示不创建箱线图。
直接利用SPSS中的画图功能实现箱线图,SPSS给出了两种箱线图,一种是基本箱线图,另一种是交互式箱线图。基本箱线图的SPSS菜单实现为:点击主菜单中的“Graphs”选项,在弹出的一级菜单中选择“Boxplot……”选项。交互式箱形图的SPSS菜单实现为:点击主菜单中的“Graphs”选项,在弹出的一级菜单中点击“Interactive”选项,在弹出的二级菜单中选择“Boxplot……”选项。下面仍以A公司雇员分工种的开始工资为例构造基本箱线图(如图3)。箱线图中的“○”表示可疑的异常值,此处异常值的确定采用的是“五数概括法”,即:变量值超过第75百分位点和25百分位点上变量值之差的1.5倍(箱体上方)或变量值小于第75百分位点和25百分位点上变量值之差的1.5倍(箱体下方)的点对应的值。
&&& 三、SPSS 14
后的新功能 Data
--&&Validation:???如何设置。。。
四、Z分标准化法(3δ法):±3δ 以外的数据为高度异常值,应予剔除。
五、数据异常值的检验
  SPSS中没有提供直接检验异常数据的工具,但是使用SPSS能使异常值的检验工作变得非常方便。通过SPSS中的Frequencies等过程,可以对指定变量的数据同时得到均值、方差等统计量,代入上述的公式,结合查表,很快就能得出检验结果。在多个异常数据下,使用SPSS更显方便,因为剔除前一个异常数据后,需要对剩余的数据重新计算均值和方差,如果数据很多,用手工计算将是很烦琐的事情,而且准确度不高。而通过SPSS,只需要重新选择数据以后,重复一次Frequencies过程的操作就可以了。
分别对含异常值和删去异常值两种情况下的数据进行分析,并比较后才能增加可信度,避免误删。
六、SPSS中异常值的剔除
发现异常值后,把大于等于最小异常值或小于等于最大异常值的值用Data主菜单里的Cases
Select子菜单里的条件设置按钮,就可以自动剔除异常值。
另请阅读:
&&&&&&&&&&&&&
&&&&&&&&&&&&&
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 用spss分析调查问卷 的文章

 

随机推荐