蒙特卡罗474.com网址_蒙特卡罗474.com官网


设为首页 - 加入收藏
广告 1000x90
您的当前位置:蒙特卡罗474.com网址 > 蒙特卡罗十大赌城之一 > 正文

数据特征分析(分布分析+帕累托分析)

来源:未知 编辑:admin 时间:2019-05-06

  在数据质量得到保证的前提下,通过绘制图表、计算某些统计量等手段对数据的分布特征和贡献度进行分析(帕累托分析),分布分析能够揭示数据的分布特征和分布类型,对于定量数据,可以做出频率分布表、绘制频率分布直方图显示分布特征;对于定性数据,可用饼图和条形图显示分布情况。帕累托分析在频率分布直方图的基础上,绘制累积频率,计算投入的效益。

  下面的例子使用vcd包中的Arthritis数据集来做数据的分布分析和帕累托分析。

  对于定量数据,做频率分布表,绘制频率分布直方图。选择“组数”和“组宽”是做频率分布分析时遇到的最主要问题,一般按照以下5个步骤来实现:

  按照年龄段来计算频数,每10年为一个年龄段,统计各个年龄段的人数。由于Arthritis数据集中并没有该分类变量,这就需要自定义区间,按照分组的间隔来制作频数分布表

  对于定性变量,通常根据分类来分组,然后统计分组的频数或频率,可以采用饼图或条形图来描述定性数据的分布:

  ·饼图的每一个扇形部分代表每一类型的百分比或频数,根据定性变量的类型把饼图分成几个部分,每一个部分的大小与每一个类型的频数成正比;

  使用geom_bar()和coord_polar()函数来绘制饼图,通常情况下,饼图显示的是百分比,而直方图显示的某个分类的具体数值:

  帕累托分析依据的原理是20/80定律,80%的效益常常来自于20%的投入,而其他80%的投入却只产生了20%的效益,这说明,同样的投入在不同的地方会产生不同的效益。

  怕累托图的绘制过程是按照贡献度从高到低依次排列,并绘制累积贡献度曲线。当样本数量足够大时,贡献度通常会呈现20/80分布。

模板天下 蒙特卡罗474.com网址 联系QQ:3301638272 邮箱:3301638272@qq.com

Copyright © 2002-2011 蒙特卡罗474.com网址 版权所有

Top