Thursday, May 8, 2014

statistics指标


集中趋势指标
  1. 中位数:代表中心
    1. 最中间的数值
    2. 群体中位数:小写希腊字 eta
    3. 样本中位数:小写罗马字 x tilde
  2. 找中位数之方法:资料重新排序
    1. n=奇数:(n+1)/2
    2. n=偶数:n/2和n/2+1的平均数
  3. 众数(MODE):出现次数最多
    1. 众数不是唯一的
    2. 平均、中位数唯一
  4. 使用场景:
    1. 平均数对离群值非常敏感,中位数和众数不敏感,因此不使用平均数
    2. 同时考量平均数和中位数
分散趋势指标
  1. 分散趋势
  2. 全距(range)
    1. R=最大值-最小值
    2. 出现离群值或样本数很大时,不能很好的衡量
    3. 相同之全距,不同之分布
  3. 变异数:离中趋势
    1. 群体变异数
    2. 样本变异数:(平方和-和平方/n)/n-1
  4. 标准差:分散程度
    1. 群体标准差
    2. 样本标准差
偏态指标
  1. 偏态:数据分布的形态
    1. 对称:平均数=中位数=众数
    2. 右偏,正偏:众数<中位数<平均数
    3. 左偏,负偏:平均数<中位数<众数
  2. 偏态系数
    1. 样本偏态系数,3次方(无单位量数)
    2. =0 对称
    3. >0 右偏
    4. <0 li="">
  3. 峰度系数
    1. 4次方(无单位量数)
    2. =0 常态
    3. >0 高峡
    4. <0 li="">
数据特征值之应用
  1. 经验法则:常态分布下,68-95-99.73法则
  2. 盒须图(box-whisker plot):min,q1,md,q3,max
    1. 展示资料特征
    2. 同时比较数组资料
    3. 集中趋势,离中趋势,形态
    4. 离群值

No comments:

Post a Comment