薪酬调查数据统计分析方法

薪酬调查数据统计分析方法

    对调查数据进行纠正整理的基础上,得出被调查的劳动力市场的薪酬分布的情况。通常薪酬调查数据的统计分析方法有:数据排列法、频率分析法、居中趋势分析法、离散分析法、图表分析法、回归分析法。下面对这几种方法分别作详细的介绍,我们很可能在看一些咨询公司或者政府部门的薪酬调查的报告中都要用这些方法,或者其中的部分方法。

1、数据排列法

    统计分析的方法常采用数据排列法。先将调查的同一类数据由高至低排列,再计算出数据排列中的中间数据,即25%点处、中点即50%点处和75%点处。工资水平高低企业应注意75%点处,甚至是90%点处的工资水平,工资水平低的企业应注意25%点处的工资水平,一般的企业应注意中点工资水平,下表是调查的部门文员岗位的工资数据。

2、频率分析法

    如果被调查单位没有给出某类岗位完整的工资数据,只能采集到某类岗位的平均工资数据。在进行工资调整数据分析时,可以采取频率分析法,记录在各工资额度内各类企业岗位平均工资水平出现的频率,从而了解某类岗位人员工资的一般水平。为了更直观地进行观察,还可以根据调查数据绘制出直方图(下图二)。从下表一和下图二中很容易看出,该类岗位人员的工资主要浮动范围介于1800元和2400元之间,这也就是大部分企业为该类岗位人员支付的工资范围。

    表一分析的是部门文员岗位的工资频数分布情况。

3、趋中趋势分析法

    趋中趋势分析是统计数据处理分析的重要方法之一,具体又包括以下几种方法:

    (1)简单平均法

    简单评价法是根据薪酬调查的数据,采用以下计算公式求出某岗位基本工资额,作为确定本企业同类岗位人员工资的基本依据。这种方法用起来比较简单,但异常值(主要是最大值与最小值)有可能会影响结果的准确性,因此采用简单平均法时,应当首先剔除最大值与最小值,然后再作出计算。

    (2)加权平均法

    采用本方法时,不同企业的工资数据将赋予不同的权重,而权重的大小则取决于每一家企业在同类岗位上工作的工作人数。也就是说,当某企业中从事某类岗位工作的人数越多,则该企业提供的工资数据,对于最终平均值的影响也就越大。在这种情况下,规模不同的企业实际支付的工资会对最终调查结果产生不同的影响。因此,采用加权平均法处理分析数据比简单评价法更具科学性和准确性。在调查结果基本上能够代表行业总体状况的情况下,起经过加权的平均数更能接近劳动力市场的真实状况。

    (3)中位数法

    采用本方法时,首先,将收集到的全部统计数据按照大小排列次序进行排列之后,再找出居于中间位置的数值,即中位数作为确定某类岗位人员工资水平的依据.该方法最大的特点是可以剔除异常值即最大值和最小值对于平均工资值的影响。但准确性明显低于上述方法,它只能显示出当前劳动力市场平均薪酬水平的概况。

4、离散分析

    离散分析是统计数据处理分析的重要方法之一,具体又包括标准差分析和四分位、百分位分析等几种方法。利用标准差分析可以检验各种分布值与平均值之间的差距大小,但是在薪酬调查分析中并不常用。在薪酬调查分析中,我们还是经常采用百分位和四分位的方法,分析衡量统计数据的离散程度。

    (1)百分位法

    所谓的百分位法,首先将某种岗位的所有薪酬调查数据从低到高排列,划分为10组,每组中所包括的样本数分别为企业调查总数的10%;在百分位中的第5个小组中的最后一个数据必然是所有数据的中值,可以用它来近似代表当前市场上的平均薪酬水平。

    例如,某企业的工资水平处于市场的第75个百分位上,这就意味着有75%的企业的工资水平都比该企业低。百分位分析主要应用于企业工资水平的战略定位上,因为它直接揭示了本企业工资水平在劳动力市场上的地位。再如,有些公司将员工现金薪酬总额定位在市场上的第60个、第75个甚至第90个百分位上,而将全部现金薪酬(基本工资加奖金或奖励)定位在第75个百分位上。

    (2)四分位法

    四分位分析与百分位分析的方法是类似的,只不过在进行四分位分析时,首先将某种岗位的所有薪酬调查数据从低到高排列,并划分为四组(百分位中是划分为10组),每组中所包括的数量分别为企业调查总数的1/4即25%(百分位中是10%);处在第二小组(在百分位中是第5个小组)中的最后一个数据必然是所有数据的中值,可以用它来近似地代表当前劳动力市场上的平均工资水平。

5、图表分析法

    图表分析法是在对薪酬调查数据进行统计汇总,并对数据进行整理的基础上,按照一定格式制作统计表,然后根据需要制作成各类图形如柱状图、饼形图、折线图、结构图等,对薪酬结果进行分析的一种方法。图表分析法具有直观、形象、鲜明、清晰和简洁的特点,也是咨询公司常常采用的分析方法。

    示例:饼状图

示例:柱状图

示例:折线图

6、回归分析法

    回归分析法是借用一些数据统计软件,如SPSS、EXCEL等所提供的回归分析功能,分析两种或多种数据之间的关系,从而找出影响薪酬水平、薪酬差距或薪酬结构的发展趋势进行预测。示例:某公司月工资与职位评价得分表

    通过对散点图观察,这些散点呈现线性状,用一元线性回归方程分析,得出回归方程为:y=9.2376x-1192.1, =0.9933趋于1,这说明月工资与职位评价得分的线性相关性很强,月工资能被职位评价得分解释的部分较多,不能被解释的部分较少。

    回归分析法通常用公式和图表来显示数据的集中趋势,以一项或多项测量指标为基础可能的取值范围。回归分析也把数据的信度与数据在集中趋势线周围的分布状况联系起来。相关系数或 的值越接近1,回归预测也就越可靠。

 

第二篇:2、数据统计分析方法(上)

SPSS应用与实证研究方法讲座——数据统计分析方法 ——为北京邮政科学研究设计院准备马广斌博士131xxxxxxxx maguangbin@sina.com

目1录量化事物2 SPSS应用与 实证研究方法 3如何用数据描述事物如何用样本对总体进行推断4如何使用数据揭示事物之间的关联2

第一讲:量化事物3

内容目录第一部分 量化事物为什么要量化事物 如何量化事物第二部分 第三部分 第四部分如何用数据描述单个事物 如何用样本对总体进行推断 如何使用数据揭示事物之间的关联4

第一部分 量化事物一、为什么要量化事物?量化的重要意义: 如果您不能量化某些事情,那么您就不能理解它; 如果您不能理解它,那么您就不能控制它; 如果您不能控制它,那么您就不能改进它。5

第一部分 量化事物一、为什么要量化事物?事物都能量化吗? 质、量、度,是所有事物的基本属性; 因此任何事物,都是而且应该可量化的;度 质 量?量化事物是个什么工作?事物变量6

第一部分 量化事物一、为什么要量化事物? ?数据包含的信息很多,但是数据中的 信息往往是分散的,单个数据很难直 接被应用起来 统计分析就是收集、分析、表述和解 释数据,洞察数据中的规律,把数据 转化为信息7

第一部分 量化事物二、如何量化事物? ? ?任何数据都必须经过适当形式的综 合,浓缩成精简的形式来展示 事物的特征决定了往往只有很少几 种变量形式,能最恰当地展示事 物; 很多时候,甚至只有一种变量形式 可以使用8

第一部分 量化事物二、如何量化事物?最常用的四种变量形式:变量 低 定类变量 定序变量 定距变量 高 定比变量测量级别 定类量表 (Nominal Scale) 定序量表 (Ordinal Scale) 定距量表 (Interval Scale) 定比量表 (Ratio Scale) (级、量表、尺度)9

第一部分 量化事物二、如何量化事物?低最常用的四种变量形式:离散型随机变量?名称级----定类变量 ?顺序级----定序变量 ?间隔级----定距变量 高 ?比例级----定比变量转 换定性非数量型定量数量型连续型随机变量10

第一部分 量化事物二、如何量化事物?最常用的四种变量形式:1、定类变量 如果所提的问答题的答案只表示类别,不表示任何数量 的顺序或大小,那么对应的变量就叫做定类变量或名义 变量;测量的量表就叫做定类量表或名义尺度。例如:X1=“性别”;其可能取值为“男”或“女”, 或分别用X1=1(男)和X1=2(女)表示 Xi =“费用类别”;其可能取值为“厂修费”,“航修费”,…,“检验费”等10多类, 或分别用Xi =1(厂修费),Xi =2(航修费),…,Xi =10(检验费)表 示11

第一部分 量化事物二、如何量化事物?最常用的四种变量形式:1、定类变量有线电视费 信息费男 性别 女订阅报纸媒介花费买书籍上网费买杂志12

第一部分 量化事物二、如何量化事物?最常用的四种变量形式:1、定类变量 注意: 如果使用数值标识,只表示类别 不表示任何数量的顺序或大小 不能作任何加减乘除的运算13

第一部分 量化事物二、如何量化事物?最常用的四种变量形式:1、定类变量例如, 在CNNIC的第十六次中国互联网络发展状况网上调查问卷: 22.您对互联网最反感的方面为: (单选) O 垃圾邮件 O 弹出式广告/窗口 O 网络病毒 O 网络入侵/攻击(包括木马) O 网上不良信息 O 网上虚假信息 O 网上收费陷阱 O 隐私泄露 O 其他(请注明 )14

第一部分 量化事物二、如何量化事物?最常用的四种变量形式:2、定序变量 如果所提的问答题的答案可以表示重要大小或程度轻重 等顺序的先后,那么对应的变量就叫做定序变量或顺序 变量;测量的量表就叫做定序量表或顺序尺度。例如:X1 =“费用支出”;其可能取值为“低”,“中”和“高”, 或分别用X1 =1(低)、X1 =2(中)和X1 =3(高)表示 Xi =“优先等级排序”;其可能取值为“第一优先”,“第二优先”,…,“第五优 先”等, 或分别用Xi =1(第一优先),Xi =2(第二优先),…,Xi =5(第五优 先)表示15

第一部分 量化事物二、如何量化事物?最常用的四种变量形式:报纸选择优先级别2、定序变量费用支出水平第一优先 第二优先第1第2第3第三优先 第四优先高支出中等支出低支出第五优先16

第一部分 量化事物二、如何量化事物?最常用的四种变量形式:2、定序变量 注意: 按某种特性将观测对象排序 值之间可以比较大小或强弱顺序 但两个值的差一般没有什么实际意义17

第一部分 量化事物二、如何量化事物?最常用的四种变量形式:3、定距变量 如果所提的问答题的答案可以表示绝对数值的大小,那 么对应的变量就叫做定距变量或间隔变量;测量的量表 就叫做定距量表或间隔尺度。定距变量的取值用数字形 式表示。例如X1 =“温度”;其可能取值为任意的实数,如 X1 =20(度);X1 =0(度);X1 =-2(度);等 Xi =“客户满意程度得分”;其可能取值为 Xi =1(很不满意),Xi =2(不太满意),Xi =3(一般), Xi =4(比较满意),Xi =5(非常满意)18

第一部分 量化事物二、如何量化事物?最常用的四种变量形式:读者满意程度3、定距变量温度 38度 24度 …… 4度 0度5 4 3 2 1非常满意 比较满意 一般评价 不太满意 很不满意19

第一部分 量化事物二、如何量化事物?最常用的四种变量形式:3、定距变量 注意: 值之间可以比较大小顺序 可以说明大多少或小多少 两个值的差有实际意义 比值没有意义 零点和测量单位可以任意规定 适合使用除涉及比值计算的几乎所有统计方法20

第一部分 量化事物二、如何量化事物?最常用的四种变量形式:4、定比变量 如果所提的问答题的答案可以表示绝对数值的大小,而 且零点也是有意义的话,那么对应的变量就叫做定比变 量或比率变量;测量的量表就叫做定比量表或比率尺 度。例如X1 =“收入”;其可能取值为任意的正数,如 X1 =1200(元);X1 =800(元);…;等 Xi =“上网时间”;其可能取值为任意的正数,如 Xi =90(天);Xi =60(天);Xi =0(天);…;等21

第一部分 量化事物二、如何量化事物?最常用的四种变量形式:4、定比变量万人 14000 12000 10000 8000 5910 6000 4000 2250 2000 0 2000.12 2001.12 2002.12 2003.12 2004.12 2005.12 2006.12 3370 7950 9400 11100指标分类城市经济指标项目国内生产总值 非农业人口 在岗职工工资总额 城乡居民储蓄年末余额 社会消费品零售额 固定资产投资总额 房地产开发投资额 住宅投资 保费 医生数 公共汽电车客运总数 年末实有公共运营汽电车 年末实有出租汽车 年末实铺装铺道路面积 邮政业务总量 电信业务总量 人均国内生产总值 进出口总额 在岗职工人均工资 每万人拥有公共汽电车 每百人公共图书馆藏书 人口密度 第三产业占GDP比重单位万元 万人 万元 万元 万元 万元 万元 万元 万元 人 万人次 辆 辆 万平方米 万元 万元 元/人 千美元 元/人 辆 册、件 人/平方公里 %天津16499400.00 509.59 2580319.00 11483600.00 7823264.00 5957854.00 1606037.00 1024612.00 417049.00 25889.00 60238.00 5836.00 31939.00 4273.00 80372.00 621834.00 22073.66 22850196.64 14453.95 7.80 104.08 1008.00 47.5813700综合状况数据来源:中国互联网络信息中心(CNNIC)城市先进 程度图:历次调查网民总数人口与产业22

第一部分 量化事物二、如何量化事物?最常用的四种变量形式:4、定比变量 注意: 不但可以表示绝对数值的大小 而且零点也是有意义的23

第一部分 量化事物二、如何量化事物?最常用的四种变量形式:小结定类 分类(=、≠) 次序(>、<) 距离(+、-) 比率(×、÷) √ 定序 √ √ 定距 √ √ √ 定比 √ √ √ √24

第一部分 量化事物二、如何量化事物?变量的转换规律:高级别的变量您今年多大岁数了? ( )岁低级别变量您的年龄属于哪一个年龄段? 1、20岁及以下 4、41-50岁 2、21-30岁 5、51-60岁 3、31-40岁 6、61岁及以上 2、否25您今年是否大于20岁? 1、是

第一部分 量化事物二、如何量化事物?变量的转换规律:在社会科学研究中 多个定序变量累加 1 2 1 2 1 2 1 2 3 3 3 3 4 4 4 4 5 5 5 5 累加量表 态度量表 (态度得分)26定距变量4 ---- 20

自己动手例:你管理着一个给软件开发公司销售计算机的团队。对每一个企业客户, 你的客户经理都有一位主要联系人,你将这些联系人按他们在公司所属的部 门分为不同的类别(开发部、计算服务部、财务部、其它、不详)。 数据收集在文件 contacts.sav 里。 分析一下你的联系人特征。27

目1录量化事物2 SPSS应用与 实证研究方法 3如何用数据描述事物如何用样本对总体进行推断4如何使用数据揭示事物之间的关联28

第二讲:描述事物29

内容目录第一部分 第二部分 量化事物 如何用数据描述单个事物频数表 均值表 饼形图和条形图 折线图 直方图 盒形图 事物的集中趋势和离散趋势第三部分 第四部分如何用样本对总体进行推断 如何使用数据揭示事物之间的关联30

第二部分 如何用数据描述单个事物调研资料都必须经过适当形式的综合,浓缩成精简的 形式来展示。 常用的做法是将资料整理成一些表。 为了增加表现效果而采用图来表示。31

第二部分 如何用数据描述单个事物一、频数表就是统计某变量的每一个值出现了多少次。这就是频数。频数 常用 f 表示,它是指样本中对某变量具有相同的变量值的个案数。 频数表较为适合使用定类变量和定序变量来描述事物。32

第二部分 如何用数据描述单个事物一、频数表表2-1 19xx年广州市民每天花多长时间看报纸每天看报纸时间 1 从不看 2 30分钟以下 3 31--60分钟 4 61--90分钟 5 90分钟以上 总计 频数(单位:人) 427 886 1036 290 267 2906表头 标题行变量与 数据 来源(数据来源:19xx年《广州市民报纸读者意见调查》——广州达门市场研究公司)首先,从标题说明中,可以看出这张表的时间(19xx年)和要表现的主 题(广州市民每天花多长时间看报纸);其次,表的标题行列出了研究的变 量(每天看报纸的时间)和统计量(频数)以及记数所用的单位;最后在表 的底部列出了数据或资料来源。对任何一张数据表来说,这些信息都是必须 展示的。33

第二部分 如何用数据描述单个事物一、频数表因为比例还反映了和样本总量有关的信息,因此在频数表中,常常同时列 出频数和比例两个统计量。 比例常常用百分数来表示,其计算方法为:比例 =f / n × 100%(2-1)其中 f 表示某一频数,n 表示样本量或某一类别的子样本数。34

第二部分 如何用数据描述单个事物一、频数表表2-2 19xx年广州市民每天花多长时间看报纸 每天看报纸时间 1 从不看 2 30分钟以下 3 31--60分钟 4 61--90分钟 5 90分钟以上 总计 频数(单位:人) 百分数(%) 427 886 1036 290 267 2906 14.7 30.5 35.7 10.0 9.2 100.0(数据来源:19xx年《广州市民报纸读者意见调查》——广州达门市场研究公司)35

第二部分 如何用数据描述单个事物二、均值表对于数值型变量(定距变量和定比变量),均值是常用的统计量之一.均值描述的是分布的中心。在资料展现的初步阶段,特别是对用量表测量的变量,均值能比百分 比反映更多的有用信息。36

第二部分 如何用数据描述单个事物二、均值表例如,一般情况下,5级量表是按一定的规律排列的,这种量表度量的变 量可以看作是定序变量,也可以近似地当作定距变量对待。DE. 如果说《羊城晚报》具有这样的特点,您是否同意?(每小题选一项)很不同意1.关心市民生活 2.报道内容覆盖面广 3.富于地方特色 4.报道内容时效性强 5.能针砭时弊,为市民说话 6.关注社会重大问题 7.文章雅俗共赏 8.新闻报道有深度 1 1 1 1 1 1 1 1不太同意2 2 2 2 2 2 2 2说不清3 3 3 3 3 3 3 3比较同意4 4 4 4 4 4 4 4非常同意5 5 5 5 5 5 5 5(数据来源:19xx年《广州市民报纸读者意见调查》——广州达门市场研究公司)37

第二部分 如何用数据描述单个事物二、均值表数据分析者为了得到更多的信息,常常愿意把诸如此类的变量都当作定距 变量来处理。对于这些评分,就可以求出均值(平均得分),其含义是人们在 整体水平上对某一项目的看法。在求这些项目的平均得分时,常常会把它们一同列在一张表中,称之为均 值表。38

第二部分 如何用数据描述单个事物二、均值表表2-3 19xx年广州市民对《羊城晚报》几种说法的同意程度从大到小 排列 标准差0.77 0.77 0.76 0.83 0.77 0.83 0.76 0.72说法人数平均得分3.58 3.52 3.51 3.49 3.48 3.45 3.43 3.416 关注社会重大问题 2 报道内容覆盖面广 3 富于地方特色 1 关心市民生活 4 报道内容时效性强 5 能针砭时弊,为市民说话 8 新闻报道有深度 7 文章雅俗共赏2906 2906 2906 2906 2906 2906 2906 2906(数据来源:19xx年《广州市民报纸读者意见调查》——广州达门市场研究公司)39

第二部分 如何用数据描述单个事物三、饼形图和条形图饼形图(pie chart)又叫 饼图,是把一个圆饼分割成 几个部分,每一部分的面积 代表相应的类的比例大小。 前面表2-1和表2-2所展 示的变量是定性类型的变 量,可以用饼形图把它的分 布表示出来。31--60分钟 35.7% 30分钟以下 30.5%图2-1 19xx年广州市民每天花多长时间看报纸90分钟以上 9.2% 61--90分钟 10.0% 从不看 14.7%(数据来源:19xx年《广州市民报纸读者意见调查》——广州达门市场研究公司)40

第二部分 如何用数据描述单个事物三、饼形图和条形图饼形图可以显示一个整体分成了怎样的几个部分。因为各部分的面 积之和是100%,所以饼形图只能用来表现单选变量的百分数。饼形图可以是平面的、也可以是立体的,也可以突出表现某一个取 值的比例。 饼形图可以突出最大的部分和最小的部分。 但如果想比较各部分的大小,就要比较各部分的面积(圆弧的角 度),从直观上说,这不是十分方便的。41

第二部分 如何用数据描述单个事物三、饼形图和条形图图2-1 19xx年广州市民每天花多长时间看报纸比如图2-1中,“61-90分钟”的 10%和“90分钟以上”的9%, 直观上并不能看出这个差 异。如果想从饼形图上看出 各部分比较的信息,就只能 要求作图的时候用数值标出 各部分比例的大小。 另外还要注意一般情况下, 不能将圆饼分成太多的部 分。90分钟以上 9.2% 61--90分钟 10.0%从不看 14.7%30分钟以下 30.5% 31--60分钟 35.7%(数据来源:19xx年《广州市民报纸读者意见调查》——广州达门市场研究公司)42

第二部分 如何用数据描述单个事物三、饼形图和条形图条形图(bar graph),是用每个长条的 高度显示出该长条底部标示 的类别所占的百分比。 下图2-2是同一数据的 条形图。长条可以清楚地显 示出:每天看报纸时间在 61-90分钟的人比每天看报 纸时间在90分钟以上的人 多——因为61-90分钟的长 条比较高。图2-2 19xx年广州市民每天花多长时间看报纸40 % 3 5.7 % 30. 5% 30 %20 % 14. 7% 10 % 10.0 % 9. 2%0% 从不看 30分钟以下 31 --6 0分钟 6 1--9 0分钟 9 0分钟以上(数据来源:19xx年《广州市民报纸读者意见调查》——广州达门市场研究公司)43

第二部分 如何用数据描述单个事物三、饼形图和条形图饼形图和条形图是描述定性类型的变量分布情况的较好工具。 相比之下,饼形图更强调各部分的百分比和整体的关系,而条形图更强调各 部分彼此之间数量大小的比较。 当条形图的类目较多时,为了篇幅和美观,可以将条形图做成横条。 在饼形图和条形图这两种图形中,条形图的用途更广泛一些,因为并不要求 每个长条代表的百分比之和等于100% 。下面的四个图,说明了条型图的广泛用途。条形图的最大优势是可以表现一 个变量根据另一个变量分类后的分布情况,这一点将在后面讲解。44

第二部分 如何用数据描述单个事物三、饼形图和条形图条形图还可以比较不属于同一个样本的数值:图2-3 1998-2000三年间每周上网时间在10小时以上的网民比例60% 53.27%从右面这张图上, 可以清楚地看到,网 络用户每周上网时间 在10小时以上的网民 比例呈递增趋势, 20xx年增加的幅度非 常大。50% 40.90% 40% 30% 20% 10% 0% 19xx年7月 19xx年7月 20xx年7月 41%(数据来源:中国互联网络发展状况统计报告(2000/7))45

第二部分 如何用数据描述单个事物三、饼形图和条形图条型图还可以表现数值型变量的均值:图2-4 19xx年广州市民对《羊城晚报》几个方面的整体满意程度6 关注社会重大问题 2 报道内容覆盖面广 3 富于地方特色 1 关心市民生活 4 报道内容时效性强 5 针砭时弊,为市民说话 8 新闻报道有深度 7 文章雅俗共赏 3 3.58 3.52 3.51 3.49 3.48 3.45 3.43 3.41 3.5 4(数据来源:19xx年《广州市民报纸读者意见调查》——广州达门市场研究公司)46

第二部分 如何用数据描述单个事物三、饼形图和条形图条型图还可以表现多选变量的百分比:图2-5 用户在网上最主要获得哪方面的信息(多选结果)新闻 计算机软硬件信息 休闲娱乐信息 电子书籍 59.08% 50.88% 45.99% 40.16% 31.07% 26.11% 23.28% 19.33% 15.23% 14.48% 12.09% 17.61% 0% 20% 40% 60% 80% 100% 82.00%注意:作横条的条 形图一般都是因为类目 较多,为了看图方便, 作图时要首先按比例的 大小将这些类目进行排 序,否则做出的图形将 会显得比较凌乱。科教信息 金融证券信息 求职招聘信息 商贸信息 旅行信息 各类广告信息 医疗信息 交友征婚信息 其它(数据来源:中国互联网络发展状况统计报告(2000/7))47

第二部分 如何用数据描述单个事物三、饼形图和条形图饼形图只能以百分比为依 据进行作图,而条形图则可以 直接用频数进行作图。 例如,图2-2也可以做成图 2-6用频数表示的形式,而图的 形状不变。图2-6 19xx年广州市民每天花多长时间看报纸1200 1036 900 886600 427 300 290 2670 从 不看 30分钟以 下 31--60分钟 61--90分钟 90分钟以 上(数据来源:19xx年《广州市民报纸读者意见调查》——广州达门市场研究公司)48

第二部分 如何用数据描述单个事物三、饼形图和条形图不管是竖条还是横条 的条形图,都是一个坐标 轴标明分类的类目,另一 个坐标轴标明刻度。 有时候刻度的大小也会 影响人们从图中取得正确 的信息,比如图9-3中所示 的19xx年7月和19xx年7月 网络用户每周上网时间在 10个小时以上的比例差别 本来是非常微小的。图2-3 1998-2000三年间每周上网时间在10小时以上的网 民比例(正确的作图方式)60% 50% 40.90% 40% 30% 20% 10% 0% 19xx年7月 19xx年7月 20xx年7月 41% 53.27%49

第二部分 如何用数据描述单个事物三、饼形图和条形图但如果按照图2-7的作图方式,这种差别就被放大到产生误导的程度了。图2-7 19xx年和19xx年每周上网时间在10小时以上的网民比例(误导的作图方式)41.04% 41.00% 40.96% 40.92% 40.88% 40.84% 19xx年7月 19xx年7月 40.90% 41%50

第二部分 如何用数据描述单个事物三、饼形图和条形图究竟刻度取多大合适,最好是根据假设检验的结果决定是要展示这个差距还是 要忽略它,不过有经验的作图者是可以根据统计上的显著性和实际上的意义控制得 很好的。51

第二部分 如何用数据描述单个事物四、折线图折线图(line graphs)可以显示出 变量随时间所产生的 变化及变化的趋势, 时间刻度标示在横轴 上,变量的刻度放在 纵轴上。图2-8 一天中在某时刻首次上网的用户的比例随时间变化的折线图18% 16% 14% 12% 10% 8% 6% 4% 2% 0% 0点 2点 4点 6点 8点 10点 12点 14点 16点 18点 20点 22点 24点(数据来源:中国互联网络发展状况统计报告(2000/1))52

第二部分 如何用数据描述单个事物四、折线图上图显示了一天中在不同时刻首次上网的网民比例随时间变化的趋势。如果 用频数表把这些比例数据列出,会是一张很大的表,也难以清楚地看出数据的信 息。 由于折线图表现的是一种变化的趋势,可以给人以强烈的视觉效果,在作图 时就更要注意正确地表现资料的真实信息,尤其要注意刻度的合理性和分类轴间 隔的宽窄。53

第二部分 如何用数据描述单个事物四、折线图比较一下图2-10中的两张图,它们是根据同一数据做出的,在视觉上却有着不同 的效果:图2-10 1997-20xx年中国九个城市对环境问题表示“很关心”的居民比例100% 80% 60% 40% 20% 0% 19xx年 19xx年 19xx年 20xx年70% 60% 50% 40% 30% 19xx年 19xx年 19xx年 20xx年(数据来源:1997-19xx年IEM世界公众意识研究)54

第二部分 如何用数据描述单个事物五、直方图定性类型的变量的可能取值比较少。但当研究的变量是定量类型(定距变量和 定比变量)时,变量的可能取值就太多了,做频数表有时候是不可能的或无意义 的。这时候就需要把临近的值合并成一组,然后就以每组的中间值分类画出分布 图,这样作出的表现定量类型变量分布的图形叫做直方图(histogram)。55

第二部分 如何用数据描述单个事物五、直方图假设我们从200位被访者中获得了每次购买报刊花费的金额,从5元到78元不 等。 1、首先计算数据的“全距=78”。 2、再将这些数值范围分成同样宽度的组(class)。可以把200个观测值分 成8组。每一组的长度即:全距 78 组距 = = = 9.75 组数 8不过组距一般取整数比较好,而且一定要是全部数据都包含在各组之中,所 以这里组距取10。56

第二部分 如何用数据描述单个事物五、直方图3、确定了组数和组距,接下来是确定每组的组限(下限和上限)以 及组中值。 比如第一组的下限是5和15,下限 + 上限 组中值 = = 10 2以下各组的组限和组中值只要分别累加组距10即可得到,比如 第二组的下限、上限和组中值分别为15、25、20。57

第二部分 如何用数据描述单个事物五、直方图4、分组之后,就可以统计观测值落入每组的频数。分组后每组的频数和 相对频率如表2-5所示: 表2-5 200人购买报刊所花费的频数分布表(单位:元)组(下、上)限 5 - 15 15 - 25 25 - 35 35 - 45 45 - 55 55 - 65 65 - 75 75 - 85 总计 组中值 10 20 30 40 50 60 70 80频数(f )12 42 56 39 24 15 8 4 200相对频率(f / n )0.06 0.21 0.28 0.195 0.12 0.075 0.04 0.02 1.0058

第二部分 如何用数据描述单个事物五、直方图注意每个具体的数据应该归入也只能归入一个组。由于每组的上 限和下一组的下限是相同的,因此要事先约定各组中的上限(或下 限)属于哪一组。这里我们规定每组的上限不属于该组。组数太少会造成所有值都集中在少数几个组里的现象,而分组太 多又会造成很多组只有少数几个观测值甚至没有观测值的结果。 最好是根据数据的实际情况选择合适的组数,组数通常在5-15组 之间比较合适,而且组距和组中值最好都是整数。59

第二部分 如何用数据描述单个事物五、直方图5、这时就可以把频数的分布以直方图的形式表示出来,将横轴按对应的 组限来划分,用长条的高度表示频数或相对频率,长条的底部覆盖该组的范 围,长条之间不应有空隙。频数 60 50 40 30 20 10 0 10 20 30 40 50 60 70 80 单位(天 )图2-11 200位被访者购买报刊花费的频数分布表(单位:元)60

第二部分 如何用数据描述单个事物五、直方图直方图和条形图看起来很相似,不同之处在于:1、直方图的底部刻度都间隔相同的单位数,而条形图底部没有真 正的刻度; 2、条形图的宽度是没有意义的,而直方图的宽度涵盖了一组变量 的值; 3、直方图中的长条互相邻接,因为整个图的底部必须涵盖变量的 所有取值。61

第二部分 如何用数据描述单个事物六、盒形图盒形图(boxplot)是另一种表现数值型变量分布的图形,它是利用 在第一部分中讲到的五数综合进行作图,即最小值、第一四分位数、中位 数、第三四分位数、最大值。62

第二部分 如何用数据描述单个事物六、盒形图比如,把表2-6中的数据从小到大进行排序:24 25 25 25 25 27 27 29 30 30 33 33 35 35 36 38 38 40 40 45 45 50 5016 18 19 20 20 22 24 为了呈现单一变量的分布,盒 形图不是非常好的选择,直方图反映 的信息会更多一些。 不过盒形图可以方便地比较变 量分类后的分布情况,而且非常有 效。图2-15 30位读者年龄分布盒形图 63

第二部分 如何用数据描述单个事物六、盒形图并排盒形图可以十分直观地比较不同的分布。效 果 得 分 100效 果 得 分 10xxxxxxxxxxxx20200 N = 30 电视 20 广播 媒体0 N =13 上午13 中午12 下午12 晚上 时段图2-16 电视广告和广播广告 的效果得分的比较盒形图图2-17 不同时间段播出的广 告效果得分的比较盒形图 64

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势描述性 统计量中心(集 中) Location众数 Mode 中位数 Median 均值 Mean 极差 Range形状(离 散) Dispersion四分位差 IQR 方差 Variance 标准差 Standard Deviation65

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势(一) 分布的集中趋势 1、平均数 平均数是最普遍使用的中心趋势度量,适合于使用定比数据描述事 物; 一组观测值的平均数就是他们的算术平均值。要找出变量X的一组观 测值X1、X2、…、Xn的平均数,只要把那组值全部加起来,再除以 观测值的个数n即可。用 表示平均数,则有1 n ( X 1 + X 2 + ...... X n ) X = ∑ Xi = n i =1 n66

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势平均数的直观意义频 数 频 数 频 数▲ 平均数 ▲ (2)将支点设在平均数以外的位置 平均数 (1)将支点设在平均数的位置 ▲ 平均数 (3)对称分布的情况图2-2 平均数的位置就是分布的重心67

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势 (一) 分布的集中趋势 2、中位数 中位数是描述分布中心趋势的另一种典型的度量。中位数 是“最中间的数”,也就是说,要找到一个数,使得有一半 的观测值比它小,一半比它大。这个数就是中位数,用M 表示。寻找中位数的步骤如下:将所有n个观测值按由小到大的顺序排列 如果观测值的个数为奇数,中位数M就是排序后最中间的观测值。要找到中 位数的位置,只要从头数起,数到第(n+1)/2个位置即可 如果观测值的个数为偶数,中位数M就是排序后最中间的两个观测值的平 均。要找到这两个数的位置,也是从头数起,数到第n/2个和第(n/2)+1个 位置即可68

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势 (一) 分布的集中趋势 3、众数 众数严格说来并不能算是分布的中心,它表示一组观测值 中出现次数最多的值,当然这个值可能是个数字(对应定 比率变量、定距变量或定序变量的情况),也可能是用文 字表示的类别或代码。众数只是记录发生最频繁的值,这个值可能离分布的平均数或中位数很远; 众数也可能不止一个。 众数很容易求得,一般也是将观测值按由小到大的顺序排列,以便看清每个 值出现的次数;如果有分布图,那么图中峰顶所对应的值就是众数。69

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势 (一) 分布的集中趋势频 数 频 数▲ 平均数 中位数 众 数 (1)对称分布的情况▲ 众中平 位均 数数数 (2)右边拖着长尾巴的偏斜分布的情况图2-3 平均数、中位数和众数的比较70

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势 (二) 分布的离散趋势 1、极差(Range) 描述分布的伸展程度的最简单的方法之一就是找出观 测数据的最大值和最小值,这两个数表示了数据的分布 范围,称它们的差为极差。即 极差R = 最大值 - 最小值虽然极差一般情况下可以反映数据的分布范围,但是没有给出关于分布中 间部分如何变化的任何信息;而且最大值和最小值也有可能是远离其它观 测值的奇异值,不能反映大部分数据的分布范围。因此极差是不可靠的, 一般不常用。71

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势 (二) 分布的离散趋势 2、四分位数差(Inter-Quartile Range) 将全部观测值按从小到大的顺序排列,用三个数将观测值 分成四部分,每一部分都包含25%的数据,这三个数就分 别叫做第一四分位数、第二四分位数和第三四分位数,分 别记作Q1、Q2和Q3。Q1和Q3给出了中间一半数据的范 围,二者的差就是四分位数差。利用找中位数的方法,就可以计算四分位数Q1和Q3: 将观测值按从小到大的顺序排列,找出中位数M,即第二四分位数Q2; 找出中位数左边所有观测值的中位数,得到第一四分位数Q1; 找出中位数右边所有观测值的中位数,得到第三四分位数Q3;72

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势 (二) 分布的离散趋势 3、五数综合 描述一组观测值分布伸展程度的最简易可行的方法是同时 采用上述五个数,叫五数综合: 最小值、第一四分位数、中位数、第三四分位数、最大值 用符号表示为 Min Q1 M Q3 Max 根据分布的五数综合,可画出盒型图(box plot)。图形 的两端是最小值和最大值,中间的“盒型”部分的两端位于 两个四分位数,盒型里面的直线段标出中位数的位置。需 要比较几个分布时,将对应的盒型图画在一起比较是很有 效的。73

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势 (二) 分布的离散趋势 3、五数综合400最大值300第三四分位数200中位数第一四分位数最小值100074

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势 (二) 分布的离散趋势例:盒型图比较三类报纸的广告收入年 广 告 收 入 千 万 元 30252015105 日报 0 都市报 晚报75

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势 (二) 分布的离散趋势 4、方差(Variance)和标准差(Standard Deviation) 描述分布的最常用的统计量是平均数加上标准差,前者 描述分布的中心;后者描述分布的伸展程度或离散程 度。76

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势 (二) 分布的离散趋势 4、方差(Variance)和标准差(Standard Deviation) 具体来说,标准差表示观测值与平均数相离有多远;方 差是标准差的平方。标准差的大小体现了观测值伸展的 扁平程度:标准差越大,分布就越扁平;反之,分布就 越集中。77

第二部分 如何用数据描述单个事物样本方差是衡量统计数据分散程度的一种特征数,其计算公式:S 2 :样本方差;:某一数据与样本平均值之间的偏差。 把样本方差的正平方根作为样本标准差,用符号 S 来表示。其计 算公式:78

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势 (二) 分布的离散趋势标准差相同,均值不同79

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势 (二) 分布的离散趋势标准差不同 均值相同80

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势 (二) 分布的离散趋势 4、方差(Variance)和标准差(Standard Deviation)你所在公司要建立软饮料自动售货机的分布网,由你负责采购自 动售货机。设想这些机器要在杯子中注入8公斤的饮料,你请两家 供货商各自使用自己的机器1000次,记录注入杯子的饮料的数量 结果如下: 甲公司:均值=8.001公斤 乙公司:均值=8.001公斤 标准差=0.1公斤 标准差=0.6公斤试问:哪个公司的自动售货机更可靠?81

第二部分 如何用数据描述单个事物七、事物的集中趋势和离散趋势 (二) 分布的离散趋势 4、方差(Variance)和标准差(Standard Deviation)定时器在爆破中用来起爆炸药品牌 A B 如何选择?82均值 30 30标准差 0.5 6

第二部分 如何用数据描述单个事物小结要展示数据资料,首先可以用频数表或均值表。借助图形展示 的话,对于定性类型的变量,可以采用饼图、条形图和折线图;而对于 定量类型的变量,常常需要展示它的分布形态,这时候可以借助直方 图、茎叶图和盒形图。 要描述事物的集中趋势,可以使用平均数、中位数、众数;描述 事物的离散趋势,使用极差、四分位差、标准差等。83

自己动手一、项目背景 数据集包含20xx年底进行的对北京市中关村地区500名在校 大学生和研究生公寓需求状况调查的部分信息。。 数据格式:SPSS数据文件 变量总数:8(原始数据文件共有62个) 样本总数:500注:除变量“rental”以外其余各变量的缺失值用“0”或SPSS的系统缺失码表 示。20xx年中关村大学生公寓需求状况调查.sav二、分析目标 用人口数据资料,描述消费者肖像84

请提问85

相关推荐