应用统计学总结

一.统计学性质

统计学: 收集、分析、表述和解释数据的科学 1.数据搜集:取得数据;2.数据分析:分析数据;3.数据表述:图表展示数据;4.数据解释:结果的说明

(一)现代统计学的性质可归纳为如下几个方面:

1.统计学是方法论科学,而不是实质性科学

它研究的是事物普遍存在的数量关系的计量和数量分析的方法,并通过数量分析来认识特定事物的内在规律性,但不是研究规律本身。

2.统计学的应用范围不局限于社会科学,也不局限于自然科学。

由于其方法来自于社会科学也来自于自然科学,所以它可以用于社会现象也可以用于自然现象,即统计学是一种通用的方法论科学。同时统计学也不是依服于实质性科学而存在的方法论,它是独立的方法论科学。

3.统计学的研究对象既包括确定性现象的总体数量关系,也包括随机现象的总体数量关系,即统计学是研究各类事物总体数据的方法论科学。

统计学是为探索事物数量所反映的客观规律性,而对事物总体的大量数据进行收集、整理和分析研究的方法论科学。它以大量的客观事物的量化描述、特征推算及关系分析为其主要研究对象。

(二)描述统计学与推断统计学:

描述统计学(Descriptive Statistics)研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征。内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。

推断统计学(1nferential Statistics)则是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。

描述统计学和推断统计学的划分,一方面反映了统计方法发展的前后两个阶段,同时也反映了应用统计方法探索客观事物数量规律性的不同过程。

统计研究过程的起点是统计数据,终点是探索出客观现象内在的数量规律性。在这一过程中,如果搜集到的是总体数据(如普查数据),则经过描述统计之后就可以达到认识总体数量规律性的目的了;如果所获得的只是研究总体的一部分数据(样本数据),要找到总体的数量规律性,则必须应用概率论的理论并根据样本信息对总体进行科学的推断。

显然,描述统计和推断统计是统计方法的两个组成部分。描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容。

二. 统计数据

对现象进行测量的结果;不是指单个的数字,而是由多个数据构成的数据集;不仅仅是指数字,它可以是数字的,也可以是文字的

分类:按计量

1. 分类数据(categorical data)

? 只能归于某一类别的非数字型数据

? 对事物进行分类的结果,数据表现为类别,用文字来表述

2. 顺序数据(rank data)

? 只能归于某一有序类别的非数字型数据

? 对事物类别顺序的测度,数据表现为类别,用文字来表述

3. 数值型数据(metric data)

? 按数字尺度测量的观察值

? 结果表现为具体的数值,对事物的精确测度

按收集方法

1. 观测的数据(observational data) :

在没有对事物人为控制的条件下而得到的,通过调查或观测而收集到的数据

2. 试验的数据(experimental data) :在试验中控制试验对象而收集到的数据

按时间状况

1. 时间序列数据(time series data)

? 在不同时间上收集到的数据

? 描述现象随时间变化的情况

2.截面数据(cross-sectional data)

? 在相同或近似相同的时间点上收集的数据

? 描述现象在某一时刻的变化情况

三. 数据质量

1. 数据的误差:(1)抽样误差;

a、 在用样本数据进行统计推断时所产生的误差(样本统计量与相应总体参数之间的偏差) b、由于抽样的随机性所带来的误差

c、 影响抽样误差的大小的因素:抽样方法;样本量的大小;总体的变异性

(2) 非抽样误差(抽样框误差;回答误差;无回答误差;调查员误差)

a、 调查过程中由于调查者和被调查者的人为因素所造成的误差(除抽样误差之外的,由

于其他原因造成的样本观察结果与总体真值之间的差异)

b、理论上可以消除

c、 存在于所有的调查之中:概率抽样,非概率抽样,全面性调查

(3) 误差的控制

a、 抽样误差可计算和控制

b、非抽样误差的控制:调查员的挑选;调查员的培训;督导员的调查专业水平:调查过程控

制(调查结果进行检验、评估;现场调查人员进行奖惩的制度)

(4)统计数据质量的要求;

1. 精 度:最低的抽样误差或随机误差

2. 准 确 性:最小的非抽样误差或偏差

3. 关 联 性:满足用户决策、管理和研究的需要

4. 及 时 性:在最短的时间里取得并公布数据

5. 一 致 性:保持时间序列的可比性

6. 最低成本:以最经济的方式取得数据

四. 数据特征

(一) 集中趋势:表明同类现象在一定时间、地点条件下,所达到的一般水平与大量单位的综合数量特征,有以下3个特点:

1. 用一个代表数值综合反映个体某种标志值的一般水平。

2. 将个体标志值之间的差异抽象掉了。

3. 计量单位与标志值的计量单位一致。

集中趋势

1. 一组数据向其中心值靠拢的倾向和程度

2. 测度集中趋势就是寻找数据水平的代表值或中心值

3. 不同类型的数据用不同的集中趋势测度值

4. 低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层

次的测量数据

集中趋势的作用:

? 比较若干总体的某种标志数值的平均水平

? 研究总体某种标志数值的平均水平在时间上的变化

? 分析社会经济现象的依存关系

?

? 研究和评价事物优劣的数量指标 计算和估算其他重要的经济指标

(二)离中趋势:

1. 数据分布的另一个重要特征

2. 反映各变量值远离其中心值的程度(离散程度)

3. 从另一个侧面说明了集中趋势测度值的代表程度

4. 不同类型的数据有不同的离散程度测度值

离中趋势度量的目的:

描述总体内部差异程度;衡量和比较均值指标的代表性高低;为抽选样本单位数提供依据

区别与联系:

区别:集中趋势是对频数分布资料的集中状况和平均水平的综合测度;是一组数据向其中心值靠拢的倾向和程度;测度集中趋势就是寻找数据水平的代表值或中心值。离中趋势是对频数分布资料的差异程度和离散程度的测度,用来衡量集中趋势所测数据的代表性,或者反应变量值的稳定性与均匀性;是用来描述总体内部差异程度及衡量和比较均值指标的代表性高低。偏度是用来反应变量数列分布偏斜程度的指标,有对称分布和非对称分布,非对称分布也即为偏态分布,包括左偏分布和右偏分布。峰度是用来反应变量数列曲线顶端尖峭或扁平程度的指标。

联系:为了反面描述研究对象的情况,仅仅用集中趋势方法来测度集中性和共性是不够的,还要用离散趋势方法来测度其离散性和差异性,因此,而这需要结合使用。集中趋势和离中趋势是变量数列分布的两个重要特征,但要全面了解变量数列分布的特点,还需要知道数列的形状是否对称、偏斜程度以及分布的扁平程度等。偏度和峰度就是从分布特征作进一步的描述。

五. 参数估计

(一) 点估计

1. 用样本的估计量直接作为总体参数的估计值

2. 缺点:没有给出估计值接近总体参数程度的信息,它与真挚的误差、估计可靠性怎么样无法知道。区间估计可以弥补这种不足。

3. 点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等

(二) 区间估计

在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的。

根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。

(三) 置信水平

1. 将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称

为置信水平

2. 表示为 (1 - ????

常用的置信水平值有 99%, 95%, 90%;相应的 ??为0.01,0.05,0.10

(四) 置信区间

? 由样本统计量所构造的总体参数的估计区间称为置信区间;

? 统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区

? 用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的

区间是否包含总体参数的真值,我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个

置信区间的表述:

1. 总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个

随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数

2. 实际估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比

如95%)下的置信区间。我们只能希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个

3. 当抽取了一个具体的样本,用该样本所构造的区间是一个特定的常数区间,我们无法

知道这个样本所产生的区间是否包含总体参数的真值,因为它可能是包含总体均值的区间中的一个,也可能是未包含总体均值的那一个

4. 一个特定的区间总是“包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总

体参数”的问题

5. 置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真

值,而不是针对所抽取的这个样本所构建的区间而言的

6. 使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较大的样本则会

得到一个较准确(较窄)的区间。直观地说,较宽的区间会有更大的可能性包含参数

7. 但实际应用中,过宽的区间往往没有实际意义

8. 区间估计总是要给结论留点儿余地

影响置信区间宽度的因素:

1.总体数据的离散程度,用 ? 来测度;2.样本容量;3. 置信水平 (1- ?),影响 zα/2 的大小

(五) 参数估计标准:

无偏性:估计量抽样分布的数学期望等于被估计的总体参数

有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效

一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数

六. 假设检验

(一)概念

1. 先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的

过程

2. 有参数检验和非参数检验

3. 逻辑上运用反证法,统计上依据小概率原理

什么小概率?

1. 在一次试验中,一个几乎不可能发生的事件发生的概率

2. 在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设

3. 小概率由研究者事先确定

怎样通过假设检验去掉偶然性

利用P值进行检验就可以去掉偶然性。因为P值告诉我们在某个总体的许多样本中,某一

类数据出现的经常程度,P值是当原假设正确的情况下,得到所观测的数据的概率。如果原假设是正确的,P值若很小,则告诉我饿们得到这样的观测数据是多么的不可能,相当不可能得到的数据,就是原假设不对的合理证据,偶然性也就消除了。

(二)原假设

1. 研究者想收集证据予以反对的假设。是关于总体参数的表述,它是接受检验的假设。

2. 总是有符号 ?, ? 或??

3. 表示为 H0

? H0 : ? = 某一数值

? 指定为符号 =,? 或 ??

(三)备择假设

1. 研究者想收集证据予以支持的假设。党员假设被否定时另一种可成立的假设。

2. 总是有符号 ?,?? 或 ?

3. 表示为 H1

? H1 : ? <某一数值,或? ?某一数值

(四)结论与总结

1. 原假设和备择假设是一个完备事件组,而且相互对立

? 在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立

2. 先确定备择假设,再确定原假设

3. 等号“=”总是放在原假设上

4. 因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同的结论)

(五) 两类错误

1. 第Ⅰ类错误(弃真错误)

? 原假设为真时拒绝原假设

? 第Ⅰ类错误的概率记为?。被称为显著性水平。常用的 ??值有0.01, 0.05, 0.10

2. 第Ⅱ类错误(取伪错误)

? 原假设为假时未拒绝原假设

? 第Ⅱ类错误的概率记为??(Beta)

影响?错误的因素:1. 总体参数的真值。随着假设的总体参数的减少而增大

2. 显著性水平 ?。当 ? 减少时增大 3. 总体标准差 ?。当 ? 增大时增大 4.样本容量 n。当 n 减少时增大

控制:进行假设检验时总希望犯两类错误的可能性都很小,然而,在其他条件不变的情况下,?与?是此消彼长的关系,二者不可能同时减小。若要同时减小?与?,只能是增大样本量。一般总是控制?,是犯错误的概率不大于?,即?是允许犯弃真错误的最大概率值(而P值相当于根据样本计算的犯弃真错误的概率值,故P值又称为观测的显著性水平)。但确定?时必须注意,如果犯弃真错误的代价较大,?可取小些,相反,如果返取伪错误的代价较大,则?宜取大些(以使?较小)

(六)假设检验的结论表述

1. 假设检验的目的就在于试图找到拒绝原假设,而不在于证明什么是正确的

2. 拒绝原假设时结论是清楚的

? 例如,H0:?=10,拒绝H0时,我们可以说??10

3. 当不拒绝原假设时

? 并未给出明确的结论

? 不能说原假设是正确的,也不能说它不是正确的

? 例如, 当不拒绝H0:?=10,我们并未说它就是10,但也未说它不是10。我

们只能说样本提供的证据还不足以推翻原假设

(七)统计上的显著与实际意义

1. 当拒绝原假设时,我们称样本结果是统计上显著的(statistically Significant)

2. 当不拒绝原假设时,我们称样本结果是统计上不显著的

3. 在“显著”和“不显著”之间没有清除的界限,只是在P值越来越小时,我们就有越来越强的

证据,检验的结果也就越来越显著

4. “显著的”(Significant)一词的意义在这里并不是“重要的”,而是指“非偶然的”

5. 一项检验在统计上是“显著的”,意思是指:这样的(样本)结果不是偶然得到的,或者说,

不是靠机遇能够得到的

6. 如果得到这样的样本概率(P)很小,则拒绝原假设

? 在这么小的概率下竟然得到了这样的一个样本,表明这样的样本经常出现,所以,

样本结果是显著的

7. 在进行决策时,我们只能说P值越小,拒绝原假设的证据就越强,检验的结果也就越显著

8. 但P值很小而拒绝原假设时,并不一定意味着检验的结果就有实际意义

? 因为假设检验中所说的“显著”仅仅是“统计意义上的显著”

? 一个在统计上显著的结论在实际中却不见得就很重要,也不意味着就有实际意义

9. 因为值与样本的大小密切相关,样本量越大,检验统计量的P值也就越大,P值就越小,就越有

可能拒绝原假设

10.如果你主观上要想拒绝原假设那就一定能拒绝它

? 这类似于我们通常所说的“欲加之罪,何患无词”

? 只要你无限制扩大样本量,几乎总能拒绝原假设

11.当样本量很大时,解释假设检验的结果需要小心

? 在大样本情况下,总能把与假设值的任何细微差别都能查出来,即使这种差别几乎

没有任何实际意义

12.在实际检验中,不要刻意追求“统计上的”显著性,也不要把统计上的显著性与实际意义上的显著性混同起来

? 一个在统计上显著的结论在实际中却不见得很重要,也不意为着就有实际意义

七. 方差分析

1.

值型因变量的影响 。

单因素方差分析:涉及一个分类的自变量

双因素方差分析:涉及两个分类的自变量

2.(1)仅从散点图上观察还不能提供充分的证据证明不同行业被投诉的次数之间有显著差异

? 这种差异也可能是由于抽样的随机性所造成的

需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析

? 所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时

则需要借助于方差

? 这个名字也表示:它是通过对数据误差来源的分析判断不同总体的均值是否相等。

因此,进行方差分析时,需要考察数据误差的来源

(2)随机误差

? 因素的同一水平(总体)下,样本各观察值之间的差异

? 比如,同一行业下不同企业被投诉次数是不同的

? 这种差异可以看成是随机因素的影响,称为随机误差

系统误差

? 因素的不同水平(不同总体)下,各观察值之间的差异

? 比如,不同行业之间的被投诉次数之间的差异 通过分析数据的误差判断各总体均值是否相等;研究一个或多个分类型自变量对一个数

(3)? 这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差 数据的误差用平方和(sum of squares)表示

组内平方和(within groups)

? 因素的同一水平(同一个总体)下样本数据的平方和

? 比如,零售业被投诉次数的误差平方和

? 组内平方和只包含随机误差

组间平方和(between groups)

? 因素的不同水平(不同总体)下各样本之间的平方和

? 比如,四个行业被投诉次数之间的误差平方和

? 组间平方和既包括随机误差,也包括系统误差

3.方差分析的基本假定

1. 正态性:每个总体都应服从正态分布

?

? 对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本 比如,每个行业被投诉的次数必需服从正态分布

2. 方差齐性:各个总体的方差必须相同

? 各组观察数据是从具有相同方差的总体中抽取的

? 比如,四个行业被投诉次数的方差都相等

3. 独立性:观察值是独立的(该假定不满足对结果影响较大)

4.问题的一般提法:(1)设因素有k个水平,每个水平的均值分别用?1 , ?2, ?, ?k 表示

(2)要检验k个水平(总体)的均值是否相等,需要提出如下假设:

? H0 : ?1 ? ?2 ? …? ?k

? H1 : ?1 , ?2 , ?,?k 不全相等

5.SST:全部观察值xij

SSA:各组平均值xi与总平均值xij的离差平方和;反映各总体的样本均值之间的差异程度,

又称组间平方和;该平方和既包括随机误差,也包括系统误差

SSE:每个水平或组的各样本数据与其组平均值的离差平方和;反映每个样本各观察值的离散

状况,又称组内平方和;该平方和反映的是随机误差的大小

总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和 (SSA) 之间的关系: SST = SSA + SSE

1. 如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内

平方和SSE和除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差

2. 判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差

异的大小

6.均方

1. 各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影

响,需要将其平均,这就是均方,也称为方差

2. 计算方法是用误差平方和除以相应的自由度

3. 三个平方和对应的自由度分别是

?

? SST 的自由度为n-1,其中n为全部观察值的个数 SSA的自由度为k-1,其中k为因素水平(总体)的个数

? SSE 的自由度为n-k

7.构造检验统计量

1. 将MSA和MSE进行对比,即得到所需要的检验统计量F

2. 当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为 n-k 的 F 分布

将统计量的值F与给定的显著性水平?的临界值F?进行比较,作出对原假设H0的决策 ? 根据给定的显著性水平?,在F分布表中查找与第一自由度df1=k-1、第二自由度df2=n-k 相应的临界值 F?

? 若F>F? ,则拒绝原假设H0 ,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响

? 若F<F? ,则不能拒绝原假设H0 ,无证据支持表明所检验的因素对观察值有显著影响

8.关系强度

1. 变量间关系的强度用自变量平方和(SSA)及残差平方和(SSE)占总平方和(SST)的比例大

小来反映

2. 自变量平方和占总平方和的比例记为R2 ,即

3、其平方根R就可以用来测量两个变量之间的关系强度

八. 简单回归与相关分析

1.相关分析:对两个变量之间线性关系的描述与度量,它要解决的问题包括

? 变量之间是否存在关系?

?

?

? 如果存在关系,它们之间是什么样的关系? 变量之间的强度如何? 样本所反映的变量之间的关系能否代表总体变量之间的关系?

2.回归分析:从一组样本数据出发,确定变量之间的数学关系式;对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著;利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度

3.回归分析与相关分析的区别

1. 相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处

在被解释的地位,x 称为自变量,用于预测因变量的变化

2. 相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,

自变量 x 可以是随机变量,也可以是非随机的确定变量

3. 相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量

x 对变量 y 的影响大小,还可以由回归方程进行预测和控制

4.一元线性回归模型

1. 描述因变量 y 如何依赖于自变量 x 和误差项? 的方程称为回归模型

2. 一元线性回归模型可表示为

y = ?0 +?1 x + ?

? y 是 x 的线性函数(部分)加上误差项

? 线性部分反映了由于 x 的变化而引起的 y 的变化

? 误差项 ? 是随机变量

? 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响

? 是不能由 x 和 y 之间的线性关系所解释的变异性

? ?0 和 ?1 称为模型的参数

5.利用回归方程预测时应注意

1. 在利用回归方程进行估计或预测时,不要用样本数据之外的x值去预测相对应的y值

2. 因为在一元线性回归分析中,总是假定因变量y与自变量x之间的关系用线性模型表达

是正确的。但实际应用中,它们之间的关系可能是某种曲线

3. 此时我们总是要假定这条曲线只有一小段位于x测量值的范围之内。如果x的取值范围

是在xL和xU之间,那么可以用所求出的利用回归方程对处于xL和xU之间的值来估计E(y)和预测y。如果用xL和xU之间以外的值得出的估计值和预测值就会很差

6.离差平方和

1. 总平方和(SST)

? 反映因变量的 n 个观察值与其均值的总离差

2. 回归平方和(SSR)

? 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间

的线性关系引起的 y 的取值变化,也称为可解释的平方和

3. 残差平方和(SSE)

? 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平

方和

7.估计标准误差

1. 实际观察值与回归估计值离差平方和的均方根(自由度n-2)

2. 反映实际观察值在回归直线周围的分散状况

3. 对误差项?的标准差?的估计,是在排除了x对y的线性影响后,y随机波动大小的

一个估计量

4. 反映用估计的回归方程预测y时预测误差的大小

九. 多元回归

1.多重共线性

1. 回归模型中两个或两个以上的自变量彼此相关

2. 多重共线性带来的问题有

? 可能会使回归的结果造成混乱,甚至会把分析引入歧途

? 可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同我

们预期的正负号相反

2.多重共线性的识别

1. 检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对

各相关系数进行显著性检验

? 若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着

多重共线性

2. 如果出现下列情况,暗示存在多重共线性

? 模型中各对自变量之间显著相关。

? 当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著 ? 回归系数的正负号与预期的相反。

3.变量选则过程

1. 在建立回归模型时,对自变量进行筛选

2. 选择自变量的原则是对统计量进行显著性检验

? 将一个或一个以上的自变量引入到回归模型中时,是否使得残差平方和(SSE)有显著

地减少。如果增加一个自变量使SSE的减少是显著的,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引入回归模型

? 确定引入自变量是否使SSE有显著减少的方法,就是使用F统计量的值作为一个标

准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量

3. 变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等

4.向前选择

1. 从模型中没有自变量开始

2. 对k个自变量分别拟合对因变量的一元线性回归模型,共有k个,然后找出F统计量

的值最高的模型及其自变量(P值最小的),并将其首先引入模型

3. 分别拟合引入模型外的k-1个自变量的线性回归模型

4. 如此反复进行,直至模型外的自变量均无统计显著性为止

5.向后剔除

1. 先对因变量拟合包括所有k个自变量的回归模型。然后考察p(p<k)个去掉一个自变量

的模型(这些模型中在每一个都有的k-1个自变量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除

2. 考察p-1个再去掉一个自变量的模型(这些模型中每一个都有k-2个的自变量),使模型

的SSE值减小最少的自变量被挑选出来并从模型中剔除

3. 如此反复进行,一直将自变量从模型中剔除,直至剔除一个自变量不会使SSE显著减

小为止

6.逐步回归

1. 将向前选择和向后剔除两种方法结合起来筛选自变量

2. 在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某

个自变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除

3. 按照方法不停地增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不

能导致SSE显著减少

4. 在前面步骤中增加的自变量在后面的步骤中有可能被剔除,而在前面步骤中剔除的自

变量在后面的步骤中也可能重新进入到模型中

7.虚拟自变量

1. 用数字代码表示的定性自变量

2. 虚拟自变量可有不同的水平

? 只有两个水平的虚拟自变量。比如,性别(男,女)

? 有两个以上水平的虚拟自变量,贷款企业的类型(家电,医药,其他)

3. 虚拟变量的取值为0,1

1. 回归模型中使用虚拟自变量时,称为虚拟自变量的回归

? 当虚拟自变量只有两个水平时,可在回归中引入一个虚拟变量,比如,性别

2. 一般而言,如果定性自变量有k个水平,需要在回归中模型中引进k-1个虚拟变量 例:引进虚拟变量时,回归方程可写:

E(y) =?0+ ?1x1+ ?2x2

? 女( x2=0):E(y|女性) =?0 +?1x1

? 男(x2=1):E(y|男性) =(?0 + ?2 ) +?1x1

?0的含义表示:女性职工的期望月工资收入

? (?0+ ?2)的含义表示:男性职工的期望月工资收入

? ?1含义表示:工作年限每增加1年,男性或女性工资的平均增加值

? ?2含义表示:男性职工的期望月工资收入与女性职工的期望月工资收入之间的差值

(?0+ ?2) - ?0= ?2 ?

十. 主成分分析与因子分析

1.(1)概念:在研究实际问题时,往往需要收集多个变量。但这样会使多个变量间存在较强的相关关系,即这些变量间存在较多的信息重复,直接利用它们进行分析,不但模型复杂,还会因为变量间存在多重共线性而引起较大的误差。为能够充分利用数据,通常希望用较少的新变量代替原来较多的旧变量,同时要求这些新变量尽可能反映原变量的信息。主成分分析

和因子分子正是解决这类问题的有效方法。它们能够提取信息,使变量简化降维,从而使问题更加简单直观

(2)主成分分析:研究如何通过少数几个主成分(principal component)来解释多个变量间的内部结构。即从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关

主成分分析的目的:数据的压缩;数据的解释。常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。(主成分所代表的原始变量的信息用其方差来表示,一般要求所选主成分的方差总和占全部方差的80%以上就可以了。如果原来的变量之间的相关程度高,降维的效果就会好一些,所选的主成分就会少一些。特征根反映了主成分对原始变量的影响程度,表示引入该主成分后可以解释原始变量的信息。特征根又叫方差,某个特征根占总特征根的比例称为主成分方差贡献率。一般情况下,当特征根小于1时,就不再选作主成分了,因为该主成分的解释力度还不如直接用原始变量解的释力度大。)

(3)因子分析:与主成分分析类似,它们都是要找出少数几个新的变量来代替原始变量。 不同之处:主成分分析中的主成分个数与原始变量个数是一样的,即有几个变量就有几个主成分,只不过最后我们确定了少数几个主成分而已。而因子分析则需要事先确定要找几个成分,也称为因子(factor),然后将原始变量综合为少数的几个因子,以再现原始变量与因子之间的关系,一般来说,因子的个数会远远少于原始变量的个数。

? 因子分析可以看作是主成分分析的推广和扩展,但它对问题的研究更深入、更细致一

些。实际上,主成分分析可以看作是因子分析的一个特例

? 简言之,因子分析是通过对变量之间关系的研究,找出能综合原始变量的少数几个因

子,使得少数因子能够反映原始变量的绝大部分信息,然后根据相关性的大小将原始变量分组,使得组内的变量之间相关性较高,而不同组的变量之间相关性较低。因此,因子分析属于多元统计中处理降维的一种统计方法,其目的就是要减少变量的个数,用少数因子代表多个原始变量

(4)因子数量的确定

? 用公因子方差贡献率提取:与主成分分析类似,一般累计方差贡献率达到80%以上的

前几个因子可以作为最后的公因子

? 用特征根提取:一般要求因子对应的特征根要大于1,因为特征根小于1说明该共因

子的解释力度太弱,还不如使用原始变量的解释力度大

实际应用中,因子的提取要结合具体问题而定,在某种程度上,取决于研究者自身的知识和经验

(5)主成分分析和因子分析都是多元分析中处理降维的两种统计方法。只有当原始数据中的变量之间具有较强的相关关系时,降维的效果才会明显,否则不适合进行主成分分析和因子分析

? 主成分和因子的选择标准应结合具体问题而定。在某种程度上取决于研究者的知识和

经验,而不是方法本身

? 即使得到了满意的主成分或因子,在运用它们对实际问题进行评价、排序等分析时,

仍然要保持谨慎,因为主成分和因子毕竟是高度抽象的量,无论如何,它们的含义都不如原始变量清晰

? 因子分析可以看作是主成分分析的推广和扩展,而主成分分析则可以看作是因子分析

的一个特例。目前因子分析在实际中被广泛应用,而主成分分析通常只作为大型统计分析的中间步骤,几乎不再单独使用

相关推荐