1new多元统计分析实验1 多元数据的假设检验

数学与统计学院

实验报告

20##-2013学年第2学期

课程名称         多 元 统 计 分 析    

实验名称                               

专    业         统      计      学   

班    级     □Y141111     □Y141112 

学    号                               

姓    名                               

实验地点         弘道楼统计实验室     

指导老师           钱      斌          

数学与统计学院二零##年制

请写下你的姓名和学号

姓名:                      学号:                      

补充材料

1、          将上面的实验内容和书本P30例2-1比较,你能否得出什么结论。

2、          找出更多的关于电力、煤气及水的生产和供应业,房地产行业,信息技术业的数据如深圳能源的数据,分析从20##年以来这三个行业的变化。

3、          试对某一实际问题具体运用多元数据的均值和方差检验的方法。

 

第二篇:多元统计分析实例

多元统计分析实例

邹斌文

地形——水文系统要素的主成分分析

地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息。事实上,这种想法是可以实现的,主成分分析方法就是综合处理这种问题的一种强有力的方法。

我们要研究某一地区气候、地表特征和地貌之间的关系,一共选取了20个流域盆地,并测量了9个要素,它们分别是:

x1 流域盆地总高差(m)

x2 流域盆地山口的海拔高度(m)

x3 流域盆地周长(km)

x4 河道总长度(m)

x5 河道总数

x6 平均分叉率

x7 河谷最大坡度(度)

x8 河源数

x9 流域盆地面积(k㎡) 流域盆地要素数据表

x1 x2 x3 x4 x5 x6 x7 x8 x9 5490 1.7042.481302.78620 0.1434450 2.7654.394305.83326 0.3125525 1.52.66363.04225 0.1624760 2.755.321174.84498 0.2216090 1.1422.08325.126 0.1018640 6.1310.21764.2961 1.368415 8.7615664.556 2.997040 1.31.26133.510 0.0896258 8.44730.6062866.5225 2.0576280 5.17411.383824.0763 0.7638520 2.886.87623.6547 0.4769460 7.487.79304.924 1.755937 2.0462.993282.7219 0.2527480 4.1222.84074.31305 0.747050 3.368.24834.1967 0.4816525 3.527.49513.7941 0.723

7836 3.2955340 3.124879 10.376050 5.058.6657.8178.5111.536569507503.748.344.493.5750 56 398 38 0.6270.4575.461.153

将以上表格中数据输入spss中,进行主成分分析,可得以下结果:

相关系数矩阵表(Correlation Matrix)

Coiorrelatn x1 x2 x3

x4 x5 x6 x7 x8 x9

x1 1.000 -.219 .660 .723 .440 .082 .561 .452 .784

x2 -.2191.000.264-.164-.150-.184-.568-.158.073

x3 .660.2641.000.746.580.256.074.595.908

x4 .723-.164.7461.000.888.158.340.897.898

x5 .440-.150.580.8881.000.188.218.999.674

x6 .082-.184.256.158.1881.000.182.204.140

x7 .561 -.568 .074 .340 .218 .182 1.000 .226 .249

x8 .452-.158.595.897.999.204.2261.000.689

x9 .784.073.908.898.674.140.249.6891.000

总方差分解表(Total Variance Explained)

Initial Eigenvalues

Extraction Sums of Squared Loadings Total 4.8601.6981.009

% of Variance

54.000

18.868 11.211

Cumulative %

54.000

72.86884.080

Component 1 2 3 4 5 6 7 8 9

Total 4.860 1.698 1.009 .922 .317 .110 .071 .012 .000

% of Variance

54.000

18.86811.21110.2503.5221.217.791.138.003

Cumulative %

54.000

72.86884.08094.33097.85199.06899.85999.997100.000

Extraction Method: Principal Component Analysis.

(1)首先将流域盆地要素数据表中的原始数据,作标准化处理,计算得相关系数矩阵(见相关系数矩阵表)。

(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见总方差分解表)。由总方差分解表可知,第一,第二,第三主成分的累计贡献率已高达84.08%,故只需求出第一,第二,第三主成分z1,z2,z3即可。

主成分载荷矩阵

多元统计分析实例

多元统计分析实例

从主成分载荷矩阵可以看出,第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,这是由于这六个地理要素与流域盆地的规模有关,因此第一主成分可以被认为是流域盆地规模的代表:第二主成分z2与x2有较大的正相关,与x7有较大的负相关,而这两个地理要素是与流域切割程度有关的,因此第二主成分可以被认为是流域侵蚀状况的代表;第三主成分z3与x6有较大的正相关,而地理要素x6是流域比较独立的特性——河系形态的表征,因此,第三主成成可以被认为是代表河系形态的主成分。

以上分析结果表明,根据主成分载荷,该区域地貌-水文系统的九项地理要素可以被归为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。如果选取其中相关系数绝对值最大者作为代表,则流域面积,流域盆地出口的海拔高度和分叉率可作为这三类地理要素的代表,利用这三个要素代替原来九个要素进行区域地貌-水文系统分析,可以使问题大大地简化。可见,可以利用主成分分析把多要素地理系统简化为1~3个主成分上的分类,它的效果是很好的。

第一次多元统计作业

回归分析

一、设河流的一个断面的年径流量为y,该断面上的上游流域的年平均降水量为x1,年平均

饱和差为x2,现共有14年的观测记录:

时间(a)x1 x2 y 时间(a)x1 x2 y 1 720 1.80 290 8 579 2.22 151 2 553 2.67 135 9 515 2.41 131 3 575 1.75 234 10 576 3.03 106 4 548 2.07 182 11 547 1.83 200 5 572 2.49 145 12 568 1.90 224 6 453 3.59 69 13 720 1.98 271 7 540 1.88 205 14 700 2.90 130 (1) 试求关于x1,x2的二元线性回归方程;

(2) 对回归方程和每一个回归系数的显著性做检验; (3) 求出每一个回归系数的置信水平为0.95的置信区间; (4) 求出回归方程的复相关系数;

(5) 设某年x1=600,x2=2.50,求的E(y)的点估计及置信水平为0.95的置信区间. 利用SPSS软件,进行回归分析

1、在SPSS 中通过文件选项打开已经建好的*.xl数据表格。

2、选择主菜单[Analyze]=>[Regression]=>[Linear…],在Linear Regression对话框中,选择Y 进入[Dependent]因变量框,选择X1、X2 进入[Independent(s)]自变量列表框。 3.在统计的窗口中选定置信区间。单击继续返回主菜单,单击[OK]。 4、回归结果输出: Regression

y x1 x2

统计描述 (Descriptive Statistics)

Mean 176.64 583.29 2.3036

Std. Deviation

63.786

77.705 .55656

ANOVA(b)

Model Sum of Squares 1 Regression 45486.864

7406.351

Residual

52893.214

df

21113

Mean

Square 22743.432673.305

F 33.779

Sig. .000(a)

N

141414

Total

a Predictors: (Constant), x2, x1

b Dependent Variable: y

Model Summary(b)

Std. Durbin-WAdjusted Error of Change Statistics atson R R the Model R Square EstimateSquare R Square F Sig. F Change Changedf1df2 Change

1 .927(a) .860 .83525.948.86033.779211 .000 1.604a Predictors: (Constant), x2, x1

b Dependent Variable: y

系数 Coefficients(a)

Standardized 95% Confidence

Model Unstandardized CoefficientsCoefficientsInterval for B Lower Upper t Sig. B Std. Error Beta Bound Bound 1 (Constant) 25.473 343.754 184.613 72.304 2.553.027 x1 .106 .533 .320 .097.3893.301.007

x2 -114.107 -54.615-84.361 13.515-.736-6.242.000 a Dependent Variable: y

答:1. 从coefficients中,可以得出二元线性回归方程为:y=0.32x1-84.361x2+184.613

2. Coefficients(a)表已对回归方程和每一个回归系数的显著性做出了检验:

在方差分析中:F=37.779;Sig.=0.000,所以回归方程线性相关显著。

β1、β2 作t 检验。在ceofficients 在显著性水平α=0.05 条件下,对回归方程的系数β0、

p=0.027; 对β1有t=3.301,p=0.007;对β2有t= -6.242,分析结果中可知:对β0有t=2.553,

p=0.000,对回归系数的检验结果显示:p值均小于0.05.所以y对x1、x2线性关系显著。我们可以看出其结果是显著的。

3. 置信水平为0.95的置信区间, β1 (0.106,0.533), β2 (-144.107,-54.615),常数项

β0为(25.473,343.754)

4.从Model Summary(b)可知:复相关系数 R Square为0.860

5. 将x1=600,x2=2.5带入y关于x1、x2的二元线性回归方程:

y=0.32x1-84.361x2+184.613

中即可求得E(y)的点估计为165,也可以用SPSS求出。置信水平为0.95的置信区为(105,225)

第三次 多元统计作业

1. 设已有六个样品,每个样品对某项指标进行了测试,分别等于1,2,5,7,9,10.它们先各自成一类,供六类,使用类与类之间的最大距离进行聚类分析。 利用SPSS,进行最大距离法聚类,输出结果如下:

相似矩阵 (Proximity Matrix)

Matrix File Input

Case x1 x2 x3 x4 x5 x6

x1 .000 1.000 4.000 6.000 8.000 9.000

x2 1.000 .000 3.000 5.000 7.000 8.000

x3 4.0003.000.0002.0004.0005.000

x4 6.0005.0002.000.0002.0003.000

x5 8.0007.0004.0002.000.0001.000

x6 9.000 8.000 5.000 3.000 1.000 .000

Vertical Icicle

Case

Number of clusters 1 2 3 4 5

x6 x5 X X X X X X X X

X X X X

X X X X

X

x4X X X X X

X X X

x3X X X X X

X

x2X X X X X

X X X X

x1X X X X X

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

x5 5 ??????????????????????????

x6 6 ?? ????????????????????????? x3 3 ?????????????????????????? ? x4 4 ???????? ?

x1 1 ?????????????????????????????????????????????????? x2 2 ??

最大距离法聚类谱系图

x1=1,x2=2,x3=5,x4=7,x5=9,x6=10

从最大距离法聚类谱系图中可以看出,先是9和10聚为一类,1和2聚为一类,接着5,7聚为一类,再接着5,7,9,10聚为一类,最后1,2,5,7,9,10聚为一大类。

第四次 多元统计作业

四、某地区8个样品测得化探数据如下表所示,试用聚类分析方法对样品进行聚类.

样品 汞异常(x1) 重烃异常(x2) 轻烃异常(x3)

1 0.10 0.33 4.59

2 0.11 0.61 4.16

3 0.08 0.63 4.04

4 0.13 0.43 4.56

5 0.08 0.31 4.74

6 0.08 0.52 4.13

7 0.06 0.44 4.05

8 0.12 0.81 4.11

1、 解题思路:

本题我们用系统聚类法对其进行分析,在系统聚类分析中,用户事先无法确定类别数,系统将所有例数均调入内存,且可执行不同的聚类算法。系统聚类分析有两种形式,一是对研究对象本身进行分类,称为Q型聚类,常用的统计量称为“距离”;另一种是对研究对象的观察指标进行分类,称为R型聚类,常用的统计量称为“相似系数”。

本题按照Q型聚类法,根据八个样品的化探数据对其进行分类,首先将每个样品各自看成一类,然后利用系统中的最短距离法和最长距离法分别进行统计,其中统计量距离采用切比雪夫距离,即两观察单位间的距离为其任意变量的最大绝对差值

2、 分析过程:

表1和表2是用两种不同的聚类方法对样品进行聚类时,各样品合并的过程表,表1用的是最短距离法,表2用的是最长距离法。由表1可以看出,样品6和样品7首先被合并,因为它们之间的距离0.80为最小,接着与2号样品合并。第二步,1号与4号合并。第三步,3号与第一步合并的结果合并。第四步,5号样品再与第二步合并的结果合并。第五步,8号样品与第三步合并的结果合并。第六步,最后将它们合并为一个大类。表2合并的过程与表1类似。

用SPSS软件分别用最短距离法、最长距离法、类平均法,进行聚类分析,输出结果如下:

1. 最短距离法系统聚类

Chebychev Distance

Case

1 2 3 4 5 6 7 8

1

.000 .430 .550 .100 .150 .460 .540 .480

2

.430 .000 .120 .400 .580 .090 .170 .200

3 .550.120.000.520.700.110.190.180

4 .100.400.520.000.180.430.510.450

5 .150.580.700.180.000.610.690.630

6

.460 .090 .110 .430 .610 .000 .080 .290

7 .540.170.190.510.690.080.000.370

8 .480.200.180.450.630.290.370.000

Proximity Matrix

This is a dissimilarity matrix

表1: Agglomeration Schedule

Stage Cluster First

Appears

Coefficients

.080.090.100.110.150.180.400

Cluster 1

002345

Cluster 2

100006

Next Stage

2 4 5 6 7 7 0

Cluster Combined

Stage 1 2 3 4 5 6 7

Cluster 1

6

2 1 2 1 2 1

Cluster 2

7

6 4 3 5 8 2

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

6 ?? 7 ??????

2 ?? ???????????

3 ?????? ??????????????????????????????????? 8 ???????????????? ? 1 ???????????? ?

4 ???? ??????????????????????????????????????? 5 ????????????

最短距离法聚类谱系图

2.最长距离法系统聚类

Cluster Combined

Stage 1 2 3 4 5 6 7

Cluster 1

6

1 2 1 2 2 1

Cluster 2

7

4 3 5 6 8 2

表2: Agglomeration Schedule

Stage Cluster First

Appears Coefficients

.080.100.120.180.190.370.700

Cluster 1

002354

Cluster 2

000106

Next Stage

5 4 5 7 6 7 0

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 6 ??????????

7 ?? ???????????????

2 ?????????? ??????????????????????????? 3 ???? ? ?

8 ???????????????????????? ? 1 ?????????? ┃

4 ?? ????????????????????????????????????????? 5 ??????????

最长距离法聚类谱系图

3.类平均聚类法

Agglomeration Schedule

Stage Cluster First

Cluster Combined Appears Stage

1 2 3 4 5 6 7

Cluster 1

6

1 2 2 1 2 1

Cluster 2

7

4 6 3 5 8 2

Coefficients

.080.100.113.127.143.180.365

Cluster 1

003245

Cluster 2

010006

Next Stage

3 5 4 6 7 7 0

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 6 ?????? 7 ?? ?????

2 ?????? ?????????

3 ?????????? ????????????????????????????????? 8 ?????????????????? ?

1 ???????????? ?

4 ???? ???????????????????????????????????????

5 ????????????

类平均法聚类谱系图

第五次 多元统计作业

一、下表是某一地区10家企业在某时期内的销售额和利润的数据(单位:亿元):

企业序号

1

2 3 4 5 6 7 8 9 10

销售额 126 974 96 933 96 656 63 438 55 264 50 976 39 069 36 156 35 209 32 146

利润 4 224 3 835 3 510 3 758 3 939 1 809 2 946 359 2 480 2 413

(1)求的x1 、x2的样本主成分y1和y2及主成分的样本方差,计算各样本主成分的贡献率.

(2)求第一样本主成分y1的观测值并予以排序,它是否基本上反映了原数据的特性?

利用SPSS,进行主成分分析,输出结果如下:

x1 x2

描述统计 Descriptive Statistics

Mean 63282.10 2927.30

Std. Deviation

32656.917

1195.834

Analysis N

10

10

相关系数矩阵 Correlation Matrix

Correlation

Sig. (1-tailed)

x1

x1 x2 x1 x2

1.000.672

.017

x2

.6721.000.017

共同性 Communalities

x1

Initial 1.000

Extraction

.836

1.000 .836

Extraction Method: Principal Component Analysis. x2

总方差分解表 Total Variance Explained

Initial Eigenvalues

Component

1

2 Total 1.672 % of Variance83.594Cumulative %83.594100.000Extraction Sums of Squared Loadings Total 1.672 % of Variance 83.594 Cumulative %83.594.328 16.406

Extraction Method: Principal Component Analysis.

1. x1 、x2的样本主成分为y1和y2 ,其中y1样本主成分y1的贡献率为83.594%,

y2的贡献率为16.406%

2. 通过对y1的观测值进行分析,其基本上反映了原数据的特性.

二、设总体X=(x1,x2)T的协方差矩阵为

?52?=∑?22? 求X的主成分y1和y2并计算第一主成分y1的贡献率。 ??

解:从协方差矩阵∑出发求主成分,得特征值和相应的正交单位化特征向量为: λ1=6,e1=(0.447,0.8945) T

λ2=1,e2=(?0.8945,0.447) 因此X的两个主成分分别是:

Y1=e1TX=0.447X1+0.895X2

TTY2=e2X=?0.895X1+0.447X2

6第一主成分y1的贡献率为:=85.7% 1+6

相关推荐