统计学原理知识总结
统计学知识总结
通过课上学习总结如下:
统计学是一门关于随机现象总体的数据资料进行收集、整理和分析的方法论科学。统计学的研究对象是对于客观存在的现象,只要能够按照特定性质加以归类,并能用总体性的数字来加以表现的现象
统计的基本方法:大量观察法、综合分析法、归纳推断法。
统计是一种具有特定目的、特定程序和一定组织形式的总体计数活动。
统计的涵义包括三个方面内容:1统计工作2统计资料3统计学
统计工作是对客观事物总体数量方面进行计量、核算和分析的活动及过程
统计资料是统计工作的成果,表现为对客观事物总体数量方面加以反映和说明的各种数据
统计学是对统计工作及其成果的理论概括和总结
统计的根本职能是①收集②整理③提供信息
统计信息具有数量性和总体性两个重要特征,
统计方法和实验方法是科学研究的主要方法
统计方法有如下应用:①搜集数据,对所研究对象的总体事实做出数量上的叙述说明
②对获得的总体事实进行时间、空间和属性等的比较③探索总体事实的内在数量规律性
统计任务的确定、统计设计、统计调查、统计整理、统计资料分析、统计资料提供与管理
统计常用的三种指标:1总量指标2平均指标3相对指标
统计指标进行对比分析方法包括1动态趋势分析法2因素影响分析法3相关分析法
统计数据分为①个体数据②总体数据 统计调查有普查、重点调查、抽样调查等形式
计量尺度分为四种类型:1定类尺度2定序尺度3定距尺度4定比尺度
统计总体和总体单位①统计总体简称总体,是客观存在的、具有一个或若干个相同性质的许多个体所形成的整体②总体单位简称单位,是构成统计总体的每一个体(或个别事物)
统计标志和统计指标①统计标志是说明总体单位所具有的属性或特征的名称②统计指标说明统计总体综合数量特征的名称。其都用数值来表现
品质标志是说明总体单位属性的名称,数量标志是说明总体单位特征的名称,
统计指标按所反映总体的数量状况不同分为数量指标、质量指标
数量指标是说明所研究特征的规模、水平的绝对量指标,
质量指标是反映所研究总体某一方面相对水平、工作质量的相对量和平均量指标,
变量分为连续变量、离散变量。确定性变量、随机变量、定类变量、定序变量、定距变量、定比变量
连续变量的两个取值之间可作无限分割,可整数可小数点
离散变量两个取值之间不能做无限分割,为整数
搜集是统计工作的基础
统计调查的方式方式一般有抽样调查、普查、统计报表、重点调查、典型调查等
统计资料的三个基本性质:数量性、总体性、客观性
统计分组的类型一般有两种:品质分组、数量分组
品质分组是指按照事物的某种客观属性进行分组,或是对定类尺度和定序尺度的数据进行分组
数量分组是指按照事物的某一种数量特征来划分组间界限,或是对定距尺度和定比尺度的数据进行分组,
组距=上限-下限
组中值=(下限+上限)/2
开口组,组中值的计算方法:
首组(数值最小的一组)组中值=本组上限-1/2邻组组距
末组(数值最大的一组)组中值=本组下限-1/2邻组组距
累计次数分布
在分组的基础上列出累计次数数值,为了统计分析之需要,有时要观察某一数值以上或某一数值以下的次数之和
数值由小向大的方向累计,称为“向上累积”
数值由大向小的方向累计,称为“向下累积”
分组变量的类型
数据是连续变量还是离散变量,来选择组限的标示方法
常见的分布曲线有三种类型:①钟型曲线②J型曲线③U型曲线
可把统计指标分为三类:绝对指标、相对指标、平均指标
绝对指标(总量指标)是反映社会、经济现象整体规模和水平的指标一般都以绝对数形式表示。绝对指标按时间特征分为时点指标、时期指标
时点指标反映现象某一时刻的状态
时期指标反映现象在某一段时期的某一范围内的变化总量
相对指标是说明一个数值与另一个数值之间相对比所形成的数量关系,其基本计算方法是两个绝对指标之比。计算相对指标的方法:结构相对指标、比较相对指标、强度相对指标、动态相对指标
极差也称全距,是数列中最大值与最小值之差。
相对指标:两个有联系的指标数值对比的结果。
① 结构相对指标=总体中某一部分指标数值
全部总体指标数值
② 比例相对指标=总体中某一部分指标数值
总体中令部分指标数值
③ 比较相对指标= 某一总体指标数值
另一同类总体指标数值
④ 动态相对指标= 报告期指标数值
基期指标数值
⑤ 强度相对指标= 某一指标数值
另一有联系同时间指标数值
⑥ 计划完成相对指标= 实际完成数
计划完成数
平均相对指标 种类反应时间不同分①静态平均指标②动态相对指标
按平均指标计算方法不同①数值平均数a算术平均数b调和平均数c几何平均数②位置平均数a众数是在一个数据集合中出现次数最多的数。
Mo=L+(△1/△1+△2)*d
L表示众数所在组(即次数最高的组)的下组限,
△1表示众数组次数与上一组(变量值比众数组小的一组)次数之差,
△2表示众数组次数与下一组(变量值比众数组大的一组)次数之差,
△是希腊字母delta的大写,读作德尔塔,d表示众数组的组距
b中位数是已经过排列的数列中位置居中的数值。
Me= L+{(Σf/2-Sm-1)/fm}*d
Me表示中位数,
Σf/2表示中位数所在的位置
Σ表示连加关系,Σ是希腊字母sigma的大写,读作西格玛。
L表示中位数所在组的下组限
Sm-1表示中位数所在组以下(数据较小的)各组的累计次数
fm表示中位数所在组的次数
d表示中位数所在组的组距
算术平均数又称均值.是集中趋势最主要的测度值。
算术平均数=总体标志总量总体单位总量
加权算术平均数
调和平均数
几何平均数
一、两组或多组计量资料的比较
1.两组资料:
1)大样本资料或服从正态分布的小样本资料
(1)若方差齐性,则作成组t检验
(2)若方差不齐,则作t’检验或用成组的Wilcoxon秩和检验
2)小样本偏态分布资料,则用成组的Wilcoxon秩和检验
2.多组资料:
1)若大样本资料或服从正态分布,并且方差齐性,则作完全随机的方差分析。如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:LSD检验,Bonferroni检验等)进行两两比较。
2)如果小样本的偏态分布资料或方差不齐,则作Kruskal Wallis的统计检验。如果Kruskal Wallis的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用成组的Wilcoxon秩和检验,但用Bonferroni方法校正P值等)进行两两比较。
二、分类资料的统计分析
1.单样本资料与总体比较
1)二分类资料:
(1)小样本时:用二项分布进行确切概率法检验;
(2)大样本时:用U检验。
2)多分类资料:用Pearson c2检验(又称拟合优度检验)。
2. 四格表资料
1)n>40并且所以理论数大于5,则用Pearson c2
2)n>40并且所以理论数大于1并且至少存在一个理论数<5,则用校正c2或用Fisher’s 确切概率法检验
3)n£40或存在理论数<1,则用Fisher’s 检验
3. 2×C表资料的统计分析
1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则行评分的CMH c2或成组的Wilcoxon秩和检验
2)列变量为效应指标并且为二分类,列变量为有序多分类变量,则用趋势c2检验
3)行变量和列变量均为无序分类变量
(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2
(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验
4. R×C表资料的统计分析
1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMH c2或Kruskal Wallis的秩和检验
2)列变量为效应指标,并且为无序多分类变量,行变量为有序多分类变量,作none zero correlation analysis的CMH c2
3)列变量和行变量均为有序多分类变量,可以作Spearman相关分析
4)列变量和行变量均为无序多分类变量,
(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2
(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验
三、Poisson分布资料
1.单样本资料与总体比较:
1)观察值较小时:用确切概率法进行检验。
2)观察值较大时:用正态近似的U检验。
2.两个样本比较:用正态近似的U检验。
配对设计或随机区组设计四、两组或多组计量资料的比较
1.两组资料:
1)大样本资料或配对差值服从正态分布的小样本资料,作配对t检验
2)小样本并且差值呈偏态分布资料,则用Wilcoxon的符号配对秩检验
2.多组资料:
1)若大样本资料或残差服从正态分布,并且方差齐性,则作随机区组的方差分析。如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:LSD检验,Bonferroni检验等)进行两两比较。
2)如果小样本时,差值呈偏态分布资料或方差不齐,则作Fredman的统计检验。如果Fredman的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用Wilcoxon的符号配对秩检验,但用Bonferroni方法校正P值等)进行两两比较。
五、分类资料的统计分析
1.四格表资料
1)b+c>40,则用McNemar配对c2检验或配对边际c2检验
2)b+c£40,则用二项分布确切概率法检验
2.C×C表资料:
1)配对比较:用McNemar配对c2检验或配对边际c2检验
2)一致性问题(Agreement):用Kap检验
变量之间的关联性分析六、两个变量之间的关联性分析
1.两个变量均为连续型变量
1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析
2)大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析
2.两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析
3.一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进行统计分析
七、回归分析
1.直线回归:如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),否则应作适当的变换,使其满足上述条件。
2.多重线性回归:应变量(Y)为连续型变量(即计量资料),自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。
1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
3.二分类的Logistic回归:应变量为二分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)非配对的情况:用非条件Logistic回归
(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
2)配对的情况:用条件Logistic回归
(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
4.有序多分类有序的Logistic回归:应变量为有序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
5.无序多分类有序的Logistic回归:应变量为无序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
统计学(Statistics):应variable):变量的观察般用希腊字母表示。用统计学的原理与方法,或检测结果,也叫变量的统计…
1、同一资料的标准差是否一定小于均数?答:均数是描述定量资料集中趋势的指标,而标准差是描述定量资料离散程度的指标,二者反映的是资料…
Chapter基本概念显著性检验(testofsignificance):计算P值医学统计工作的内容:1、实验设计:最关键最重要2…
一、两组或多组计量资料的比较1.两组资料:1)大样本资料或服从正态分布的小样本资料(1)若方差齐性,则作成组t检验(2)若方差不齐…
俄第一章2选1总体:总体(population)是根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一变量值的集合。可分…
生物统计学学习心得这学期要结束了,在老师的指导下,经过一学期对生物统计学的学习,我对生物统计学有了进一步的理解。下面是我学习这门课…
第一章1、统计学是一门具有很强的实践性与应用性的方法论学科.一般主要包括四大部分:1)描述统计,包括统计数据的收集、整理、展示和描…
一、两组或多组计量资料的比较1.两组资料:1)大样本资料或服从正态分布的小样本资料(1)若方差齐性,则作成组t检验(2)若方差不齐…
俄第一章2选1总体:总体(population)是根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一变量值的集合。可分…
一、两组或多组计量资料的比较1.两组资料:1)大样本资料或服从正态分布的小样本资料(1)若方差齐性,则作成组t检验(2)若方差不齐…
一、时态小结凡是在must,mustn’t,can,can’t,let’s,don’t,may,will后的一定要用动词的原形二、…