统计学学习心得

1.什么是统计学?怎样理解统计学与统计数据的关系?

答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。

3.简要说明统计数据的来源

答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。

5.简要说明抽样误差和非抽样误差

答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。

1.描述次数分配表的编制过程

答:分二个步骤:

(1)   按照统计研究的目的,将数据按分组标志进行分组。

按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。

按数量标志进行分组,可分为单项式分组与组距式分组

单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。

统计分组应遵循“不重不漏”原则

将数据分配到各个组,统计各组的次数,编制次数分配表。

4.一组数据的分布特征可以从哪几个方面进行测度?

答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。

7.简述众数、中位数和均值的特点和应用场合。

答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。众数容易计算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响。

10.为什么要计算离散系数?

答:在比较二组数据的差异程度时,由于方差和标准差受变量值水平和计量单位的影响不能直接比较,由此需计算离散系数作为比较的指标。

  以反映一组数据分布的特征,还可以进行多组数据特征的比较。

1.总体分布指某个变量在总体中各个个体上的取值所形成的分布,它是未知的,是统计推断的对象。从总体中随机抽取容量为n的样本,它的分布称为样本分布。由样本的某个函数所形成的统计量,它的分布称为抽样分布(如样本均值、样本方差的分布)

2.重复抽样和不重复抽样下,样本均值的标准差分别为:

 

因此不重复抽样下的标准差小于重复抽样下的标准差,两者相差一个调整系数

3.解释中心极限定理的含义

答:在抽样推断中,中心极限定理指出,不论总体服从何种分布,只要其数学期望和方差存在,对总体进行重复抽样时,当样本容量充分大,样本均值趋近于正态分布。中心极限定理为均值的抽样推断奠定了理论基础。

简述评价估计量好坏的标准

答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。设总体参数的估计量有,如果,称是无偏估计量;如果是无偏估计量,且小于,则更有效;如果当样本容量,则是相合估计量。

2.说明区间估计的基本原理

答:总体参数的区间估计是在一定的置信水平下,根据样本统计量的抽样分布计算出用样本统计量加减抽样误差表示的估计区间,使该区间包含总体参数的概率为置信水平。置信水平反映估计的可信度,而区间的长度反映估计的精确度。

3.解释置信水平为95%的置信区间的含义

答:总体参数是固定的,未知的,置信区间是一个随机区间。置信水平为95%的置信区间的含义是指,在相同条件下多次抽样下,在所有构造的置信区间里大约有95%包含总体参数的真值。

4.简述样本容量与置信水平、总体方差、允许误差的关系

答:以估计总体均值时样本容量的确定公式为例:

样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。

1.理解原假设与备择假设的含义,并归纳常见的几种建立原假设与备择假设的原则.

答:原假设通常是研究者想收集证据予以反对的假设;而备择假设通常是研究者想收集证据予以支持的假设。建立两个假设的原则有:

(1)原假设和备择假设是一个完备事件组。(2)一般先确定备择假设。再确定原假设。(3)等号“=”总是放在原假设上。(4)假设的确定带有一定的主观色彩。(5)假设检验的目的主要是收集证据来拒绝原假设。

2.第一类错误和第二类错误分别是指什么?它们发生的概率大小之间存在怎样的关系?

答:第I类错误指,当原假设为真时,作出拒绝原假设所犯的错误,其概率为。第II类错误指当原假设为假时,作出接受原假设所犯的错误,其概率为。在其他条件不变时,增大,减小;增大,减小。

4.什么是p值?p值检验和统计量检验有什么不同?

答:p值是当原假设为真时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率。P值常常作为观察到的数据与原假设不一致程度的度量。统计量检验采用事先确定显著性水平,来控制犯第一类错误的上限,p值可以有效地补充提供地关于检验可靠性的有限信息。值检验的优点在于,它提供了更多的信息,让人们可以选择一定的水平来评估结果是否具有统计上的显著性。

5.什么是统计上的显著性?

答:一项检验在统计上是显著的(拒绝原假设),是指这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的。显著性的意义在于“非偶然的”.

相关分析与回归分析的区别与联系是什么?

答:相关与回归分析是研究变量之间不确定性统计关系的重要方法,相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度。回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。但它们在研究目的和对变量的处理上有明显区别。它们均是统计方法,不能揭示现象之间的本质关系。

3.什么是总体回归函数和样本回归函数?它们之间的区别是什么?

答:以简单线性回归模型为例,总体回归函数是总体因变量的条件期望表现为自变量的函数:,或。总体回归函数是确定的和未知的,是回归分析所估计的对象。样本回归函数是根据样本数据所估计出的因变量与自变量之间的函数关系:。回归分析的目的是用样本回归函数来估计总体回归函数。它们的区别在于,总体回归函数是未知但是确定的,而样本回归函数是随样本波动而变化;总体回归函数的参数是确定的,而样本回归函数的系数是随机变量;总体回归函数中的误差项不可观察的,而样本回归函数中的残差项是可以观察的。

4. 什么是随机误差项和残差?它们之间的区别是什么?

答:随机误差项表示自变量之外其他变量的对因变量产生的影响,是不可观察的,通常要对其给出一定的假设。残差项指因变量实际观察值与样本回归函数计算的估计值之间的偏差,是可以观测的。它们的区别在于,反映的含义是不同且可观察性也不同,它们的联系可有下式:

5.为什么在对参数进行最小二乘估计时,要对模型提出一些基本的假定?

答:最小二乘法只是寻找估计量的一种方法,其寻找到的估计量是否具有良好的性质则依赖模型的一些基本的假定。只有在一系列的经典假定下,最小二乘估计量才是BLUE。

15. .为什么在多元回归中要对可决系数进行修正?

答:在样本容量一定下,随着模型中自变量个数的增加,可决系数会随之增加,模型的拟合程度上升,但自由度会损失,从而降低推断的精度,因此需要用自由度来修正可决系数,用修正的可决系数来判断增加自变量的合适性。

16.在多元线性回归中,对参数作了t检验后为什么还要作方差分析和F检验?

答:t检验仅是对单个系数的显著性进行检验,由于自变量之间存在着较为复杂的关系,因此有必要对回归系数进行整体检验,方差分析和F检验就是对回归方程的整体统计显著性进行的检验方法。

 

第二篇:高级生物统计学学习心得

高级生物统计学课程学习总结

摘要:经过一学期对生物统计学的学习,我对生物统计学有了进一步的理解。本文主要讲述了本学期学习生物统计之后,我对生物统计学的收获和体会。

关键词:生物统计学  收获  体会 

学习了黄老师讲授的《高级生物统计学》这门课程,我觉得自己又收获了不少。经过一学期对生物统计学的学习,我对生物统计学有了进一步的理解。虽说我的专业是课程与教学论,对生物统计学知识的运用较少,但我深信,于我自身,它将起到不可估量的作用。下面主要谈谈我对这门课程的理解与感悟。 

1.对生物统计学的认识

1.1生物统计学的概念

生物统计学是一门以概率理论为基础的,实际应用性非常强的综合性的学科。它运用概率论与数理统计的原理和方法处理生物学中的各种数量资料,从而透过现象揭示生物学本质的一门科学,是科学研究与实践应用的基础工具。它是研究如何搜集、整理、分析反映整体信息的数字资料,并以此为依据,推断总体特征,然后用生物学的语言加以描述的工具。

从生物统计学的概念我们不难看出,生物统计是要我们根据部分所反映出来的性质,推断总体的性质,在推断的过程中,不可避免的会有一定的出错概率,我们只是选择不同的分析方法将这一概率降到最低。它不仅为我们提供了设计试验,获取资料的方法,还提供了整理资料,最后得出科学结论的方法。因此,学好生物统计对我们以后设计试验,分析试验数据,得出科学而精简的结论有很大帮助。

1.2生物统计学的重要性

统计学在生物学中的应用已有长远的历史,许多统计的理论与方法也是自生物上的应用发展而来,而且生物统计是一个极重要的跨生命科学各研究领域的平台。

随着基因组学、蛋白质组学与生物信息学的蓬勃发展,使得生物统计在这些突破性生物科技领域上扮演着不可或缺的角色。,生物统计学在这些领域被广泛应用,并显得日益重要。生物统计学是生物领域学生应具备的基本知识和素质,与生命活动有关的各种现象中普遍存在着随机现象,大到整个生态系统,小到核苷酸序列,均受到许多随机因素的影响,表现为各种各样的随机现象,而生物统计学正是从数量方面揭示大量随机现象中存在的必然规律的学科。因此,生物统计学是一门在实践中应用十分广泛的工具学科,它是生物科学各专业的专业基础课,对后续生命科学课程学习和生物科研有重要作用。同时,作为一门综合课程,生物统计学既有理论又有实践,既讲方法又讲究动手能力。不论是传统学科还是现代分子生物学,时时刻刻都在与数字打交道,为了揭示生物体内在规律或生物与环境之间的关系,都将用到生物统计学知识。可以说,生物统计学是现代生物学研究不可缺少的工具,它已经成为每一位生物科学工作者的必备基础。

2. 生物统计学的主要内容

生物统计学课程系统地介绍了生物统计学的基本原理和方法,在简要叙述生物统计学的概念、产生、发展和作用、生物学研究中试验资料的整理、特征数的计算、概率和概率分布、抽样分布基础上,着重介绍了平均数和频率的假设检验、 X2  检验、方差分析、直线回归与相关分析、可直线化的非线性回归分析、协方差分析、试验设计的原理和常用试验设计及其统计分析、多元回归与相关分析和多项式回归分析,同时简要介绍聚类分析、判别分析、主成分分析、因子分析、典型相关、时间序列分析等多元分析。

生物统计学包括试验设计和统计方法两个有机联系的组成部分。通过试验设计的教学可提高我们设计研究课题试验方案的能力,使之明确课题的研究目的、试验因素与水平以及试验设计方法等方面的内容。通过统计方法除了让我们弄清各种统计方法的内涵外,还需要使我们能够正确地选择最适合的统计方法,以揭示资料潜在的信息,达到研究的最终目的,从而提高科学研究素质。主要内容如下:

教材框架集重点知识如下表。

教材框架集重点知识

3.习得的主要知识

3.1生物统计学的基础知识

(1)生物统计的特点、基本概念;

(2)各类资料的整理方法;

(3) 反映资料集中性和离中性的三个基本统计量——平均数、标准差和变异系数的概念、性质及计算;

(4)概率的定义和小概率事件实际不可能性原理;

(5) 正态分布、二项分布及泊松分布的特点及概率计算;

(6) 样本平均数的抽样分布和 t 分布。

3.2统计分析方法

 统计分析最重要的内容是差异显著性检验,我主要熟练掌握了以下几种基本的生物统计方法:

(1) u 检验和 t 检验:主要用于检验样本平均数(百分数、频数)与总体平均数(百分数、频数)或者两个处理平均数(百分数、频数)差异是否显著;

(2) 方差分析:主要用于检验多个处理平均数间差异是否显著;

(3) X2检验:主 要用于由质量性状得来的次数资料的显著性检验;

  以上三种显著性检验的方法讨论的参数检验都要求总体服从一定的分布。

(4) 非参数检验法:当样本观测值的总体分布类型未知或知之甚少,无法肯定其性质,特别是观测值明显偏离正态分布,不具备参数检验的应用条件时应使用非参数检验法,包括符号检验、秩和检验和等级相关分析;

(5) 直线回归与相关分析:统计分析的另一个重要内容是对试验指标的关系进行研究,或者研究它们之间的联系性质和程度,或者寻求它们之间的联系形式,即进行相关分析与回归分析。

3.3 试验设计方法

(1) 了解试验设计的基本概念、任务、特点与要求,掌握试验设计基本原则;

(2) 掌握完全随机试验设计、裂区试验设计、拉丁方试验设计的概念、方法、特点及结果的统计分析;

(3) 了解正交设计的原理与方法。

总之,生物统计学是一门思维很强的学科,这就需要我们课前做好预习的准备。因此,一定程度上的自主学习是十分必要的。仅仅一个学期的时间对于我们来说,学会这一逻辑性强,应用性强的课程实在很难,在以后的试验中做到灵活运用更难。因此,我们要更加重视这一学科,在以后的工作和学习中多思考,多实践,将我们习得的生物统计学知识运用到生活实践中去。

相关推荐