读《女士品茶》的感悟

社会科学与生活的对撞 ----读《女士品茶》有感

姓 名:

班 级:

课 程:

任课老师:

曾经读过几本关于经济学的著作,都不那种纯理论性的高不可攀的读物,反而用的都是一些通俗易懂的生活故事,对于这类书籍,我尤其喜欢,其中让我最回味无穷的就是:《怪诞行为学》。它的作者是丹·艾瑞里,丹·艾瑞里是美国麻省理工学院传媒实验室艾尔弗雷德·P·斯隆基金会和斯隆管理学院行为经济学教授、波士顿联邦储备银行研究员、普林斯顿高等研究中心研究员。《怪诞行为学》这本著作是他在在麻省理工学院期间写的。在网络上下载了PDF 版本的,越看越喜欢,最后还是花钱到当当网上买了纸质的书看,反复看了好几遍。 作为一个学习金融专业的在校本科生,在我们所有学习过的专业课程中,任何分析问题的时候,任何模型都是假设“人是理性的。在面对任何经济问题,人们总是在经过深思熟虑之后,做出认为对自己利益最大化的理性判断。”而《怪诞行为学》却真是与这个亘古不变的假设大相径庭,丹·艾瑞里大胆的认为,在经济生活中,当面对一个问题时,很多时候人其实并不是理性的,而是会受到心理、行为等方面的影响,做出一些不符合那些我们说熟知的经济学原理的事情。在讲述这些大胆的推测的时候,丹·艾瑞里更是别开生面的运用着日常生活中鲜活的例子,这些例子,在我们自己的日常生活中其实都是随处可见的。由于我所阅读的并不是丹·艾瑞里的英文版本原著,而是中译本,但我仍旧认为译 - 1 -

者的文字运用能力非常出色,语言鲜活有感染力。对于全书的阅读,确实很大的开拓了我的眼界,极大的打开了我的思维,让我在今后看待一件事情的时候拥有了更加开放的思维方式及角度。 也真是因为丹·艾瑞里的《怪诞行为学》,我更加的期待阅读《女士品茶》。任课老师杨老师,推荐并要求写本书的读后感,而且言辞之间更是对这本书赞赏有加。在阅读这本书之前,我特地在豆瓣读书上搜索了豆瓣书友们对于这本书的评价,虽然有不少书友吐槽本书的中译本翻译能力不佳,没有完全彰显其英文原著独特的语言魅力,但依旧是好评如潮。

在《女士品茶》全书中,作者意图以非数学的语言,描述出统计革命带来的基本哲学观念层面上的重大转变,并超越一般的观念介绍的层面,具体地展示给读者某些精彩统计研究工作是如何进行的。对于不是统计专业的在校本科生的我,一本如此卓越的统计学入门佳作不论是对我的统计学课程的相关学习还是拓展思考社会经济问题的方式都是极大的帮助。

于是我带着无比期待的心情开始了《女士品茶》的阅读。 对于本书的感想,我计划将从两方面来阐述:其一:社会科学和社会生活的完美结合; 其二:统计学基本知识的完美诠释。

- 2 -

一、社会科学和社会生活的完美结合

诚然我只是一些乳臭未干,毫无学术气息的蹩脚本科在校生,断然将来也不可能成为改变社会风云的大人物,但我依旧坚持信奉着:“科学源于生活,且科学的研究是为了造福人类。”

而《女士品茶》全书正是切合了这个我所一直信奉着的。全书从一个女士倒茶的故事开始:20世纪20年代的一个夏日的午后,一群绅士和他们的妇人们围坐在一起喝茶。在品茶的过程中,一位妇人坚定的相信:把茶加进奶里和把奶加进茶里,不同的做法,会使茶的味道品起来不一样。众人为了检测这个断论,随即做起了实验,令他人用不同的方式冲制两杯茶,要这个女士品茶,并辨别出来。

全文就是以这样一个故事开始的,在品茶的这个实验中,所有其他的变量保持不变,奶的浓度,茶的浓度,混合后液体的体积等等因素都是恒定的,唯一的变量就是冲调的顺序。而我觉得真正要研究的其实是这种看似微小的变化对整个总体所产生的作用,品茶的女士,正是要去区别出这种变化,而不是表面上看起来只是去分辨两杯茶而已。

当然,还有本书的第十八章,让我记忆犹新。

这个章节是由关于“吸烟是否会致癌?”这个问题的争论展开的。 “1958 年,费歇尔特地去编写了一个小册子《吸烟:关于癌症的争议及对有关证据的评论》(Smoking: the - 3 -

Cancer Controversy. Some Attempts to Assess the Evidence),去论证: “吸烟会致癌”是不成立的。特别有意思的,在这几篇论文中,费歇尔常常会附上自己的照片,照片中的他常常是叼着一只烟斗,看起来,是要用自己的实际行动来捍卫自己的坚持。与此同时,1959 年,杰尔姆·科恩菲尔德与 5 位来自国家癌症研究所(the National Cancer Institute,NCI)、美国癌症学会(the American Cancer Society)和斯隆-凯特林研究所(the Sloan-Kettering Institute)的顶尖癌症专家一道,对所有已公开发表的研究作了一个回顾,撰写了一篇 30 页的论文。他们审查了费歇尔以及和他持有相同意见的学者的著作,提出的反对意见,同时也探讨了烟草研究所(the Tobacco Institute,代表烟草公司的利益)的反对意见。他们由这场争论引申出一些更细致的推论,并且指出,有关证据压倒性地支持“吸烟是人类肺部表皮癌发生率迅速上升的原因之一”的结论。

于是一场“战争”就这么开始了。

为了论证己方观点的正确性,杰尔姆·科恩菲尔德还特

地实施了一个“追溯性研究”(retrospective studies)的实验,在 斯堪的纳维亚、美国、加拿大、法国和日本,5个国家分别选取了一批癌症患者作为实验组,以及一批非癌症患者作为对照组开展研究,在这5个国家中杰尔姆·科恩菲 - 4 -

尔德都得到了相同的结果,即:肺癌患者中的吸烟人数几乎是非肺癌患者中吸烟人数的 10 倍。

不同于杰尔姆·科恩菲尔,费歇尔的论证方式则不同,他采用了 归纳推论(inductive inference)法,并提供了坚实的逻辑与数理基础。他的觉得,某些人吸烟而其他人却不吸,假定这是某种遗传基因的缘故,并且进一步假定,正是这种相同的基因结构导致了肺癌的产生。众所周知,多数的肺癌患者都具有家族性的特征。他因此提出,吸烟与肺癌之所以存在联系,大概是因为二者都由同一种因素所引起,即相同的基因结构。为了证明自己的推测,他收集了许多双胞胎的数据,结果表明,这些双胞胎要么两人都吸烟,要么都不吸,有着很强的家族性倾向。于是,他向其他人提出了挑战,要他们证明肺癌并非受相似的遗传基因所影响。

当然,对于全文,还有很多别致、鲜活的事例,我只是选取了其中我所钟爱的而已。正如我所崇尚的一样,任何的社会科学都是和日常的社会生活紧密、完美的结合的。每一个生活中的问题,如若真的想要去探明它的究竟,都是可以运用社会科学的工具,经过严密的逻辑,在所建立的数理的基础上科学的去阐述其中千丝万缕的联系。这正是《女士品茶》带给我的一场社会科学和社会生活紧密结合的科学奇幻之旅。

- 5 -

二、统计学基本知识的完美诠释

既然是一本统计学学科的入门级的读物,自然不能缺少对统计学基本概念的阐述,其对平均数、标准差、估计值、概率、随机、钟型曲线、置信、大数定律、中心极限定理、正态概率分布随机变量等等一系列的概念和术语,自然是信手而来。但是不同于其他书籍那样,对于学术概念仅仅是下定义的生硬描述。而是辅以精妙的故事和例子,在这些统计学基本概念和术语的背后,是一个个统计大师鲜活的形象、是一段段他们探索创新,历尽坎坷的人生故事。

对于其中的精妙的阐述,我依旧是选取了一个让我影响特别深刻的地方---抽样统计。

杨老师在授课的过程中,总会不断的提及统计在现实生活中的运用,其中特别会强调运用统计方法时的成本控制。 毫无疑问,在任何时候,经济生活中的我们在允许的条件下,必然会追求成本的最小化。那么,此时,抽样统计当然是势在必行了。

书中第 17 章“当部分优于总体时”提到:1937 年,美国政府想得到有关失业率的准确数据,要在全国进行随机调查,同时国会授权在 1937 年进行失业普查。那时,全国失业人口数估计在 300 万到 1500 万之间,依据对整个调查所作的规划设计,普查局从邮递线路中随机选取 2% ,然而,即使按2% 的比例抽样,普查局也被这样大量的调查问 - 6 -

卷难住了:没有人知道该如何来处理这么大量的详细信息。那时根本没有电脑来帮助运算。当然,即便有电脑,这也绝对不是一个轻松的工作。正当大家为巨大的工作量手足无措的时候,耶日·奈曼指出,“我们不必知道或去探讨所有的细节,也不必弄清具体的关系如何,只需为最重要的问题找到答案就行了。”采纳了奈曼的建议,他们抛弃了问卷中复杂而令人困惑的细节,只计算失业的人数。并且普查局作了一系列细致的分析,证实这种随机小样本调查的结论比起以前所用的判断样本要精确得多。

从这个事例,作者引出了抽样调查的概念:抽样调查是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的一种调查方法。

《女士品茶》通过社会生活的鲜活事例,对统计学知识进行了绝佳的诠释,让我不仅能很好的理解的抽样调查实施过程,而且一目了然的了解了抽样调查相比于全面调查的优势:调查成本低、时效性强、适应面广。

在深刻的了解抽样调查之后,我真的免不了为要面对13亿人口的全国人口普查捏一把汗。

接下来就前面做一个简单总结吧。

虽然起初的读这本书的动因是为了完成读后感的课后作业,但是全书的阅读下来我还是收获颇丰的:领略了大师 - 7 -

们的睿智珍言和生平境遇。当然,还有如前文所谈到的一样,社会科学,就是和社会生活的完美结合。书中用科学的理论对生活事件的阐述尤其使我兴致盎然,对我思考问题的方式,方法都有着极大的积极影响。

如果还有机会,一定会再读这本书。

- 8 -

 

第二篇:研读女士品茶 陈添之

研读《女士品茶 》的感悟

陈添之 国贸123班 0121017

从开学到现在我读了不少书但像《女士品茶》这么特别的还是头一本。接触它的缘由是统计学老师的一次作业,作业虽多,1万字的读后感对于久不动笔的我来说是一次不小的考验,但事实证明这的确的一次意外的收获。

初读这本书,我并没有表现出太大的兴趣,这是一个波澜不惊的故事。在英国剑桥一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的一帮科学精英们,对这位女士的“胡言乱语”嗤之以鼻。这怎么可能呢?他们不能想象,仅仅因为加茶加奶的先后顺序不同,茶就会发生不同的化学反应。然而,在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很感兴趣。他兴奋地说道:“让我们来检验这个命题吧!”并开始策划一个实验。在实验中,坚持茶有不同味道的女士被奉上一连串的已经调制好的茶,其中,有的是先加茶后加奶制成的,有的则是先加奶后加茶制成的。接下来,在场的许多人都热心地加入到实验中来。几分钟内,他们在女士看不见的地方调制出不同类型的茶来。最后,在决战来临的气氛中,蓄短先生为先生为女士奉上第一杯茶,女士品了一小会儿,然后断言这一杯是先倒的茶后加的奶。这位先生不加评论地记下了女士的说法,然后,又奉上了第二杯??

看到这里,我不禁失笑:这些所谓的英国绅士对于这不起眼的小事倒是非常较真,可这又有什么意义呢?

作为一本讲统计学的书,平均数、标准差、估计值、概率、随机、钟型曲线、置信、大数定律、中心极限定理、正态概率分布随机变量等等一系列的概念和术语,自是绵亘不绝,但是不同于其他书的是,这些概念和术语的背后,是一个个统计大师鲜活的形象、是一段段他们探索创新,历尽坎坷的人生故事。故事中穿插着大师们睿智的珍言、友谊的情怀、幽默的细节、个性的遭际??。解读统计大师们的故事,他们的涉猎丰富、知识渊博,研究领域广泛,可以说无所不包,难怪书的副标题敢问:“20世纪统计怎样变革了科学”。那么其中启示是什么?是否应有:在广袤的科学沃土上,统计才能接出硕果;在广泛的实践应用中,统计才能体现价值。通过研读《女士品茶》一书,结合自己学习和掌握与统计相关的知识,我受益匪浅。我们就从书中一个例子开始吧。

这个例子谈论的是便利抽样。在K?皮尔逊看来,概率分布是可以通过收集有关数据/*来验证的。他认为,若收集足够多的数据,那么可以用来代表总体的相关数据。《生物统计》杂志的记者们从古墓中搜集到了数以百计的颅骨,灌入颗粒状物以测定颅腔的容量大小,然后将得到的几百个数据送给K?皮尔逊。一名工作人员还深入中美洲的丛林中,测量了成百上千个当地土著居民的胳膊长度,这些数据也送到了K?皮尔逊的生物统计实验室。 然而,K?皮尔逊所使用的方法存在一个根本性的缺陷。他获得的数据现在被称为“便利样本”(opportunity sample),都属于那些最容易得到的数据,并不能真正代表总体分布。他们测定的颅腔大小,都只是来自那些碰巧被他们发现而打开了墓穴,那些没有被发现的可能会与之大相径庭。

20世纪30年代的早期,印度发现了一个便利抽样的典型案例。大包大包的黄麻堆到了孟买(Bombay)的码头上,准备装船运往英国。为了估计黄麻的价值,便从每包中抽取一些,黄麻的质量就由样本来确定。抽样是将一把中空的圆形刀片插入包中,再拔出来,刀片中 1

央的空处便带出了少量的黄麻。在包装和上船过程中,外层的黄麻开始变质,而里面的被压得越来越紧,冬天的时候常常冻得结得一块。取样员将空心刀片插入包中时,由于中央更硬而发生偏离,所取的样品更多的是外层已经变质的黄麻。这种使得样本就会产生偏差,样本的质量偏低,实际上整包黄麻的质量要高出许多。

加尔各答市(Calcutta)总统学院物理系的普拉桑塔?钱德拉?马哈拉诺比斯(Prasanta Chandra Mahalanobis)教授经常引用这个例子(这是他在铁道公司工作时发现的,该公司将黄麻运往码头),说明为什么使得样本不可信。马哈拉诺比斯生于一个富裕的商人家庭,因此能够供他上本科和研究生,并且选择学习自己感兴趣的科学和数学。20世纪20年代,他来到了英国,师从K皮尔逊和费歇尔。他的同学如F?N?大卫只能靠奖学金生活,他却能一边上学,一边过着大地主般的生活。回国后,他担任了总统学院物理系的系主任。接着不久,他又在19xx年用自己的钱,在自家的一处房产中建立了印度统计研究所(Indian Statistical Institute)。

在印度统计研究所,他培养出了一批卓越的统计学家和数学家,其中不少都在这一领域做出了重要的贡献,如S.N.罗伊(S. N. Roy)、C?R?拉奥(C. R. Rao)、R?C?博斯(R. C. Bose)、P?K?森(R. K. Sen)和马丹?普里(Madan Puri),等等。马哈拉诺比斯的研究兴趣之一在于如何生成一个合适的、有代表性的样本数据。很明显,在许多情况下,几乎不可能得到一个总体的所有数据。例如,印度的人口是如此庞大,多少年来也没有人试图在一天之内搞一次全国性的普查,而这样的人口普查在美国曾经开展过。与此不同,印度的人口普查是在一年内完成的,全国不同地区分别在不同的月份开展。这样一来,印度的人口普查数据就不可能精确,在普查过程中会有出生和死亡、人口迁移,人口的自然状况也会发生变化。因此,没有人能确切地知道在特定的一天印度到底有多少人口 。

马哈拉诺比斯推断,如果能够收集到一个具有充分代表性的小样本,那么可以用它来估计总体的特征。在这一点上,我们有两种可能的方法:一是构造所谓的“判断样本”(judgment sample)。在判断样本中,所有关于总体的信息都被用来选择一个小的个体集合。这些个体分别代表总体的不同部分。有关多少人在看某一电视节目的尼尔森收视率排行榜(the Nielsen ratings),就是依据判断样本来排定的,尼尔森媒体研究所(Nielsen Media Research)根据社会经济状况和生活地区的差异,选择不同的家庭作为样本。

初看起来,判断样本似乎是获得大总体的代表性样本的好方法,但它有两个主要缺点。第一个是只有当我们确信对大总体具有充分的了解,可以将总体划分为能用一些个体来代表的几个子总体(specific subclasses)时,判断样本才具有代表性。既然我们希望通过样本来了解的问题,正是据以将大总体划分为几个匀质组(homogeneous groups)的依据,如果我们对大总体已经了解得这么清楚,可能就无需再进行抽样了。第二个问题更加麻烦,如果判断样本的估计结果是错的,我们无法知道该结果与真值到底相关多少。20xx年夏天,有人就批评尼尔森媒体研究所抽取的样本中西班牙裔家庭太少,因而低估了西班牙语电视的观众人数。

马哈拉诺比斯的解决办法是采用随机样本(random sample)。我们采用随机原则从大总体中抽取个体,由随机样本得到的数据很可能会错,但是我们可以用数理统计学的理论确定该如何最优地抽取样本并测定数值,以确保长期来看我们的数据将比其它数据更接近真值。并且,我们知道随机抽样概率分布的数学形式,可以计算总体那些待估参数的置信区间。 可见,随机样本要优于使得样本或者是判断样本,当然,这并不是因为它会保证得到正确的结果,而是因为我们可以计算一个数值区间,以较高的概率保证真值落入这一区间内。 这个例子用了事例来说明便利抽样的所带来的坏处以及向我们展现了随机抽样的重要性。我们不但从中看到了好多统计学的历史,还学到了统计的概念。而这种例子充满整部书,让我们在学到知识的同时也收获了欢乐,不可不说这真是一本经典的统计方面的好书。 2

通读整部书,我学习了以下几个方面:

一、关于统计学的研究领域

统计学具有广泛的研究领域,理、工、农、艺、文,几乎没有不用统计学的地方,所以,它形成了一个学科群。通过阅读和学习《女士品茶》,感受到统计的用途至少体现在以下两方面:

第一,统计学是科学的研究方法。任何科学都是研究客观规律的,规律可以在反复试验中重复。没有重复的事物不是科学研究的对象。我们周围的事物每天都在重复,太阳每天东升西落,春夏秋冬四季更替,宏观经济每天运行,只有运行、重复,才有规律。但人不能两次踏入同一条河,事物的每一次重复决不是前一次的克隆。统计学就是变化中研究规律的科学。所以统计学是任何学科进行科学研究的工作母机,没有统计学就没有科学研究、没有创新。

第二,统计学是管理工作的工具。政治家无法脱离统计而施政,军事家无法脱离信息而指挥,企业家无法脱离统计而决策,任何管理工作都要做到心中有数。学好统计,是搞好任何工作的前提。

生活中充满着统计的科学与艺术,所以需要学习统计。一方面,统计工作涵盖面很广,包括精算、农学、动物学、人类学、考古学、审计学、晶体学、人口统计学、牙医学、生态学、经济计量学、教育学、选举预测和策划、工程、流行病学等,几乎无所不包。故干统计工作的需要学习统计。另一方面,人们有时形容某人“缺数”,译成专业术语就是“这个人没学过统计”。故不干统计工作也要学统计。

二 关于显著性检验

《女士品茶》第11章“假设检验”中提到:“K·皮尔逊常常利用他的卡方拟合优度检验来‘证明’某些数据符合某些特定的分布。在费歇尔把更精确的方法引入到数理统计之后,K·皮尔逊的方法就不再为人接受了。但问题仍然存在。为了知道应该估计哪些参数,为了确定这些参数与所研究的科学问题之间有何关系,我们必须假设该数据符合某一特定的分布。统计学家们常常会利用显著性检验来证明数据符合何种分布。”

在实际操作中,由于人力、物力、时间等问题,一般都用抽样调查的方法抽取一定数量的具有代表性的群体,得出样本数据来进行研究,并对总体特征进行统计推断,在这里面就会存在两个问题,一是样本的特征数量能否反映总体特征?二是两种不同的样本的数量标志参数是否存在差异?只有解决这两个问题,才能正确的推断总体特征,也才能找出不同特征群体的需求差异,这就需要统计学中的显著性检验来解决。

显著性检验(Test of statistical significance),是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。 用样本指标估计总体指标,其结论有的完全可靠,有的只有不同程度的可靠性,需要进一步加以检验和证实。通过检验,对样本指标与假设的总体指标之间是否存在差别作出判断,是否接受原假设。这里必须明确,进行检验的目的不是怀疑样本指标本身是否计算正确,而是为了分析样本指标和总体指标之间是否存在显著差异。从这个意义上,假设检验又称为显著性检验。假设检验是除参数估计之外的另一类重要的统计推断问题。它的基本思想可以用小概率原理来解释。所谓小概率原理,就是认为小概率事件在一次试验中是几乎不可能发生的。也就是说,对总体的某个假设是真实的,那么不利于或不能支持这一假设的事件A在一次试验中是几乎不可能发生的;要是在一次试验中事件A竟然发生了,我们就有理由怀疑这一假设的真实性,拒绝这一假设。

由于显著性检验的功能在数据分析中的重大作用,显著性检验得到了广泛的应用。

然而在应用之前,首先了解各检验方法的适用范围及其特点是正确使用检验方法的基本前提。许多统计检验方法的应用对总体有特殊的要求,如t检验要求总体符合正态分布,F 3

检验要求误差呈正态分布且各组方差整齐等等。这些常用来估计或检验总体参数的方法,统称为参数统计。许多调查或实验所得的科研数据,其总体分布未知或无法确定,这时做统计分析常常不是针对总体参数,而是针对总体的某些一般性假设(如总体分布),这类方法称非参数统计,相应的,统计检验总体分为参数检验和非参数检验。在选择参数与非参数检验时,首要考虑是数据的分布情况,能确定分布类型的,则可适当选用参数检验,参数检验主要包括包含的方法有:单样本T检验、两独立样本T检验、两配对样本T检验;非参数由于不限制分布,统计方法简便,适用性强,但检验效率较低,应用时应适当加以考虑,非参数检验主要涉及单样本、两独立样本、两配对样本、多独立样本、多配对样本五个方面的非参数检验。不同的检验方法,比较的统计量是不同的。T检验等检验方法都是比较均值;卡方检验、K-S检验等比较频数;曼-惠特尼U检验等是对秩进行比较;符号检验法比较的是前后变化差值的符号。因此,只有了解各检验方法的基本思想及特点,才能正确选取适当的检验方法。

其次,认清研究目的。研究目的是调研中一切实务的根本出发点,做数据分析时同样首要考虑的是研究目的,研究目的也是数据分析的方向,但此时研究目的需要细化,具体到要通过哪些数据,得到什么信息,取得何种结果。例如:希望通过对消费者购买哪些品牌的数据来得出市场占有率的信息。

在具体的实际应用中,灵活运用检验方法是关键。 检验方法虽然有各自特点和适用范围,但是可以对数据做稍微的处理、变化,或是换个角度分析,便可运用不同的检验方法;且各方法有适用范围,当然也有它的局限性,有时需要多种检验方法配合使用,相互补充,才能充分地挖掘信息。例如:独立样本T检验法判断AB产品对于抗过敏的功效评价在均值上是否有差异,而卡方检验可判断他们在各评价水平上的分布有无差异,假如判断出他们功效水平无差异之后,我们还想知道他们到底是同样的好还是同样的差,这时可以再使用单样本T 检验对与均值评价水平相近的满意度水平进行差异性检验来进行定位。此外,我们还需要合理解释检验结果。不仅要正确识别检验结果,还需要结合原始数据及实际意义,并针对研究目的来分析说明。

三女性对统计学的贡献

读者或许已经注意到,除了弗洛伦斯?南丁格尔?大卫之外,本书到目前为止介绍的所有统计学家都是男性。统计学发展的早期,该领域主要是男性的天下。虽然也有很多女性在统计领域工作,但她们大都从事一些统计分析所需的繁复计算,实际上可以叫做“计算员”。正因为需要大量的计算,工具又只是手摇式的计算机,所以,这类繁琐的工作常由妇女来承担。女性比男性温顺、有耐心,大家比较相信她们,会让她们来检查计算结果是否正确。在K?皮尔逊带领的高尔顿生物统计实验室(Galton Biometrical Laboratory)里,最典型的情景就是,皮尔逊带上几位男士四处走动,检查计算机算出的结果,或互相讨论深奥的数学理念,而女士们正在进行计算工作。

随着20世纪的发展,情况发生了变化。特别是耶日?奈曼,他帮助并鼓励很多女性,指导她们的博士学位论文,或与她们共同发表论文,并在学术圈里为她们寻找合适的职位。到了20世纪90年份工,当我参加全国统计学会的会议时,发现与会者约有一半是女性。在美国统计学会、生物统计学会、皇家统计学会和数理统计研究院,女性都有很杰出的表现。不过,与男性相比还不完全平等。许多统计学期刊上发表的文章,约有30%的作者是女性或有女性参与,而美国统计学会的荣誉会员当中,只有13%是女性。不过,这种性别方面的差距正在改变。20世纪末的最后几年,占人类半数的女性已表现出她们所具备的较强数学能力。

但是在19xx年,当斯内德克在火车上巧遇北卡罗莱纳大学(University of North Carolina)校长弗兰克?格雷姆(Frank Graham)时,情况还不是这样。他们坐在一起,谈 4

论了很多。格雷姆曾听说过有关统计革命的情况,斯内德克正好是这方面的专家,他讲述了统计模型在农业及化学研究中的种种进展。格雷姆惊讶地得知,全美国居然只有爱阿华州立学院有正规的统计系,萨姆?威尔克斯(Sam Wilks,见第20章)在普林斯顿大学发展了一个数理统计小组,但还附属在数学系。亨利?卡弗(Henry Carver)所在的密西根大学(University of Michigan),情况也差不多 。格雷姆就火车旅行会谈中所了解的内容考虑了很多。

几星期后,格雷姆与斯内德克联系,表示自己已说服其姊妹学校——北卡罗罗莱纳州立大学(North Carolina State University),时机已经成熟,应该像爱阿华州立学院一样成立一个统计实验室,再发展成统计系。格雷姆询问斯内德克,能否介绍一位男士主持该部门的工作,于是,斯内德克坐下来列出了10个人的名字,认为他们可能会胜任该工作。他把考克斯叫进来,请她看看这份名单,并发表一下看法。她看完之后,问了一句:“您认为我怎么样?”

于是斯内德克在推荐信里加了几句话:“这些是我想到的最适合此工作的10位男士,但如果您需要最佳人选,我会推荐考克斯。”

后来,考克斯证明了自己不但是杰出的实验科学家和优秀的教师,还是一位出色的管理者。她组建的师资队伍,既是有声望的统计学家,也是优秀的教师。她深受学生的尊敬与爱戴,也深深地影响着学生们。我第一次遇见她时,是在美国统计学会的一次会议上,坐在我对面的是一个身材娇小的年长女士。当她说话的时候,眼睛里散发出一股热情,好像能燃起大家讨论主题的兴趣。不管讨论的是理论问题,或是实际应用问题,她的评论机智又风趣,叫人心服口服。当时我不知道她已经身患白血病,将不久于人世。她去世之后,她的学生每年夏天都会在各统计学会的传统联合年会上聚会,为纪念她而举办路跑,并筹措以她名字命名的奖学金。

19xx年,由于考克斯的“应用统计系”非常成功,所以格雷姆终于能在建在教会山上的北卡罗莱纳大学设立一个数理统计学系,不久又成立了生物统计系。从此之后,北卡罗莱纳州立大学、北卡罗莱纳大学与杜克大学(Duke University)成为统计研究的“铁三角”,很多私人研究公司也都听从这几所学校专家的意见。考克斯创建的统计世界,使她的老师斯内德克的成就相形见绌。

本章提到的考克斯与诺伍德,扮演的角色主要是老师与管理者。20世纪后半叶,妇女对理论统计学的发展也起到了重要作用。第6章介绍过蒂皮特,他的第一条极值渐进线能用来预测“百年难得一见的洪水”。这种统计分布有个改良版,称为“威布尔分布”(Weibull distribution),在航天工业中有很重要的用途。但威布尔分布有个问题,它不满足费歇尔的正则性条件,因此,没有一种最优方法来对参数进行估计。后来,北美罗克韦尔(Rockwell)公司的南希?曼布之间有某种关联,因而,发展出一套方法,目前应用于该领域。

威斯康辛大学(the University of Wisconsin)的格雷斯?沃赫拜(Grace Wahba)女士采用一组特殊的曲线拟合法,叫做“样条拟合”(spline fits),并发现了支持当今样条统计分析的理论公式。

20世纪60年代末,部分统计学家与医学家组成了一个委员会,他们设法研究三氟溴氯乙烷(halothane)这种麻醉剂的广泛使用,是否是病人肝衰竭发病率增加的原因,伊冯娜?毕晓普(Yvonne Bishop)女士是该委员会的成员之一。由于大部分数据以记录事件次数的形式出现,因此分析结果令人困惑。在此之前的10年间,很多人试图像研究三氟溴氯乙烷那样,制作一种复杂的多维计数表,但都没有特别的成效。这些研究人员曾经建议,应该用类似费歇尔的方差分析法去建立这样的表,但这项工作并未完成。后来,毕晓普女士接手了这项研究,检验了一些理论上的分歧点,并建立起估计与解释的准则。她把三氟 5

溴氯乙烷研究得到的方法加以修饰之后,出版了一本权威性的著作。这个方法后来被称为“对数线性模型”(log-linear model),如今成为大部分社会学研究中首先要做的一个标准步骤。

从斯内德克和考克斯那时开始,“最佳人选”经常是女士。

四 关于抽样调查

生活中充满着统计学的知识。中国有个成语叫“井底之蛙”,由于学历、资历、阅历的限制,实际上我们每一个人都是井底之蛙,只能看见头顶上的那一片天。学会统计后,我们就可以把头顶上那片天看作是万里蓝天的一个样本。通过抽取这个样本,我们可以看到和了解蓝天、白云、阳光。

《女士品茶》第17章“当部分优于总体时” 中提到: 1937 年,政府想得到有关失业率的准确数据,要在全国进行有史以来第一次严肃的随机调查,同时国会授权在1937 年进行失业普查。国会通过了议案,号召失业者填写登记卡,送到当地的邮局。那时,全国失业人口数估计在300 万到1500 万之间,依据对整个调查所作的规划设计,普查局从邮递线路中随机选取2%,然而, 即使按2%的比例抽样,普查局也被这样大量的调查问卷难住了:美国邮政服务局(the U. S. Postal Service)曾计划帮他们把问卷分类整理,并制作了一些原始的表格。问卷在最初设计时,还希望收集被调查人口统计和工作经历的详细资料,但是没有人知道该如何来处理这么大量的详细信息。别忘了,那时根本没有电脑,除了用“铅笔+纸张”绘制的表格之外,唯一可指望的就是手动的机械计算器。于是,他们与耶日·奈曼取得了联系,奈曼指出,“我们不必知道或去探讨所有的细节,也不必弄清具体的关系如何”,只需为最重要的问题找到答案就行了。采纳了奈曼的建议,他们抛弃了问卷中复杂而令人困惑的细节,只计算失业的人数。并且普查局作了一系列细致的分析,证实这种随机小样本调查的结论比起以前所用的判断样本要精确得多。

抽样调查是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的一种调查方法。显然,抽样调查虽然是非全面调查,但它的目的在于取得反映总体情况的信息资料,因而,也可起到全面调查的作用。 相对于抽样调查,普查工作量大,花费大,组织工作复杂;其调查内容有限,易产生重复和遗漏现象;且由于工作量大而可能导致调查的精确度下降,调查质量不易控制。所以在现实生活中,抽样调查的优越性是全面调查无法比拟的:一是质量性高。可集中力量做深入细致调查并提高调查质量。还可用于只能观察局部单位的调查,如产品的破坏性质量检查,农作物全面成熟前的产量实割实测等;二是经济性好。只调查部分单位(如5%,1%,1? 等),可节约大量人力、物力和费用开支;三是时效性强。可大大缩短调查和整理时间,较快取得调查结果;四是适应面广。在社会经济统计中,抽样调查日益得到广泛应用,如人口普查的事后质量检查,生育率调查,农产量调查,职工和农民家计调查等;五是能够解决全面调查无法或困难解决的问题。如补充和订正全面调查的结果,应用于生产过程中产品质量的检查和控制,用于对总体的某种假设进行检验等等。

五 关于统计数据

统计学是一门研究数据的科学,任务是如何有效地收集、整理、和分析这些数据,探索数据内在的数量规律性,对所观察的现象做出推断或预测,直到为采取决策提供依据。统计数据的收集是取得统计数据的过程,它是进行统计分析的基础。离开了统计数据,统计方法就失去了用武之地。统计数据的整理是对统计数据的加工处理过程,目的是使统计数据系统化、条理化,符合统计分析的需要。数据整理是介于数据收集与数据分析之间的一个必要环节。

6

在收集和整理数据后,特别需要认清数据自身特点对其进行分析。统计数据的分析是统计学的核心内容,它是通过统计描述和统计推断的方法探索数据内在规律的过程: 第一,弄清楚要分析的数据属于什么类型。是连续型,还是非连续型?对于连续型数值,均值具有实际意义,对于非连续性的数值,均值并不具备实际意义,而是频数,百分比才有意义,所以,数据属于连续型时,适用比较均值的显著性检验,若是非连续型的级数类,则适用比较频数、比例的检验方法;其实,数据也可以根据不同情况进行灵活处理,例如:对于满意度的衡量,可以根据不同的需求看为连续型分值,也可以看为几个等级的级数;第二,需要了解样本数据的分布特点,弄清楚样本数据是否服从某一分布,对于分布明确的,可以采用参数检验,而不清楚分布情况的则可以采用非参数检验法;第三,判断要检验差异的两组样本的关系,属于独立样本,还是属于配对样本。独立样本即指在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本,样本之间相互独立;而配对样本可以是同一个体在前后两种状态下某种属性的两种状态,也可以是对某事物两个不同侧面或方面的描述,两样本不是相互独立,而是具有相关性。

总之,研读《女士品茶》一书,让我了解统计学整个发展的来龙去脉,也让我知道为何要学统计学的原由,它不仅解除我心中对这些统计工具在应用上的疑问,而且更加坚定了我学习统计的决心。它让我对统计的感觉不再那样僵化,是值得我在学习统计边学边看的好书!使我充分认识到:环境愈不确定,统计的应用更显得格外重要!

南丁格尔有一句名言:如果要想了解上帝在想什么,我们就必须学统计,因为统计学就是在测量上帝的旨意。这里所说的上帝是我们的客观世界。还有一个成语叫“盲人摸象”,是形容人们认识片面性的。我们每一个人对这个世界的认识都可能是片面的,都可能是四个盲人中的一个。学会统计后,每个人就会长出八只雪亮的眼睛,整体地观察这个精彩的世界。

从时间序列来看,据考证,人类发源于上一个冰川期之后,结束于地球消失之前。虽然时间很漫长,却是收敛的、有限的。从截面数据来看,我们是茫茫宇宙的孤儿,因为至今尚未发现外星文明。我们紧紧依靠地球为我们提供水、食物等生存所需要的条件。从面板数据来看,我们只是时空中的一个点。为了解决生命的寂寞、贫困、艰辛和短暂,人类开始探索自身和自然,寻求真理和秩序,建立可以帮助我们获取有关生存奥妙的知识体系和结构模型,而我们辉煌成就之一就是统计学。因此,学统计可以更好地组织生活,谋划人生。学会统计使我们视野开阔、心胸开阔、人生开阔。

《女士品茶》故事虽小,但寓意深刻,对于刚刚接触到统计学的我来说,或许有些道理还比较晦涩难懂,但经过学习,我相信下次再读《品茶》,一定能品出一份不一样的“茶”来。

7

相关推荐