统计陷阱读后感

《统计陷阱》读后感

放寒假前,经学长的介绍,特地在图书馆里借了一本《统计陷阱》在假期里读,看完之后的感触到真不少,而且总想着什么时候写一点读后心得之类的东西,无奈,因为惰性,总是找各种各样的理由来推迟。这次还得感谢学校这个次机会,让我终于可以完成早该结束的任务了。

先来谈谈写这本书的背景:在20世纪50年代,美国出现了一种尊崇统计风,太多的人都乐意,也轻易的相信了那些统计数据,原因很简单,大多数的统计数据都可以让不同的人产生不同的效果。例如,一个企业可以让员工看出今年的效益,同样的数据,换一种统计方法,也可以反映出企业的不景气,这就是为什么太多的公司,企业,甚至政府部门都习惯用统计的方法来传达自己的意思。介于这个背景之下,美国作家达莱尔·哈夫以一个经验老道,且退休的窃贼的身份,用回忆录的形式,在本书的前八章讲述了常用的一些行骗手段,在第九章总结了前面所列出的所有方法,而在最后一章中,教人们如何识破统计数据中的陷阱,告诫人们以一个正确的态度去看待一个数据,从而不做一个被数据玩弄于手的玩偶。 本书中列举出的,常用统计手段大致可分为:利用内在有偏样本,选出不同的平均数,隐藏总要的数据,忽略必要的误差,滥用统计图形,采用不完整匹配的资料以及误解相关关系等。当读完这本书时,回过头在,如果你用书中的衡量标准来看任何一组数据,都会发现其中的不可行性,所有的数据都是可以质疑的,那么不禁会有两种念头:其一,为什么统计着要这样做,公布这样的数据是为什么?答案很简单,无非是利益所趋,商家,政府乃至所有人都想隐藏掉那些自己认为很重要的数据,公诸于世的无非是想博得同情或者获得荣耀。其二,这个世上不就没有可以相信的数据,因为没哟绝对的正确,那么我们是否就因此而否定自己看到的,听到的一切呢?显然不是,这本书最重要的是,教会我们如何正确的看待数据,正确的从数据中拿去自己需要的,不可全信,但不意味着一点也都不可信。

在这里,我重点来谈谈:内在有偏样本,选取不同平均数,采用不完整匹配的资料以及误解相关关系这几种“行骗手段”。首先说说内在有偏样本,我用原文中的一个例子来解释这种方法的意思:

“1924级的耶鲁毕业生平均年收入有25111美元。”《时代》杂志在评论纽约《太 阳报》的某篇报道时曾经指出。

乍眼一看,感觉耶鲁大学的确是个很了不起的学校,那里面的毕业生都有高质量的就业率。在感叹之余,细细想想,你会发现有两点可以之处:第一,如此的精确;第二,竟然如此的大。那么,这个精确地个位的收入是如何得出来的呢?除非是在保证没有外快的情况下,只靠工资条生活的人,他的工资才是有可能精确地个位的,那么现实并非如此,越是成功的人,他的工资来源越是不那么单一。

我们都知道,只要样本足够大,并且具有代表性,在多数情况下,样本的信息可以很好地代表总体。但如果条件不满足,抽样的结果比一个臆想的结果好不到哪儿去——除了会形成一种十分科学精确的虚假印象意外,这种方法分本不值得推荐。然而,令人悲伤的事实是,在我们看到的或自以为知道的事物中,充斥着许多从类似的样本,即有偏的或过小的或两者都满足的样本中得出的结论。 耶鲁大学的收入同样也是一个样本,但恰恰这个因为是有太多的偏差的。可以肯定的是,没有谁可以掌握25年后所以存活的1924届耶鲁大学生的收入情况。此外,在你可以联系得到的人中,能接受问卷调查的人数是屈指可数的。在这里,需要提醒大家的是,一般的问卷调查,5%~10%的回收率就已是相当可观的了,在加上调查内容的不同,这个比例还是会有出入的,但决定不能达到百分之百。最重要的,并非所有接受

问卷调查的人都是可以说实话的。尤其是在工资这种很敏感的话题上。试想想一个税务局的人员来调查你的收入情况,你会如实回答吗?我想未必,多数人都会尽可能的说的小一点,毕竟说的多了,可能意味着要多交一点税呢。再有,和同学聚会是,看见被人都在侃侃而谈,你非但不会如实回答自己的工资数,因为虚荣心,多多少少都会夸大一点。这些都是合乎常理,同样也是无法避免的。而对于那些从名校毕业,但现状落魄的人,肯定不愿意透露自己的实际情况。那么,不难看出,耶鲁大学的毕业生收入情况,它仅仅代表了1924届中可以联系得到的人中的愿意站出来说出自己输入的那些特殊人群。因为调查的对象本来就存在明显的差异和偏向性,这是导致其最终结果失败的根本原因。

接下来,同样用一个例子来谈谈对平均数的选取。

一个老板为了炫耀自己公司的福利有多好,就在招聘部门公布了这样的一个信息:本公司的全体员工的平均收入是5700美元。

听上去挺不错的。可是你得自习想想,这里的平均到底是什么平均数?是算术平均数?是众数还是中位数?作为应聘的你,更希望的这个平均是众数吧,因为这样以来,公司总出现次数最多的是5700美元,而任何一个公司的基层人员往往是最多的,那么就意味着即使你是普通员工,也可以拿到这个丰厚的薪水。可现实并非如此,通常这里的均数都是算术平均数,因为全体员工中,包含了老板,经理等高层人士,同样也包括了基层员工。可是当高层的工资数高达上万,甚至几十万,而基层的员工拿着不到两千甚至不足一千的收入时,照样可以平均到五六千的收入。

所以,在以后的阅读中,尤其是对这种带有平均感念的统计数据中,不禁的要反问一句,它到底是什么平均数,不然,你将得到会与你的想法大径相同。

让我们一同来看看不完整的匹配资料这种手段。有这样的一个例子:“去年飞机失事造成的人员死亡比19xx年多”,这是否意味着现在乘飞机要比过去危险?我们都知道,在现阶段的这个社会中,因交通事故死亡的人数比上个世纪中整整一百年中死亡的人数还要多,难道就因此要否定社会的进步吗?这种牛头不对马嘴的匹配显然是不对的。看看历史,不难发现,在过去的一个世纪了,能乘坐飞机的的人数有多少,而现阶段,在这样大的一个基数下,我们不妨做个简单是算术,用每年死亡的人数除以每年的客流量,那么你将会发现,现阶段的死亡比率将会小的可以忽略。而太多的人们总喜欢用比较多额手段来评判事物的好坏,可遗憾的是用错误的参考对象;来作比较。这种情况在我们的生活中比比皆是。在这里也不一一列举,只想告诉大家的是,在对于比较性的统计数据中,在被统计数据所震惊的同时,想想他们的对比是否在同一个标准,所采用的对象是否具有比较的意义。

接下来的这种“行骗手段”是我们在生活中最难察觉,恰恰是最被“骗子们”惯用的一种手法。相关关系与因果关系。在这里先介绍一种统计学中的一个经典谬误:如果B紧跟着A出现,那么A一定导致了B的发生。举一个简单例子:有两块准时的时钟,当a到某一整点时刻是,时钟b就会敲响。那么是否b钟的敲响是否取决于a钟是否走到该整点时刻呢?显然不是的。

我们只能称之为是一种联合变动。而联合变动一种普遍形式是存在其真实性的,但无法区分之间的因果关系,或者说,他们之间就没有必然的因果联系。收入与拥有的股票之间便是这种相关。你拥有越多的钱,便能买更多的股票;同时,你手头的股票越多,又可以为你带来更多的收入。在这种情况下,简单地认为一个因素引起另一个因素是不全面的。

最具有戏剧性的相关是所有变量相互间没有任何影响,却存在着显著的相关。例如:抽烟和学习成绩的问题。

有人曾经费尽周折以探求是否抽烟者的大学成绩比不吸烟者的差,结果的确如此。这着实让一些人高兴,从此,他们多次使用这个结论。往通往好成绩的道路上存在着放弃抽烟的痛苦。进步使用该结论,还有这样合理的推断:抽烟使人的头脑变笨。当抽烟与低分同时出

现时,人们得到了一个未经证实的假设,抽烟导致低分。难道就不能是相反的解释吗?也许低分促使学生不喝酒而变得爱抽烟。这种说法与前一种一样能得到证据很好的支撑。只是它不能够满足宣传人员的要求。

最后,和大家共同分享一则我最喜欢的统计案例。

《纽约时报》在报道一条来自印第安纳波利斯城的美联社新闻时,在偷换基数问题 上犯了错误。

今天,经济危机已大为缓解。属于印第安纳波利斯城建筑贸易工会的管子工、泥水匠、木工、油漆工和其他工种的工人享受了5%的工资提升,这是去年冬天工资下降20%的四分之一补偿。表面上很合理——但是请注意,减少是以原有工资为基数计算的,而增加却使用了较小的基数,即削减后的收入。

我们可以通过一些假设数据来进行检验。为简单起见,假设原有收入为1美元,减少20%, 即为80美分,而在80美分的基础上增加5%仅提高了4美分,它是原来减少量20美分的五分之一,而非四分之一。和许多看起来似乎正确的错误一样,这个错误通过巧妙的夸张,使事情看上去更美妙了。

这种偷换概念是最难察觉得到的,同时是欺骗手段最高明的,

举一个最简单的例子,让我们假设去年一夸脱牛奶值20美分,一条面包5美分。今年牛奶 的价格降至10美分,而面包的价格升至l0美分。现在你想证明什么呢?物价指数上升?物价指数下降?或者根本没有变化?

首先选择去年作为基期,也就是说,以去年的价格为100%。既然牛奶的价格降了一半(即50%),并且面包的价格是去年的2倍(即200%),将50%与200%进行平均得125%,与去年相比,今年的价格上涨了25%。

用另一种方法试试,以今年的价格为基期。去年牛奶的价格是今年的200%,而面包的价格是今年的50%,平均数又是125%,也就是说,去年的价格比今年的高25%,今年的价格下降了。

如果你想证明价格没有发生变化,试试使用几何平均数,这时你可以随意选择基期。几何平均数不同于算术平均数,或均值;但它也是合法的计算方法,而且在某些情况下它是一种最有效的方法。计算3个数的几何平均数,只需将3个数相乘,开3次方根;4个数的几何平均数,开4次方根;两个数的则开平方根,以此类推。 事实是,如果不去考虑它的数学基础。统计不仅是一门科学,而且还是一门艺术。许多控制甚至扭曲都是在合理范围之内进行的。统计工作者经常要在许多方法中主观地选择一种方法以描述事实。在商业活动中,统计工作者不大可能选择不利于己的方法,就像撰稿人在描述赞助商的产品时,不会使用“易碎、价格低贱”的字眼,而会说“轻便、经济、实惠”。 即使是学术界,学者也有自己的偏好(可能是无意识的)。

所有这些都在提醒大家,在报纸、杂志和书籍中看到统计材料、结论以及数据时,应该经过认真的思考后再接受它们。有时候,更仔细的一瞥有利于进一步了解真相。而武断地拒绝统计方法也是因噎废食,不值得提倡。

 

第二篇:读《统计陷阱》有感

《统计陷阱》

《统计陷阱》本书是美国著名的统计学家达菜尔·哈夫的名著。该书自19xx年出版至今,多次重印并被译成多国文字,是一本影响深远的经典性著作。《统计陷阱》一书之所以能够历久弥新,是因为其实用性,作者重说明、轻证明,重文字描述、轻理论推导,并结合活生生的案例,语方轻松诙谐,深入浅出,介绍了一些统计语和方法,更揭示了许多统计骗局。

本书一共分八章:

第一章 内在有偏的样本。

主要将通过偏差的样本来获得想要的数据,文中举例耶鲁大学毕业生的工资来说明这个问题,给出统计结论时却并未给出样本,通过合理的猜测,可以知道这样的样本是有偏差的,例如能联系上的人一般都不穷,愿意告诉别人自己工资的人更不穷。

第二章 精心挑选的平均数。

一般给统计结论时却并不给出是哪种平均数,是算术平均还是中位数或者是众数,通过这种方式来欺骗人,例如最近很流行的居民平均居住面积,平均收入等。

第三章 没有披露的数据。

反复做试验,指给出对自己有利的数据,例如我想证明抛硬币正面出现的次数是80%,那么我每次抛10次,反复抛,直到某次试验正面出现8次,以此作为支持我结论的数据。

第四章 毫无意义的工作。

计算某一个数据时,需要知道这个数据可能的误差,如果不考虑这个误差,则数据毫无意义,例如智力测验,需要首先明确测验可能的误差,例如正负3,平均智力是100正负3,如果不考虑这个误差,而直接说平均智力是100,a的智力是98,b的智力是101,b的智力比a的好,这样的结论是没有意义的。

第五章 惊人的统计图形。

通过对图形的夸张画法,来达到误导读者的目的,例如将y轴不从0开始,x,y比例不一致等。

第六章 平面图形。

本章与上一章比较类似,不过图形换成了平面图形,平面图形不只有高度还有宽度,例如通过钱袋子来比较工资,本来2倍的工资只需要钱袋子高两倍就可以,但这样不协调,因此要更宽,更鼓,导致的结果就是不是2倍,看着是8倍。

第七章 不相匹配的资料。

问题本身并不能真实地反映这个问题所代表的观点,例如黑人与白人的就业机会均等 == 黑人与白人平等,事实上有种族歧视的人更愿意回答二者的工作机会相等,而同情黑人的人更愿意回答不等,另外很多数据与最终的结论也没有多大的关系,例如药物实现,实验室的环境,药物与最后在药店里购买的药物有可能很不一样,或者实验室环境与人体环境差别很大,等等,都导致数据的不准确性。同样晚上发生车祸的次数明显多于早上,因此你有可能认为早上发生车祸的概率较低,但同时晴天发生车祸的次数也比雾天发生车祸的次数多,

能认为晴天更危险吗?!!事实上仅仅是由于晴天比雾天的天数多很多,自然车祸次数就要多。因此看数据时一定要弄清楚这个数据与结论是否相关,相匹配。又例如投资回报率,有家公司说自己的投资回报率是1%,还低于银行利率,但实际是这样的吗?例如我早上投资99份,中午收获1美元,那我的投资回报率确实是1%,但我的收益比存银行还低吗?

第八章 相关关系与因果关系。

相关是两件事情一起出现的概率,例如吸烟和成绩差就经常一起出现,但不是相关的就是因果关系,例如不能说吸烟导致成绩差,相关与因果关系是没有多少关系的,实际上很有可能是A与B相关,是因为A和B都是另一个原因的产物,但人们往往想在AB之间找到因果关系。同时也有很多事情只是一起发生,人们也就乐于将其说成因果关系,例如随着消费水平的增加,最低工资阶层的绝对工资在上涨,但这却往往被说成某些人的政绩。又例如感冒发烧导致跳蚤减少,却被说成因为有跳蚤所以健康。

以下几点是我从此书中学到的一些东西。

一.对统计资料应该质疑,不要盲目的相信,注意以下几个问题:

1.谁说的?2.他是如何知道的?3.遗漏了什么?(往往是有意的为了叵测的目的)4.是否有人偷换了概念?5.这个资料有意义吗?

二.图表的拉伸缩放可以使它展示在人们眼睛前的信息迥然不同,它可以随着要求任意变动,如同哈哈镜一般,在观察统计图时要万分注意这一点,不要被眼睛和说谎者所欺骗。

三.平均数有多种形式,众数、中位数、均值等,注意它们的适用范围,并谨防它们被不轨者非法利用进行欺骗。均值很不具有稳健性,它太容易受到野值的影响,在描述大样本的平均水平时,不妨多考虑一下中位数。

四.什么是差别?只有当差别有意义时才能称之为差别。

作者说,“如果你想证明某事,却发现没有能力办到,那么试着解释其他事情并假装它们是一回事”,这就是我们常犯的逻辑谬误,偷换概念。统计学中所包含的思维,利用统计学所犯的错误,归根到底就是逻辑。把相关性当成因果性,这是事后归因;小样本得出大结论,这是以偏概全;为了证实自己的观点,刻意用统计方法放大比例,这是诉诸公众谬误,因为大家都这样,所以我是对的。商品广告说统计数据显示自己的产品在某一权威群体里的使用率很高,言下之意是他们的产品是好的,这是诉诸权威谬误;等等。基本上每一个统计陷阱就是一个逻辑谬误。

学会统计学,就是学会怎么说理。

相关推荐