书籍详情
《统计会犯错——如何避免数据分析中的统计陷阱》[24M]百度网盘|亲测有效|pdf下载
  • 统计会犯错——如何避免数据分析中的统计陷阱

  • 出版社:人民邮电出版社
  • 出版时间:2016-09-01
  • 热度:8309
  • 上架时间:2024-06-30 08:52:20
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

编辑推荐
  本书简明扼要地指出了现代科学研究中常见的错误统计方法,帮助你理解这些统计错误产生的原因,并且告诉你如何检查研究中隐藏的错误,如何避免这些统计错误,从而掌握正确使用统计的方法。
  本书可以为你提供如下帮助:
  ·提出正确的问题,设计合理的试验,选择合适的统计分析方法,并一以贯之;
  ·如何理解p值、显著性、无显著性、置信区间和回归;
  ·选取恰当的样本容量,避免犯这一类错误;
  ·报告分析结果,发布数据和源代码;
  ·需要遵循的程序、采取的步骤和有用的分析软件。
  对科学家来说,阅读这本简明、有说服力的指南,可以帮助你做出正确的统计研究!
  对统计学家来说,请将这本书推荐给你认识的每一个人!
  阅读本书、了解统计中常见的错误,是迈向正确统计的首步!
内容简介
  面对充满不确定性的未知世界,人们在科学研究中需要大量使用统计分析方法。但是,如何正确使用统计分析方法充满玄机,即使对那些杰出和聪明的人也是如此。读完此书你会惊讶地发现,许多科学家使用的统计方法中其实隐藏着许多谬误和陷阱。
  《统计会犯错》这本书简明扼要地指出了现代科学研究中常见的统计谬误,诸如 p 值与基础概率谬误、统计显著性和模型误用等。从这本书中,你将理解什么是统计谬误及其产生的原因,了解如何检查科学研究中隐藏的统计谬误,你还将学会如何正确地使用统计方法,如何在科学研究中避免这些统计谬误。
作者简介
  亚历克斯·莱因哈特(Alex Reinhart),卡耐基梅隆大学(Carnegie Mellon University)统计学教师和博士生。他从德克萨斯大学奥斯汀分校(University of Texas at Austin)获得物理系学士学位,并应用物理学和统计学研发定位放射性设备。
  刘乐平,中国人民大学统计学系博士毕业,现为天津财经大学统计学、金融学教授,博士生导师,大数据统计研究中心主任。
目录
内容提要
对本书的赞誉
关于作者
关于译者
自序
致谢
前言
第1章 统计显著性简介
p值的力量
统计的心理暗示
奈曼-皮尔逊检验
构建置信区间
第2章 统计功效与低功效统计
功效曲线
低功效困境
低功效的原因
遇红灯时错误转弯
置信区间的优势
膨胀的真理
微小的极端
第3章 伪重复:理智地选择数据
什么是伪重复
如何应对伪重复
生物学批量数据
同步现象造成的伪重复
第4章 p值与基础概率谬误
基础概率谬误
一个小测试
药检中的基础概率谬误
如何用吸烟数据说谎
如何应对基础概率谬误
样本越多就越好吗
大西洋鲑鱼的脑功能成像试验
如何控制FDR
第5章 统计显著性的误判
显著性水平的微小差异
关注显著性
第6章 双重数据
圆形统计分析
向平均数回归
停止准则
第7章 连续性错误
二分法?多此一举
统计疲劳
复杂的混杂因素
第8章 模型误用
西瓜数据的拟合
相关与因果
辛普森悖论
第9章 自由研究还是无意识偏向
危险的随意探索
避免认知偏向
第10章 统计显著性简介
无法复制的基因学
使再现变得容易
试验,清洗,重复
第11章 数据背后的真相
被囚禁的数据
数据分享的绊脚石
数据衰变
细节遗漏
已知的未知
偏倚的结果报告
档案柜中的科学
未公布的临床试验
找出报告偏倚
强制披露
第12章 我们能做些什么
统计教育
科学出版
你能做到的事
参考文献
前言
  在那本非常著名的统计读物《统计数字会撒谎》(How to lie with statistics)的最后一章中,作者哈弗(Darrell Huff)告诉我们“任何带有医学味道的言论”或者“由科学实验室和大学发布的信息”都是值得我们相信的,虽然不是毫无条件地相信,但是肯定比“媒体”或者“政府”公布的事实可靠的多。哈弗的整本书中充满了媒体和政府利用误导性的统计信息弄虚作假的例子,但很少涉及经过专业学习的科学家所做的统计分析也可能产生误导。科学家应该追求的是对事物本质的理解,而非对付政治对手的子弹。
  统计数据分析是科学的基础。随便翻开一本你喜欢的医学杂志,你就会被统计术语淹没:t检验、p值、比例风险模型、风险比率、逻辑回归、最小二乘拟合以及置信区间。统计学家为科学家们在复杂的数据集中发现知识和规律提供了强有力的工具,科学家们毫不怀疑欣然地接受了这些工具。
  但是,不少科学家并没有接受过统计教育,在科学领域中许多本科课程中也不涉及任何统计训练。
  自20世纪80年代以来,学者已经揭示了无数的统计谬论,以及出现在经过同行评议的科学文献中的错误,他们发现许多科学论文,大概有一半以上,都犯过这些错误。由于统计能力不足,使得许多研究无法找到他们想要找的东西;多重比较和对 p 值误读导致了许多错误的“正确结论”;灵活的数据分析使得我们很容易找到原本不存在的相关性;不恰当的模型选择可能会使结论产生偏倚。这些错误都被同行评议人员和期刊编辑们忽视了,造成这一结果是由于他们通常并没有经过专业的统计训练,而且很少有杂志会聘请统计人员来审核投送的文章,另外,大部分文章也没有给出充足的、能够被精确评估的统计细节。
  这些问题并不涉及恶意欺骗,而是由统计教育不足而造成的—— 一些科学家甚至指出大多数发表的研究成果可能是错误的1,。在顶级期刊中经常会出现一些要求对将要发表文章采用更高统计标准、更严格审查标准的评论文章和社论,但是只有很少的科学家们响应这一呼吁,而且杂志授权标准往往被忽视。由于这些建议通常散落在一些误导性的教科书和杂志的综述中,而且对于应用型科学家们来说统计研究文章很难理解,所以大多数科学家想要提高他们的统计知识并不是那么容易的。
  现代研究中复杂的方法论意味着没有经过广泛统计训练的科学家也许不能完全领会他们研究领域内发表的一些文章。例如,在医学领域中接受过标准统计入门课的医生,其所具备的统计知识只能充分理解在《新英格兰医学杂志》上刊登的20%的学术论文2。大多数的医生甚至都不具备这些知识,很多医学人员并不是通过统计的必修课而是利用杂志社或者短期课程等方法非正式地学习统计 3。我们对这些医学人员进行“医疗中常用的统计方法”测验,结果仅有不足50%的人能够答对 4,这证明这些非正式的方法所包含的内容并不足以让医学人员真正学会统计知识。即使是经过研究训练的医学院的教员其得分也小于75%的正确率。
  情况如此糟糕,即使是从事上述统计知识调查的作者也缺乏构建调查问券所需的统计知识——我刚才引述的数字是有误导性的,因为在上述对医疗人员进行的调查中包括一道定义 p 值的选择题,但是在这道题中却给出 4 个不正确的定义作为选项5。我们可以为这个作者找些借口,因为即使很多统计入门的课本中也没能正确地定义p值这一基本的统计概念。
  当科学研究的设计者不注重对统计人员的雇佣时,他们可能会迷失在工作中,在不会得到答案的研究上花费数千美元。正如心理学家Paul Meehl所抱怨的那样。
  我们野心勃勃的研究员——在逻辑科学的知识体系下的毫无畏惧并且满心喜悦的依赖于“精确”的现代统计假设检验,已经著作等身或被提升为教授。就他对心理学整体来说,他几乎什么贡献也没做——更直白地说,他是一个对多个领域均有所涉猎,却没有得出什么真正科学成果的多产科学家6。
  对大多数的科学家来说,由于很多科学领域对p值的误解而指控他们不能孕育知识也许是不公平的。但是这些错误确实对现实世界有很大影响。医学临床试验指导我们的卫生保健方向,并且决定某些新强力处方药的安全性;犯罪学家评估不同的策略来减少犯罪和骚乱;流行病学家试图延缓新疾病的蔓延;营销人员和业务经理们试图找到销售产品的最好方式。这一切都归结到统计,但是统计知识却不能被正确使用。
  任何人都曾抱怨过医生没有在你能够理解的范围内告诉你什么是好的或者什么是不好的。现在,我们对一些声称某些食物、饮食或运动可能会损害我们健康的新闻不屑一顾,因为几个月后的另一项研究可能会得到完全相反的结果。正如一位杰出的流行病学专家所说的那样:“我们正在变成社会所讨厌的那类人,人们不再重视我们,而一旦人们把我们当回事,我们可能会无意中做出弊大于利的事7。”我们的直觉是正确的:在一些科学领域,最初的结论可能与之后的相悖。过早发布令人兴奋的结论,往往比发布有充分证据支持且仔细核对过的结论有更大的压力。
  尽管如此,我们不要过早地下结论。一些统计误差可能只是由于资金不足造成的。让我们看看20世纪70年代中期在美国发起的为了节省燃气和时间而允许司机在红灯时右转这一规则,证明这一规则不会造成更多交通事故的证据源于统计的错误。正如我们已经看到的那样,这一规则造成了很多的伤亡。影响交通安全研究人员得到正确结论的唯一因素是缺乏数据。如果他们有钱去收集更多的数据、进行更多的研究,有时间整理来自许多不同国家独立的研究结果,真相就会很明显。
  正如Hanlon’s razor告诉我们的那样:“把一切归咎于恶意,是对无能的充分解释”,有些出版物是在“谎言,该死的谎言和统计”这一条目下的。制药行业似乎尤其偏爱那些忽视了不利因素(例如那些指责他们产品没有疗效的出版物)的证据;在随后的评论中,制药商们可能会很高兴地发现有12项研究表明他们的药物有效,而不去注意其他8个未发表的认为他们产品无效的研究。当然,这些持反对意见的结论即使被呈送,由同行评审的期刊可能也不会发表它们,杂志社对无趣结论的强烈偏见使得“它是无效”的这一类研究结果永远也不会被发表,其他研究者也永远不会看见它们。数据缺失以及出版偏见正在侵蚀着科学并且歪曲我们对重要问题的看法。
  即使是正确处理的统计资料也可能是不可信的。统计技术和分析方法的过剩使得研究人员在分析数据时有很大的自由发挥空间,而且很容易“不断拷问数据直到它承认存在某些关系”。不断尝试你的统计软件中提供的几种不同的方法,直到其中某个可以产生有趣的结论,然后假装这就是你想要做的所有分析。当一篇文章发表的时候,如果没有超自然的力量我们不可能知道数据是经过怎样的“折磨”才得到这一结论的。
  在研究中的“软”领域是指那些理论不定量、实验难以设计、方法不规范的领域,而额外的自由导致了明显的偏见8。美国的研究人员必须得到和发布有趣的结论,以推进他们的职业生涯;面对数量不多的学术职位的激烈竞争,科学家不允许花费数月或数年的时间来收集和分析数据却只得到一个统计学上不显著的结果。这一做法无关恶意,科学家们只是想得到相对于数据本身其他的更能够支持他们假设的、夸大其辞的结论。
  在本书中我会介绍一些常见的或其他的错误。许多错误存在于公开发表的文献中,这也使我们对很多论文的结论产生怀疑。
  近年来,很多人提倡统计改革,在解决这一问题的最好方法上自然也存在分歧。有些人坚持p值应该完全摒弃,我将会在下文中说明其经常造成的误解和混淆;有些人提倡基于置信区间的“新统计”;有些人建议我们应该把重点转向能够得到更多可解释结论的贝叶斯方法;还有些人认为现在所教授的统计学知识华而不实。虽然所有的观点都有其可取之处,但是我不打算在此书中讨论其中的任何一个。我所关注的重点在于目前实践科学中存在统计应用的问题。这些方法能够完美地回答他们设计的问题,但是这些问题并不是我们想要他们回答的,我们越早意识到这一点,就能越早知道如何去弥补它。
精彩书摘
  低功效困境
  考虑下面一个试验:在相同条件下,比较Fixitol和Solvix这两种不同的药物,以确定哪种药物更加安全。由于药物的副作用比较罕见,所以即使分别在100名患者身上测试这两种药物,在每一群体里,也只要在少数患者身上产生严重的副作用。正如同我们难以区分两枚正面向上概率分别为 50%和 51%的硬币,如果两种药物的副作用发生率分别为 3%和 4%,那么也难以把它们区别开来。如果有 4 名服用Fixitol的患者产生了严重的副作用,而只有 3 名服用Solvix的患者产生了副作用,此时你并不能得到Fixitol更有可能产生副作用的结论,这是因为此时检验的功效较低。
  如果一个试验不能有效地识别出某种效应,那么我们就说这个试验低功效。
  你也许认为,对于医学试验而言,计算功效是必需的一个步骤;新药开发人员为了检验一种药物的效果,应确定召集多少名患者来参与这个试验,而通过计算一下功效就可以得到答案。令科学家感到满意的试验的功效是80%或者比这更高,这也就意味着能够有80%或更高的概率检测到一种特定大小的真实效应。
  然而,鲜有科学家计算统计功效,也很少有期刊论文提及统计功效。在最权威的期刊《科学》和《自然》上,在开展研究之前计算统计功效的文章少于3%1。实际上,许多试验的结论是:“虽然两组效果具有大的差异,但是在统计上并没有显著性”。这些试验丝毫不提及,可能是因为没有收集到足够的数据,所以它们的功效较低,发现差异却没能得到显著性的结论2。如果有些试验是在比较两种药物的副作用,那么以上错误结论就意味着,两种药物都是同样安全的,而事实上,其中某种药物可能比另一种更加危险。
  你也许认为上述问题只在副作用发生概率很低或者副作用影响不大时才会产生。事实上绝非如此。我们收集了1975~1990年在权威医学期刊上发表的一些试验,发现在那些报告没有显著性差异的试验中,约有4/5的试验没有收集足够的数据,来检测治疗组与对照组之间25%的效果差异。也就是说,即使一种药物比另一种药物能将病状降低25%,却由于没有足够的数据,仍然不能作出上述结论。另外,约有2/3的试验的功效较低, 未能检测出50%的效果差异3。
  在最近关于癌症试验的一项研究中,有类似的结论:在那些得到阴性结论的研究中,仅有一半有足够的功效能识别出主要结果的差异,其他研究均因功效过低没有得到有用发现4。在这些低功效的研究中,只有不到10%解释了为什么选取的样本容量如此之少。类似的低功效问题在医药研究的其他领域也时常发生5,6。
  以上问题在神经科学的研究中尤为突出。每项神经科学研究收集了过少的数据,以至于平均每项研究只有20%的功效。为了弥补低功效的不足,你可以将研究同一效应的所有论文数据整理在一起进行分析。既然神经科学研究都以动物作为研究对象,因此就产生了伦理问题。如果一项研究功效较低,那么只有完成更多的研究,使用更多的动物作为研究对象,才能发现真正的效应7。伦理道德委员会不应支持开展那些功效较低、不能发现目标效应的研究。
  低功效的原因
  奇怪的是,低功效问题由来已久,但现在仍然非常普遍。1960年,Jacob Cohen分析了发表在《Journal of Abnormal and Social Psychology》8上试验的功效,他发现平均而言,这些试验能够检测出中等效应的功效只有48%。Jacob Cohen的研究被引用上百次,而且类似的评论也接踵而至,一致要求进行试验时需计算功效并扩大样本容量。1989年,一篇评论指出,在Cohen得到以上分析结论后的10年里,平均的研究功效实际上又下降了9!这是因为,研究人员开始意识到多重假设检验问题,而在解决多重假设检验问题的过程中,研究的功效进一步降低了(我们将在第4章讨论多重假设检验问题,那时你将会看到我们必须在研究功效和多重假设检验修正之间做出取舍)。
  为什么我们经常忽视功效计算?原因之一是样本大小和功效结果给我们的直观感受不一样。即使在功效极低的情况下,我们经常认为试验对象已经足够多了。举个例子,假如你在测试一项新的心脏病治疗方案,希望将死亡风险从20%降低至10%。你可能会这样想:如果对50名患者采用这项新的方案,没有发现明显差别,那么新治疗方案就没带来多少好处。但是为了使功效达到80%,你实际上需要多达400名患者,每个治疗组里有200名患者而不是50名患者10。临床医生往往未意识到他们的样本容量太小。
  在数学上准确计算功效难度较大,甚至有时无法计算,这是忽视功效计算的另外一个原因。在统计课堂上,一般不会讲授计算功效的方法,并且一些商用软件中也没有计算功效的函数。当然,你也可以不用数学而是利用随机模拟的方法计算功效。首先模拟具有你所期待效应的成千上万个数据集,然后在每一个数据集上进行统计检验,得到显著性检验结果的比例就是功效。但是这种方法需要编程经验,而且模拟现实数据也充满技巧。
  尽管计算困难,但你可能认为科学家应该注意到了功效问题并试图进行改进:连续5次或6次试验都显示不显著的结果,科学家就应怀疑在某些地方出了问题。然而,一般的研究并不只做单个假设检验而是很多、很有可能得到显著性的结果 11。只要该显著性的结果非常有趣,就可以看成是论文的亮点,这名科学家此时早已忘记研究功效较低的问题。
  低功效并非意味着,当科学家们声称两组之间没有显著性差异时,他们在说谎。但是如果认为这些结果表明确实不存在差异,那这就是误导了。差异甚至一个非常重要的差异可能是存在的,只是由于研究的规模太小没能发现这种差异。下面,我们考虑生活中的一个例子。
  遇红灯时错误转弯
  20世纪70年代,美国许多地方开始允许司机遇到红灯时右转。而在很多年以前,城市道路规划人员认为,允许红灯右转会带来安全隐患,引起更多的交通事故和行人死亡。但是1973年的石油危机促使交通管理部门考虑实施这项政策,因为这样就能减少等待红灯时的汽油浪费。最终,国会要求各州实施该政策,并把它作为一项能源节约措施,就像建筑物隔热有效采光措施一样。
  一些研究考察了该政策带来的安全影响。其中,弗吉尼亚公路与运输局的咨询部门对比了政策变化前后,州内 20 个交叉路口的交通事故发生情况。他们发现,在允许红灯右转之前,这些交叉路口发生了 308 次事故,而在允许红灯右转之后,相同时间内发生了 337 次事故。他们的报告指出,虽然事故发生率增加了,但这种差异在统计上是不显著的。在看到这份报告后,公路与运输局的官员写道:“我们可以相信,红灯右转政策并未给汽车驾驶员或行人带来显著的危险隐患”12。显然,官员们把统计上的不显著直接当作现实中的不显著。
  后续研究有类似的发现:相撞事故次数略有增加,但并没有足够的数据表明这种增加是显著的。正如一份报告所指出的:没有理由怀疑在实施“红灯右转”后,行人被撞事件的次数增加了。
  显然,以上研究均是低功效的。但是越来越多的州和城市开始允许红灯右转,在整个美国这种做法也变得非常普遍。没有人尝试将各项研究的数据整理在一起,形成一个更有用的数据集。与此同时,越来越多的行人被撞伤,越来越多的汽车被撞毁。没有人收集足够的数据来说明这种情况,直至若干年后,一些研究才发现,由于右转,汽车撞毁频率比以前提高 20%,行人被撞的频率比以前高 60%,几乎是骑自行车的人被撞频率的 2倍13,14,。
  然而,交通安全部门并没有吸取教训。例如, 2002 年的一项研究考察铺砌的路牙对乡村公路交通事故发生率的影响。不出意外,路牙降低了事故风险,但没有足够的数据说明这种下降在统计上是显著的,因此研究人员的结论是,铺砌路牙子的花费是不值得的。他们混淆了不显著的差异和完全没有差异,尽管数据已经表明铺砌的路牙可以改善交通安全12。一个更好的分析的结论似乎应该是这样的,铺砌路牙的好处在统计上是“不显著”的,但是数据表明铺砌路牙确实带来了巨大好处。这就是置信区间的分析方法。
  置信区间的优势
  与考虑试验结果的显著性相比,置信区间是一种更合理的结论表述,它可以给出效应的大小。即使置信区间包含0,它的宽度也会告诉你很多信息:一个狭窄的包含 0 的置信区间表明效应可能比较小,而一个较宽的包含 0 的置信区间则表明测量值并不十分精确,因而不足以作出结论。
  对于那些与0没有显著差异的测量,物理学家常常使用置信区间给出它们的界值。例如,在搜索基础粒子时,“该信号在统计上是不显著的”这种说法没有意义。相反,对于粒子撞击时的速率,物理学家一般利用置信区间赋给它们一个上界,然后将这个结果与预测粒子行为的已有理论进行比较(促进未来的试验人员建造更大的试验设备来发现它)。
  利用置信区间来解释结果为试验设计提供了一种新思路。不再关注显著性假设检验的功效,转而问这样的问题:“我应该搜集多少数据来度量理想精度的效应?”尽管高功效的试验可以产生显著性的结果,但如果其置信区间很宽的话,结论同样难以解释。
  每次试验的数据会不一样,所以每次试验得到的置信区间大小也会发生变化。以前是选择一个样本大小以达到某种程度的功效水平,现在我们选择一个样本容量大小,只要使得到的置信区间的宽度小于目标宽度的概率达到99% 即可(这个数字被称为其并没有固定的标准,或者是95%)16。
  在常见的假设检验里,已经发展出很多依赖于置信度的样本量选择方法;不过这仍然是一个新的领域,统计学家还没有研究透彻17(这些方法的名字是样本估计的精度,英文缩写为AIPE)。统计功效比置信度使用更多,在各领域里统计学家还没有采用置信度。尽管如此,这些方法非常有用。统计显著性经常是拐杖,名字虽然中听,但并不能像一个好的置信区间那样提供多少有用的信息。
  膨胀的真理
  假设相对于安慰剂,Fixitol能将症状减少20%。但你的试验样本可能太小,没有足够的统计功效可靠地检测到这种差异。我们知道,小试验常常产生更具有变异性的结果;你很可能恰恰找到10个幸运的患者,他们的感冒时间都较短,但找到10000个感冒时间都较短的患者的可能性基本上为0。
  设想不停地重复以上试验。有时你的患者并不是那样幸运,因此你没有注意到你的药物具有明显的改善作用;有时你的患者恰好具有代表性,他们的症状减少了20%,但你没有足够的数据证明这种减少在统计上是显著的,因此你将其忽略;还有一些时候,你的患者非常幸运,他们的症状减少远超过20%,这时你停下试验说:“看,它是有效的!”你把所有的结果画在了图2-3中,显示了试验结果产生的概率。
  图2-3 试验结果产生的概率
  (如果你重复进行试验,你将会看到试验结果的一个分布。垂直虚线是在统计上具有显著性的效应值。真正的效应值是20%,但你可以发现观测效应值分布在-10%~50%这样一个较宽区间里。只有少数幸运的试验结果是显著的,但是它们都夸大了效应的大小。)
  你得到了正确的结论,即Fixitol是有效的。但因为试验是低功效的,所以你夸大了效果的大小。
  以上现象被称为真理膨胀,或者M型错误、赢者灾难。这种现象经常发生,尤其在那些进行类似试验争相发表最激动人心结果的领域经常见到,例如药理学试验、流行病学研究、基因关联研究、心理学研究等。在那些引用最多的医学文献里以上现象也比较常见18,19。在快速发展的领域,比如基因研究,早期论文的结果常常比较极端,这是因为期刊很愿意发表这样新的、令人振奋的结果。相比较而言,后续研究的结果就不那么夸张了20。
  就连《自然》和《科学》这样的顶级期刊,也喜欢发表具有开创性理论成果的研究论文。这些开创性成果一般意味着大的效应,往往是在鲜有人研究的、比较新奇的领域里产生的。这是慢性真理膨胀与顶级期刊的完美组合。已有证据表明,期刊影响因子和其发表的“激进”研究具有相关性。那些结论不怎么令人振奋的研究更接近于真理,但是大多数的期刊编辑却对其不感兴趣21,22。
  当一项研究声称在小样本下,发现了一个大效应时,你的第一反应不应是:哇哦,他们发现了这么有趣的现象!而应是:他们的研究可能是低功效的23!来看一个例子。从2005年起,Satoshi Kanazawa发表了一系列关于性别比例的论文,最后一篇论文的题目是“漂亮父母会生更多的女儿”。他出版了一本书专门对此进行讨论,书中涉及其他一些他发现的“政治上不正确的真相”。这些研究在当时非常流行,尤其是因为Satoshi Kanazawa所得到的惊人结论:最漂亮父母生女儿的概率是52%,最不漂亮的父母生女儿的概率是44%。
  对生物统计学家而言,一个微弱的效应——如一个或两个百分点,具有重要的含义。Trivers–Willard假设认为:如果父母有某些特点,更容易生出女孩,那么他们就会有更多的女孩,反之亦然。如果你认为漂亮的父母更容易生出女孩的话,那么平均而言,这些漂亮父母就会拥有更多的女儿。
  但是Kanazawa得到的结论比较特殊,后来他也承认在分析中有些错误。基于他所收集的数据,修正之后的回归分析表明,漂亮父母拥有女儿的概率确实比平均水平高4.7%,但这只是一个点估计,这个差距的置信区间是(−3.9%, 13.3%),0在这个区间内部23。这说明,虽然Kanazawa采用了3000对父母的数据,但结果在统计上仍然是不显著的。
  需要大量的数据才能可靠地识别出微小的差异。例如一个0.3%的差异,即使有3000对父母的数据,也不能将0.3%的观测差异与随机误差区分开来。在3000的样本容量下,只有5%的可能性得到在统计上显著的结果,而且这些显著性的结果已经将效应值(0.3%)夸大了至少20倍,并且约有40%的可能得到的显著性结论恰恰相反,即认为漂亮父母更有可能生男孩23。
  因此,虽然Kanazawa进行了完美的统计分析,但他仍然高估了真实的效应。按照他的做法,他甚至还可以发表这样的论文:工程师会有更多的男孩,护士会有更多的女孩。他的研究无法识别预想大小的效应。如果他在研究之前进行一个功效分析的话,可能就不会犯这种错误了。
  微小的极端
  因为小规模、低功效研究的结果变异性很大,所以产生了真理膨胀的问题。有时你非常幸运,得到一个在统计上显著却夸大其辞的估计结果。除了显著性检验分析,在其他分析中,较大的变异性也会带来麻烦。来看一个例子。假如你负责公立学校的改革,作为最优教学方法研究的一部分,你想分析学校规模大小对学生标准化测验分数的影响。小学校是否比大学校更好呢?应该建立为数众多的小学校还是建立若干所大学校?
  为了回答以上问题,你整理了表现良好的学校的一个列表。普通学校平均有1000名学生,你发现最好的10所学校学生的数目均少于1000。这似乎意味着,小学校做的最好,原因可能是因为学生少,老师可以深入了解每个学生并有针对性地帮助他们。
  然后你又看了一下表现最差的学校,这些学校都是一些拥有成千上万学生、超负荷工作老师的大学校,与你的预想恰恰相反,这些最差的学校也是一些小学校。
  为什么?现在,看一下测试分数与学校规模的散点图,如图2-4所示。小学校学生少,所以他们的测试得分有很大的变异性。学生越少,就越难估计出一个学校的真实平均水平,甚至少数几个异常的分数就会使一个学校的平均水平发生大的偏差。当学校的规模变大时,测试分数的波动变小,平均分数有上升趋势24。
精彩插图