第11 章
第11 章统计数据是否具有欺编性 203 统计数据是否具有欺骗性
下面的内容有多少能使你信服?
据国际反家庭暴力联盟估算,已婚妇女中有超过一半的人(超过2700 万妇女)在婚姻生活中会遭遇家庭暴力,超过113 的人(超过1800 万妇女)每年都被丈夫一而再、再而三地殴打。事实表明,在交 通事故中,酒后驾车的男、女司机的比例分别是23 %和9 .6 %。可见,女性比男性更适合驾驶。
你无须对上面所讲的事件记忆深刻。因为它们都在月统计数据斯编我们!
人们常运用统计数据来提出证据。可能你经常听到人们用这样一些话来支持自己的论证:“我能用统计数据证明这一点。”很多时候我们都使用统计数据(往往是不恰当地使用)来帮助我们做出决定,比如,评估国家的经济活动和社会发展、决定保留什么电视节目、确定投资策略、帮助人们决定该赌什么体育项目、评估人们对性生活的满意度、预测天气等。
统计数据是一种以数字形式表现出来的证据。这样的证据可以给人留下深刻的印象,因为数字使证据看起来非常科学、精确,让人感觉似乎这就代表着“事实”。然而,统计数据可以并且经常欺骗大家!表面上它们很有说服力,事实上却不一定。作为一个批判性思考者,你必须力求查明误用统计数据的推理。由于篇幅有限,我们不可能把所有带欺骗性的统计数据都列举出来。然而,这一章将为你提供一些普遍的、广泛使用的策略,你可以通过这些策略来查明统计数据的欺骗性。除此之外,这一章还将通过许多最常见的滥用、误用统计数据的事例,来提醒你小心统计数据所提供的证据。
圆批列性问题:统计数据是否具有欺骗性?
不可知的、有偏见的统计数据
找出具有欺骗性的统计数据,首要策略是尽可能多地了解人们如何获得这些统计数据。我们能否知道美国的艾滋病患者、堕胎者、盗窃商店者、白领阶层犯罪者、公务员、每天饮酒超过三瓶啤酒的人、殴打妻子的人、流浪者以及吸毒者的精确人数?对此我们表示怀疑。为什么?因为在获得准确的统计数据的过程中,由于某些特定原因,将出现各种各样的干扰,比如,不愿提供真实信息、没能记录下事件过程、观察事件时出现仪器故障或随机误差。因此,统计数据常被看作是“经过训练的推测”。那些推测很可能相当有用,也可能相当具有欺骗性。你需要时常提醒自己:“作者是如何得出这些估计的呢?"
在关干各种身体不适症及医疗不适症的报告中,普遍存在着误用数据的情况,尤其是当某种不适症被人们关注的时候更容易被误用。例如,近期一本关于进食障碍的书里写到,每年有巧万年轻妇女死于厌食症。随后,媒体频繁地引用这个数据。这个巨大的数字使有些人感到不安和恐惧。有人对此进行了更精确的研究,发现事实是,每年有巧万妇女遭受进食障碍的痛苦,但是最近一年中仅有54 人因此而丧命。这些事例提醒我们要警惕那些企图说服我们的、令人印象深刻的数字,尤其是在很难使用精确的测量方法做统计时更应该注意。
令人圈惑的平均数
阅读以下这些句子,看看有什么问题:
( l )当前美国人的收入比以往任何时候都高;美国工人的平均收入是3 . 5 万美元。
( 2 )目前,工厂造成的空气污染的平均值低于危险水平。这两个例子都使用了“平均”这个词。但是,定义一个平均数有三种不同的方法,而且在大多数情况下不同的定义会得到不同的平均数值。是哪三种方法呢?
第一种方法是将所有的数据相加,再用所得的和除以数据的个数,得到的结果就叫做算术平均数。
第二种方法是按从大到小的顺序列出所有数据,找出位于中间的那个数。这个数叫做中数。一组数值中有一半数据大于中数,一半数据小于中数。
第三种方法是列出所有数据,然后将不同的数值排列归类。在一组数据中出现次数最多的那个数值叫做众数。
作者讨论的是算术平均数、中数还是众数,会产生很大的差异。再来分析一下美国人的收入分布状况。有的人收人极高,如年薪200 万美元。这样高的收入将会大大地提高算术平均数。然而,这些个别的高收入对于中数或众数的影响都很小。因此,如果某人希望使平均收入看起来高一些,算术平均数可能是最能达到目的的平均数。现在你明白,当人们谈论收入时,明确他们采用的是何种平均数有多么重要了吧。
让我们来仔细看看第二个例子。如果作者所给出的是众数或者是中数,都可能使我们得出错误的判断,认为空气污染的程度还没有超过安全范围。例如,即使产生严重污染的工厂只是少数,但这些工厂排放的污染物的总和远远超过危险水平― 就算把这些污染物分散到整个大气层里也是相当危险的。在这种情形下,用众数或中数来表示污染值都会非常低,但是算术平均数却会非常高。当你看见表示“平均”的数值时,都应该想想:“采用算术平均数、中数或众数是否有差别?”为了回答这个问题,请你思考使用不同平均数的含义会如何改变已知信息的意义。
通常,不只是决定采用哪一种平均数才重要,决定最小值和最大值之间的间距(即数据的范围)、每个数据出现的频率(即数据的分布)也同样重要。例如,假设你需要一些信息来帮助你决定吃或不吃从邻近海洋里捕捉到的鱼。如果只告诉你那些鱼的平均汞含量,你会满意吗?显然,这些信息是不够的。
我们还想知道汞含量值的范围,也就是说,汞含量可能达到的最高值和最低值以及不同含量值出现的频率。因为有可能所算出的平均数是在“安全”标准内,但是如果有10 %的鱼汞含量高于“安全”标准,我想你宁愿不选择这些鱼作为晚餐。让我们再来分析另一个事例。在这个事例中,掌握数据的范围和分布是至关重要的。
美国不是一个过度拥挤的国家。就全国范围而言,每平方英里’还不到60 人,低于大多数国家的人口密度。
首先,我们怀疑算术平均数不能代表人口密度。虽然这里用算术平均数取得的人口密度可能非常低,但是,众所周知,美国的一些地区,如东北部人口密度非常高。因此,虽然美国的平均人口密度并不高,但事实上美国的一些地区是过度拥挤的。可见,当你看到平均数时,问问自己:“我是否需要了解数据的范围和分布情况?"
结论与证据不相符合
有些人在表达他们的观点时常常使我们感到疑惑,因为他们所宣称的已经被证明的问题与他们使用的统计数据所证明的问题大相径庭。看起来这些统计数据似乎能证明作者的观点,实际上却不能!这里我们向你介绍两种判断这种欺骗的策略。一种策略是,不去着作着钟契笼计数据,并问自己:“哪种统计数据有助于证明作者的结论?”然后,将所需要的统计数据与作者给出的统计数据进行比较。如果这两种数据不匹配,你就可能找出了一个, l 平方英里约为259 平方会里― 译者注
统计数据上的谎言。下面的例子将为你提供应用这种策略的机会。一家汽车销售公司宣称其所推出的某款新型汽车是一个巨大的成功,因为每100 个购买该款汽车的人里,只有5 个人向代理商投诉这款车的性能不够好。“95 %的买主都对这款车感到满意,”推销员说,“证明这是款非常好的车。”
汽车经销商是怎样得出95 %的买主都感到满意这个结论的呢?他本应该在购买这款车的所有买主中随机抽取一大批人并询问他们:“你对你的新车满意吗?”但是,他没有那样做,他仅仅听到了那些提出投诉的买主的意见,并由此提出了一个未经证实的假设― 所有没有投诉的买主对这款车都感到满意。由此,经销商通过这一个事实(少数买主投诉)而得出另一个结论(多数买主满意)。从这个事例学到的重要教训就是,我们要仔细地注意统计数据的措辞和结沦的措辞,看两者说明的是不是同一件事。如果两者不一致,那么作者就可能在运用统计数据说谎。哪种统计数据给出的证据能支持我们想得出的结论呢?我们常常为此感到头疼。让我们来看一种更为有效的策略。不要着作者提出的结论,而是子鹉呻查作者所使用的统计数据,然后问问自己:“由这些统计数据得出什么结论是恰当的呢?”接下来,把你得出的结论与作者的结论进行比较。
请你试着用这种策略来审查下面这个例子。
据说,差不多有114 的精神治疗师对他们的未成年患者有虐待行为。一名临床 心理学家就此问题对国内一些著名的心理学工作者进行了调查。在参加这次调查的90 名心理学工作者中,有24 % 的人表示他们知道一些关于临床 医学工作者虐待患者的事。看完这段话,你是否得出了这样的结论:差不多有114 的临床
第11 章统计数据是否具有欺编性 200 医学工作者声称他们知道一些临床 医学工作者虐待未成年患者的事例。你发现统计数据所证明的结论与作者给出的结论的区别了吗?如果你已经发现了它们的区别,说明你已经发现这个作者是如何运用统计数据来撒谎了。
现在,用下面的例子进行练习 。
1995 年,一名报刊专栏作家对一些女性读者进行了访问,询问她们:“你情愿被丈夫紧紧抱住并温 柔体贴地对待,而忘掉‘行动’吗?”这名作家报告说,接受访问的女性中有72 %的人对这个问题回答了“是”。所以她得出这样的结论:“这次调查表明,相当多的妇女对性生活不感兴趣。”
你发现这名作者是如何在提供一个事实时得出另一个结论的冯?你是否认为,如果这名专栏作家的问题是:“你喜欢过性生活玛?”所得的结果将会与这次调查的结果不同。
借助遗漏的信息撒谎
由于统计数据的不完善,我们常常被它欺骗。因此,进一步发现统计数据有纸漏的有效策略就是思考这样的问题:“在你判断出统计数据的影响之前,你还需要哪些进一步的信息?”让我们通过下面这两个例子来说明问这个问题的作用。
1 一股犯罪浪潮袭击了我市。去年杀人犯的比例增加了67 %。2 .与其他近距离接触的运动相比,拳击运动的危险性更小。纽约一项历时30 年的关于运动引起死亡的调查显示,在这期间,棒球运动中死亡了43 人,在死亡率方面超过了足球(22 人)和拳击(21 人)。
一开始,67 %这个数字会给你留下相当深刻的印象。但是请注意,这里有信息被忽略了,即计算出这个百分比的基础― 绝对数值。同样是增加67 % ,从300 个增加到500 个与从3 个增加到5个,哪个更令我们警觉呢?在第二个例子中,我们知道绝对数值,但不知道百分比。难道我们不需要了解这些绝对数值转化成百分比对运动员意味着什么吗?毕竟,从事棒球运动的人要比从事拳击运动的人多得多。
当你遇到令人印象深刻或震撼人心的数字或百分比时,千万要小自。你可能需要获得一些其他信息来判断这些数字何以能令人印象深刻。
另一种可能被忽略的信息是相关比较。一个行之有效的方法就是问问自己:“与… … 相比会怎样呢?"
下面的每个描述都说明,如果进行比较的话,统计数据会更有意义:
1 .费滋牌阿司匹林产生作用的速度要快50 %。
2 .用于艾滋病研究的经费远远高于其所需要的数目。去年,政府在艾滋病研究项目上的投入超过了12 亿美元。3 .大学学历意味着高收入。20 阅年春季的一项调查发现,拥有学士学位的工人平均年收入为3 . 5 万美元。
经过提示再来看第一个描述,难道你不认为应该知道费滋牌阿司匹林产生作用的速度为什么快50 %吗?与那些没有效果的阿司匹林相比,还是与以前的费滋牌阿司匹林相比?同理,对第二个描述,难道你不想知道往年用于艾滋病研究的经费,或者用于其他疾病的经费,或者政府在与健康有关的研究项目上所投入的资金的总和吗?再来看第三个描述,如果把这个平均收人与那些同样高智商却没有上过大学的人的平均收入相比,结果又会怎样呢?
当你遇到统计数据时,一定要想想:“有没有什么相关信息被忽略了?"
危险的统计数据与遗漏的信息
" A 药可将你患结肠癌的几率减少5 %。”
“研究表明,乳房X 线透视 可使50 岁以上的老年妇女死于乳腺癌的几率减少10 %。”
统计数据在讨论某些问题,尤其是关于健康危险的问题时,普遍的作用是报告某种干预能使危险减少的效果。这类报告可能具有欺骗性。相同危险减少的比例既可以用“相对的”术语报告也可以用“绝对的”术语报告,这之间的差别可能极大地影响我们对危险减少的真实程度的知觉。
想像一下,一个心脏有问题的60 岁老人在与医生讨论某项有益的治疗,这项治疗可以使他避免心脏病发作的可能性。医生采用统计数据来评价三种治疗方案:
( l )治疗方案x 将使心脏病发作的可能性减少20 %。( 2)治疗方案Y 将使这种风险减少1 %。
( 3 )采用治疗方案Z , 5 年之内,96 %的男性可以避免心脏病发作,而不接受治疗的男性中有95 %的人将发病。
这位老人应该选择哪一种治疗方案呢?我们认为他会选择第一种。但是事实上,这些描述针对的是同一种方案的治疗效果,它们只是以不同的语言来描述心脏病发作的风险。第一种评价描述的是相对减少的危险性(20 % )。假设每100 个心脏病患者中本来有5个人发病,如果采用这种治疗方案发作的人减少为4 个,相对原来的5 个人就减少了1 / 5 ,或者说20 %。从5 %减少到4 %的绝对变化只有1 % ,也就是第二种评价的意思。并且,病情好转的人数从95 人增加到%人的变化比例也只有1 % ,即第三种评价的意思。由此可见,从相对的角度来描述风险减少的比例,比起从绝对的角度来描述,风险减少的幅度比真实值更大;使用相对值来表示某种治疗方案的效果时,人们也更乐意接受该方案。可能正如你所期望的那样,医药公司在他们的药品广告中通常使用相对值来介绍药品的效果,媒体也倾向于报道那些相对值。
使用相对值类数据来描述风险减少可能具有欺骗性。当你遇到使用这些统计数据的论证时,一定要想一想,如果使用绝对值会出现什么不同,数据给人的印象是否也不及先前那样深刻。
总结
本章我们着重讲了一些帮助你发现人们运用统计数据“撒谎”的策略。在本章开头,我们提到了关于家庭暴力和进食障碍的描述,现在,我们希望你能找出其中的统计数据上的问题。提示:“超过2700 万”这个数据是从哪里得来的?如果你打算比较男性和女性的驾驶能力,相对于统计数据所提供的证据,难道你不认为应该更关注每公里所发生的交 通事故的数量吗?
1 .尽可能地找出你所知道的这些统计数据是如何得出来的。问问自己:“作者是怎么知道的呢?"
2 .注意作者所使用的平均数的类型。
3 .小心证据和结论不相符合。
4 .不看作者的统计数据。将你认为所需要的统计数据与作者实际给出的数据进行比较。
5 .根据作者给出的统计数据,得出你自己的结论。如果与作者的结论不匹配,说明可能有什么地方出错了。
6 .看看哪些信息被遗漏了。特别要小心那些易使人误解的数字、百分比以及类比。
练习
找出下面每个练习 中使用不恰当的证据。
练习 l
该是让那些主张“不断增税,不断花钱”的政治家离开国会的时候了,只有这样,国会才能开展减少美国公民税务负担的工作。现在,一个典型的美国家庭要向联邦、州及地方缴纳自己收入的27 .3 %作为税金。事实上,在1998 年,平均每个家庭缴纳的联邦所得税超过5 万美元。
练习 2
星期五下午,当我们乘车经过高速公路时,朋友摇着头感叹道:“开车已经不安全了。”然而事实上是,如今在美国开车要比60年前安全得多。1984 年,每10 万人里有18 . 4 人死于交 通事故,而1970 年和1950 年分别
是25 . 8 人和233 人。如今,当你开车行驶在路上比你待在家里剪办公室里安全得多。一年中有12 %的美国人由于家庭的事故而接受治疗,5 %的人在工作中受伤,而仅有2 . 2 %的人在交 通事故中受伤。
练习 3
珍妮弗:律师们纯粹是在盗窃保险公司的钱。据我所知,去年律师们忙于医疗事故的案子,仅从获胜的案子里就平均获得了20万美元的赔偿。
安东尼:可是,我认为那笔钱是他们应得的。医生们越来越粗心了。在过去的3 年里,病人因眼科手术起诉医生的案子增加了25%。
珍妮弗:噢,医生们出了毛病,这真令人担心。我在某处读到,我们国家每4 个人里就有3 个人知道医生被起诉的事例。如果我知道病人起诉我的可能性为75 %的话,我绝对不会当医生。
安东尼:我想你说得对,由于巨额保费的压力,我们真的该为失去好医生而担心了。我的医生告诉我,他的保险税率在过去2 年里已增加了20 %。
珍妮弗:你的观点很对。想想看,我在费城报纸上看到了一则由200 名医生签名的要求禁止对医疗事故征收意外开支准备金的联合申请。
安东尼:珍尼弗,现在我承认,对医疗事故征收意外开支准备金是不合理的。毕竟,我们所引用的统计数据有60 %都是支持这个结论的.
第11 章统计数据是否具有欺编性 215 抽样回答一练习 1
结论:国会的改革是必要的,只有刀以羊才能减轻美国人的税务负担。理由:美国家庭的税务负担太重了。一个典型的美国家庭向联邦、州及地方政府缴纳收人的27 . 3 %作为税金,每家平均缴纳5 万美元联邦所得税。
美国家庭的税务负担真的过重了吗?我们应该警惕“典型的”和“平均”这两个词,这可能是在欺骗我们。我们需要知道这里采用的是哪种平均数,是算术平均数、中数还是众数?例如,假设采用的是算术平均数,由于那些特别富裕的家庭缴纳的税金非常多,算术平均数就可能因这部分税金而明显增加。例如,随着收人超过100 万美元的家庭越来越多,将会使算术平均数急剧增加。中数则会是一个比较小的数字。例如,在19 %年,家庭所得税的算术平均数是48 165 美元,而中数则只有35 536 美元。这里还有一组很重要的对比数字被忽略了。例如,与前些年的税率相比,现在的税率是多还是少?可能实际上现在的税率已经减少了。
练习 2
结论:如今在美国开车与60 年前相比更安全了。