• 登录
Skip to content

一起大数据-技术文章心得

一起大数据网由数据爱好者发起并维护,专注数据分析、挖掘、大数据相关领域的技术分享、交流。不定期组织爱好者聚会,期待通过跨行业的交流和碰撞,更好的推进各领域数据的价值落地。

Menu
  • 首页
  • 大数据案例
  • 数据&电子书
  • 视频
    • Excel视频
    • VBA视频
    • Mysql视频
    • 统计学视频
    • SPSS视频
    • R视频
    • SAS视频
    • Python视频
    • 数据挖掘视频
    • 龙星计划-数据挖掘
    • 大数据视频
    • Machine Learning with Python
  • 理论
    • 统计学
    • 数据分析
    • 机器学习
    • 大数据
  • 软件
    • Excel
    • Modeler
    • Python
    • R
    • SAS
    • SPSS
    • SQL
    • PostgreSQL
    • KNIME
  • 技术教程
    • SQL教程
    • SPSS简明教程
    • SAS教程
    • The Little SAS Book
    • SAS EG教程
    • R语言教程
    • Python3教程
    • IT 技术速查手册
    • Data Mining With Python and R
    • SAS Enterprise Miner
  • 问答社区
  • 我要提问
Menu

最常见的统计学谬误

Posted on 2022年8月17日

导读

  • 在统计学中,有哪些常见的谬误?
  • 在分组比较中都占优势的一方,为什么在总评中反而成为失势的一方?
  • 小红热爱音乐,她更可能是琴师还是会计?
  • 乳房影像检查显示自己患上乳癌,确诊和误诊的概率分别为多大?
  • 把一个样本从一个组移去另一个组,怎么会同时提升两个组的平均值?

今天这篇文章,和大家分享几个最常见的统计学谬误。

(1)辛普森悖论(Simpson’s Paradox)

辛普森悖论,指的是在分组比较中都占优势的一方,在总评中反而成为失势的一方。

上图显示的是某大学法学院和商学院招生的数据统计。我们可以看到,法学院男生的录取比例为8/53=15.1%,女生录取的比例为51/152=33.6%。同理,商学院男生的录取比例为80.1%,女生的录取比例为91.1%。

无论在法学院还是在商学院,女生的录取比例都高于男生。本文的男性读者读到这里,可能会感到一丝不平。

现在我们把两个学院录取的男女生人数相加,再来做一下统计。

男生录取的比例为209/304=68.8%。女生录取的比例为143/253=56.5%。男生的录取率要高于女生。这下,恐怕要轮到女生感到不公了。

那么问题来了:该大学的招生政策,到底有没有性别歧视?如果有,是歧视男生还是女生?

辛普森悖论告诉我们,很多时候,在分析数据的时候,不能简单的将分组数据汇总相加。我们需要仔细观察分组数据的特征。比如在上面这个例子中,法学院的录取率要远远低于商学院,而大多数男生选择申请商学院。因此即使男生在法学院的申请中被拒率很高,被拒掉的绝对数量却不见得多。女生的情况,则恰恰相反。

在我们得出任何基于统计分析的结论前,先认真想一想,该结论是不是符合常识?有没有可能被表面的数据掩盖了背后的真相?这是我们能够从辛普森悖论中学到的教训。

(2)基本比率谬误(Base Rate Fallacy)

让我先用一个简单的例子帮助大家理解基本比率谬误这个概念。

假设小红热爱音乐,几乎每天在家里弹钢琴,有时候还友情客串朋友的宴会为大家演奏一曲。 现在请问,小红的职业是什么?

在没有其他信息的前提下,你应该选择B)会计,而非A)琴师。主要原因在于,从事会计的人口数量,要远远高于从事琴师工作的人口数。这个数量,就叫做基本比率(Base Rate)。

再举个例子。乳房影像检查(Mammography),在帮助女性排查乳腺癌中应用广泛。事实上不少机构都鼓励40岁以上的女性每年在体检中包括乳房影像检查,以确认自己是否患上乳腺癌。

以一个40岁左右的女性为例。基于美国的统计数据,该女性患有乳腺癌的概率大约为1%左右。【注意,这个比率和一位女性一生中查出乳腺癌的概率是两个概念。根据美国的数据,到80岁查出乳腺癌的概率为12%左右。】

如果她选择通过乳房影像检查来测试自己是否患上乳腺癌,检查结果出现误差(即被误诊患上乳腺癌)的概率为9%左右。

那么问题来了:如果一位女性病人去做了一个乳房影像检查,测试结果显示她患上乳腺癌。她真正患上乳腺癌的概率是多少?

很多人可能会回答91%,因为乳房影像检查出现误诊的概率为9%。但这是错误的答案。

事实上,她患上乳腺癌的概率仅为9%。计算过程如上图所示。由于患上乳腺癌的女性的基本比率(Base Rate)本来就很小,再加上乳房影像检查自身带有的误诊率,因此导致最后测试结果为患癌的人群,其实只有9%左右真的患上了乳腺癌。

这个例子告诉我们,在我们做出任何判断前,首先需要对基本比率有个大致的认识,否则很容易不小心就陷入统计的陷阱。

(3)罗杰斯现象(Will Rogers Phenomenon)

罗杰斯现象指的是,在做数据统计时,如果把一个样本从一个组移去另一个组,会同时提升两个组的平均值。

一些读者看到这句话,可能会觉得不可思议。让我通过一个例子来给大家解释一下。

假设有6个人,分别为40、50、60、70、80、和90岁。现在将他们分为两组。第一组包括40岁和50岁的两人,因此组平均年龄为45岁。剩下的归入第二组,因此组平均年龄为75岁。

现在把第二组中的那位60岁的哥们,移去第一组。移过去以后,第一组的平均年龄变为50岁,而第二组的平均年龄变为80岁。两组的平均年龄都上升了。

罗杰斯现象,导致我们在医学领域产生一些容易让人混淆的,似是而非的结论。

举例来说,前列腺特异抗原测试(PSA测试)可以帮助我们诊断前列腺癌。在没有发明这项测试前,很多人患了前列腺癌却不自知,因此他们被归入“健康”人群。而那些被确诊前列腺癌的患者,被归入“患者”人群。

有了PSA测试这项技术以后,很多人在年纪轻轻时也能通过该测试确诊自己是否患上前列腺癌。这部分人,就被移出“健康”人群,归入“患者”人群。

由于这个归类的变化,导致患上前列腺癌的“患者”人群,以及“健康”人群的平均寿命都得到了提高。因为“健康”人群中被移去一部分癌症患者,而这些癌症患者属于“轻度病患”(前列腺癌的致死率很低),因此“健康”和“患者”两个人群的寿命平均值均得到了提升,让人误以为PSA测试能够帮助我们延长寿命。

【注:如果你没有看懂这个例子,可以尝试回过头去再读一遍,多想想就能明白了。】

(4)伯克森悖论(Berkson’s Paradox)

伯克森悖论,指的是两个本来无关的变量之间体现出貌似强烈的相关关系。

举个例子来说,假设某学校在招收学生时,要求学生要么学习成绩好,要么体育成绩好。

所有的报考学生需要参加两门考试:文化(语数外),和体育(跑跳投)。最后,学校仅录取在任一考试中考到90分以上的报考学生。

所以能够被学校录取的学生,要么在文化考试中考到90分以上,或者在体育考试中考到90分以上,或者在两门考试中都考到90分以上。

现在如果我们分析这些被入取学生的成绩分布,会发现一个学生的学习成绩,和体育成绩是负相关的。因为那些体育成绩最好的学生(比如体育100分),他们的文化平均分为50分(假设他们的文化考试呈现正态分布)。而体育成绩最差的学生(比如体育成绩10分),其文化平均成绩为95分(因为只有超过90分的学生才被录取)。

因此,分析人员可能会得出结论:体育越好,文化成绩越差。文化成绩越好,体育越差。但这个结论显然是错误的。

(5)生日悖论(Birthday Paradox)

先来算一道很简单的题目:

假设你的班上一共有23位同学,其中任何两位同学生日撞期的概率为多少?

有人可能会这么想:一年有365天,把这23位同学分布在365天里,撞期的概率应该很小。大概不到10%吧。

事实上,23位同学中,生日撞期的概率为1/2。就是说,有一半的概率,这个班上至少有一对同学的生日相同。

对于这个问题,你可以这么考虑。我们先来算一下23位同学生日不撞期的概率。然后用1减去那个数字,就是这些同学生日撞期的概率。

假设23位同学排队逐个进入教室。第一个进入教室的同学,其生日和其他同学不一样的概率为1。第二位同学,其生日和其他同学不一样的概率为364/365。第三位同学,其生日和前面两位同学生日不一样的概率为363/365。

以此类推,所有同学生日不撞期的概率为1 X 364/365 X 363/365 ……

然后用1减去上面的乘积,可以得出,当教室里有23个同学时,其结果为0.5左右。

总结

统计学是一门非常有用的学科。可以毫不夸张的说,每一位大学生都应该学一点基础统计学。但是上面的例子也告诉我们,统计学中有不少陷阱。如果不了解这些误区,我们很可能会被错误的统计方法迷惑,得出不正确的结论。

提高自己的科学知识水平,保持不断学习的习惯,是让自己变得更聪明的唯一途径。

希望对大家有所帮助。

发表评论 取消回复

要发表评论,您必须先登录。

推荐访问


数据分析交流:数据分析交流
Excel学习: Excel学习交流
Python交流:一起学习Python(数据分
SQL交流:一起学习SQL(数据分析
微博:一起大数据

最新提问

  • SQL Chat
  • sql server 不允许保存更改。您所做的更改要求删除并重新创建以下表。您对无法重新创建的表进行了更改或者启用了”阻止保存要求重新创建表的更改”选项。
  • 偏相关分析
  • 复相关系数
  • 【R语言】熵权法确定权重
  • 如何破解Excel VBA密码
  • 解决 vba 报错:要在64位系统上使用,请检查并更新Declare 语句
  • 基于 HuggingFace Transformer 的统一综合自然语言处理库
  • sqlserver分区表索引
  • Navicat连接数据库后不显示库、表、数据

文章标签

ARIMA CBC Excel GBDT KNN Modeler Mysql pandas PostgreSQL python python数据可视化 R SAS sklearn SPSS SQL SVM Tableau TensorFlow VBA 主成分分析 关联规则 决策树 协同过滤 可视化 因子分析 大数据 大数据分析 推荐系统 数据分析 数据可视化 数据挖掘 数据透视表 文本挖掘 时间序列 机器学习 深度学习 神经网络 结构方程 统计学 联合分析 聚类 聚类分析 逻辑回归 随机森林
©2023 一起大数据-技术文章心得 | Design: Newspaperly WordPress Theme