在分组比较中都占优势的一方,在总评中有时反而是失势的一方
一个辛普森悖论的典型示例:
性别 | 法学院录取人数 | 法学院申请人数 | 法学院录取比例 | 商学院录取人数 | 商学院申请人数 | 商学院录取比例 | 合计录取比例 |
---|---|---|---|---|---|---|---|
男生 | 8 | 53 | 15.1% | 201 | 251 | 80.1% | 68.8% |
女生 | 51 | 152 | 33.6% | 92 | 101 | 91.1% | 56.5% |
合计 | 59 | 205 | 293 | 352 |
- 女生在两个学院的录取率都更高,但整体的录取率却更低
- 分析思路:商学院的录取率普遍较高(男生80.1%,女生91.1%),而法学院的录取率较低(男生15.1%,女生33.6%);而男生大部分都申请商学院(高录取率),女生大多数申请法学院(低录取率)
- 总结:由于申请人数的分布不同,导致了整体录取率的逆转
辛普森悖论的总结
- 辛普森悖论出现的两个前提:(1)分组差异较大(2)存在未知的混杂因素
- 辛普森悖论强调了在数据分析中进行分层分析的重要性,以避免误导性的结论