开篇声明:1:以下内容转自以下内容转自微信公众号大家的风信研《【人间的统计学】补:效应量,假设检验那简单却重要的兄弟》,如有侵权,可联系删除
2. 以下观点,仅代表作者个人观点,请带着质疑的态度去阅读。如有问题,欢迎评论区留言或直接联系作者
曾几何时,假设检验,像一个超级英雄一样,以证伪的二元逻辑,把人们从区间估计的不确定性中解救出来。这感觉就像你老师把一张充满填空题的试卷,换成了只有对错的判断题。从此,人们做决策的时间和智慧成本大大降低。统计学开始以摧枯拉朽的态势横扫整个世界。
然而,又像每一个现实主义故事的结局一样:屠龙者,终成恶龙。当假设检验以粗暴的二分确定性带领统计学占领学术界时,也埋下了统计推断滥用的种子。反抗来自两部分:一部分人从逻辑的角度劝导使用假设检验时要小心,毕竟,当它以不确定的逻辑给出了一个确定的结果时,我们必须要审慎地了解整个过程。另一部分人则干脆地表达了,“假设检验的判断形式,并没有回答我们关心的问题”---这个世界,并不是所有所有问题都能由判断解决。
前一个问题,前面我花了好多篇章,想把假设检验的逻辑描述清楚[1][2][3][4][5][6]。今天,我们再来关注后一个问题。先说编一个小故事吧:
在这内卷的时代,补课是初高中生的常规选择了。旧西方虽然是一家私人补习机构,但为了响应国家的“数据赋能”号召。还是花大价钱从大学雇佣了你。希望你能通过分析数据,给他们赋点能。首先希望你解决的就是,评价老板王二狗发明的“卷式教学法”,是否能显著提高学生的成绩。
作为大学生的你,为了验证效果,决定在进行实验——将1000名学生随机分成两组:500人用传统方法,500人用“卷式教学法”。
三个月后,期末考试结果出来了:
传统组 平均分:80.0
新方法组 平均分:80.2
你兴奋地跑进王二狗办公室:“校长!新方法有效!独立样本t检验p=0.03,统计显著!”
二狗校长看着你那统计逻辑严密的报告,陷入了深深地沉思...
半小时后,二狗校长做出决定:更改招生海报,其它不要写,就在海报上印“独立样本t检验p=0.03,统计显著!卷式教学法有奇效!”字样。学费加收20%。
你第一次学以致用地为工作贡献了自己的统计能力。然而,等你回家把这件事情和你姐姐说的时候(你外甥刚好上初中,在补课),你没上过大学的姐姐却给你一顿臭骂“我关注的是什么p=0.03么?我关注的是80.2和80!提高0.2分让我多花20%的学费,疯了!”
你一下子陷入和深深的沉思。好像也明白了王二狗校长为什么陷入了深深地沉思...
好了。故事编完了。我们来分析一下故事背后的统计问题。
故事中的“你”,错了么?没错,实验和计算的统计逻辑都没有错,当然结果也没有任何问题。“独立样本t检验p=0.03,统计显著!”说明两种方法确实有差异,并且这种差异不是随机性导致的(显著的差异)。
二狗老板改海报时为什么只强调显著差异,不把分数贴出来。而姐姐为什么又大骂“你”一顿呢?因为正常人关注的是“差异有多大(差异的重要性),而非有没有差异(差异的显著性)”。
从这个例子,我们也可以看出,重要性并不等于显著性。
      为了弥补假设检验的这个缺陷,统计学家们提出了“效应量(effect size)”这个概念。用以度量差异大小。其实从上面的例子, 你也很容易猜出,效应量是什么。对,就是80.2-80的那个0.2。
      为了使这种差异的度量更具有推广性,我们在用标准差对其进行去量纲化,消除原始数据的单位影响,使得不同研究、不同测量尺度的结果可以相互比较(想想老师以前说的协方差和相关系数的关系,为什么相关系数应用更广泛)。然后,我们就看到了大名鼎鼎的Cohen's d:
  
Cohen's d可以做n多变种,比如,单样本的时候,可以表达成:
  
前测后测的时候可以表达为:
  
等等。但可以看出,表达的都是一种标准化的差异。这种样本求出来的差异是一种点估计,我们还可以进一步对Cohen’d做一下区间估计,区间估计的原理,详见[7][8][9],这里就不细说了。
这种“把差异表达出来”的思想,可以跟随假设检验,进行更广泛地推广。比如,检验相关性时(学习时间与成绩的相关性),相关系数 ,表达了样本之间的实际相关性,就可以直接当做效应量。回归分析中,标准化之后的回归系数 标(Standardized Beta)也可以当做效应量。
我们在做某些研究时,可以先设定一个“最小效应量”。这样做有几个好处:首先是显性地表达了我们对"研究重要性的期望"。其次,它能帮我们计算“统计功效(power)”,记不记得,老师在介绍假设检验原理时说,单纯的假设检验中,因为备择假设的虚无性,我们是无法计算第二类错误 ,进而无法计算power的。最小效应量可以帮我们把虚无的备择假设实体化,我们就可以计算power了,在此基础上也可以更好地计算研究所需的样本量。(具体我就不细说了,大家结合前面的假设检验章节,自己思考一下吧。)
而我们在汇报我们研究的时候,也不能只汇报P值和显著不显著。完整的报告应该包括:1. 统计检验类型;2. 统计量(t/F值等)和自由度(df);3. p 值(显著性);4. 效应量(Cohen’s d)及其置信区间(CI)。依据这个故事,给大家一个报告的模板:
「卷式教学法」效果评估报告
统计结果:
独立样本t检验表明,卷式组(M=80.2, SD=10.1)与传统组(M=80.0, SD=9.8)差异显著(t(998)=2.17, p=0.03),但效应量极小(Cohen’s d=0.02, 95% CI [-0.10, 0.14])。
实际意义:
成绩仅提高0.2分(0.25%),未达到教育领域的实用显著标准(通常需≥5%提升)。
学费增加20%的情况下,性价比不具吸引力。
建议:
不推荐以「显著提升成绩」为宣传点(可能涉嫌误导)。
需进一步优化教学方法或验证长期效果。
好了,现在大家看到了显著性(p值)和重要性(d值)的相辅相成、相爱相杀了吧。我们最后做一个表来总结一下吧:
情境  | 
   统计结论  | 
   实际意义  | 
   建议行动  | 
  
| p显著 + d小 | 显著  | 
   无意义  | 
   谨慎解释,优化或终止研究  | 
  
| p不显著 + d大 | 不显著  | 
   潜在有意义  | 
   扩大样本量,探索亚组效应  | 
  
| p显著 + d大 | 显著  | 
   有意义  | 
   推广并验证稳健性  | 
  
| p不显著 + d小 | 不显著  | 
   无意义  | 
   放弃研究,重新设计  | 
  
在屠龙者小p成为恶龙之前,小d拯救了他。从此,他们和他们的前辈小抽(抽样分布)、小区(区间估计)一起,组成了恐怖的“统计帮”,横扫学术江湖...他们是如此厉害,直到有一天,江湖盟主老哲,轻轻地问了一句“哦,概率?概率到底是什么...”
这是另一个故事了。但是,大家或许能够从整个《人间的统计学》中找到一些答案吧...

完结
                                    
                                            
                                                










0条评论