大家的風信研:【人間的統計學】補:效應量,假設檢驗那簡單卻重要的兄弟

大家的風信研:【人間的統計學】補:效應量,假設檢驗那簡單卻重要的兄弟

開篇宣告:1:以下內容轉自以下內容轉自微信公眾號大家的風信研《【人間的統計學】補:效應量,假設檢驗那簡單卻重要的兄弟》,如有侵權,可聯絡刪除

               2. 以下觀點,僅代表作者個人觀點,請帶著質疑的態度去閱讀。如有問題,歡迎評論區留言或直接聯絡作者

    曾幾何時,假設檢驗,像一個超級英雄一樣,以證偽的二元邏輯,把人們從區間估計的不確定性中解救出來。這感覺就像你老師把一張充滿填空題的試卷,換成了只有對錯的判斷題。從此,人們做決策的時間和智慧成本大大降低。統計學開始以摧枯拉朽的態勢橫掃整個世界。

      然而,又像每一個現實主義故事的結局一樣:屠龍者,終成惡龍。當假設檢驗以粗暴的二分確定性帶領統計學佔領學術界時,也埋下了統計推斷濫用的種子。反抗來自兩部分:一部分人從邏輯的角度勸導使用假設檢驗時要小心,畢竟,當它以不確定的邏輯給出了一個確定的結果時,我們必須要審慎地瞭解整個過程。另一部分人則乾脆地表達了,“假設檢驗的判斷形式,並沒有回答我們關心的問題”---這個世界,並不是所有所有問題都能由判斷解決。

      前一個問題,前面我花了好多篇章,想把假設檢驗的邏輯描述清楚[1][2][3][4][5][6]。今天,我們再來關注後一個問題。先說編一個小故事吧:


在這內卷的時代,補課是初高中生的常規選擇了。舊西方雖然是一傢俬人補習機構,但爲了響應國家的“資料賦能”號召。還是花大價錢從大學僱傭了你。希望你能透過分析資料,給他們賦點能。首先希望你解決的就是,評價老闆王二狗發明的“卷式教學法”,是否能顯著提高學生的成績。

作為大學生的你,爲了驗證效果,決定在進行實驗——將1000名學生隨機分成兩組:500人用傳統方法,500人用“卷式教學法”。

三個月後,期末考試結果出來了:
傳統組 平均分:80.0
新方法組 平均分:80.2

你興奮地跑進王二狗辦公室:“校長!新方法有效!獨立樣本t檢驗p=0.03,統計顯著!”
二狗校長看著你那統計邏輯嚴密的報告,陷入了深深地沉思...

半小時後,二狗校長做出決定:更改招生海報,其它不要寫,就在海報上印“獨立樣本t檢驗p=0.03,統計顯著!卷式教學法有奇效!”字樣。學費加收20%。

你第一次學以致用地為工作貢獻了自己的統計能力。然而,等你回家把這件事情和你姐姐說的時候(你外甥剛好上初中,在補課),你沒上過大學的姐姐卻給你一頓臭罵“我關注的是什麼p=0.03麼?我關注的是80.2和80!提高0.2分讓我多花20%的學費,瘋了!”

你一下子陷入和深深的沉思。好像也明白了王二狗校長為什麼陷入了深深地沉思...


      好了。故事編完了。我們來分析一下故事背後的統計問題。

      故事中的“你”,錯了麼?沒錯,實驗和計算的統計邏輯都沒有錯,當然結果也沒有任何問題。“獨立樣本t檢驗p=0.03,統計顯著!”說明兩種方法確實有差異,並且這種差異不是隨機性導致的(顯著的差異)。

      二狗老闆改海報時為什麼只強調顯著差異,不把分數貼出來。而姐姐為什麼又大罵“你”一頓呢?因為正常人關注的是“差異有多大(差異的重要性),而非有沒有差異(差異的顯著性)”。

      從這個例子,我們也可以看出,重要性並不等於顯著性。

      爲了彌補假設檢驗的這個缺陷,統計學家們提出了“效應量(effect size)”這個概念。用以度量差異大小。其實從上面的例子, 你也很容易猜出,效應量是什麼。對,就是80.2-80的那個0.2。
      爲了使這種差異的度量更具有推廣性,我們在用標準差對其進行去量綱化,消除原始資料的單位影響,使得不同研究、不同測量尺度的結果可以相互比較(想想老師以前說的協方差和相關係數的關係,為什麼相關係數應用更廣泛)。然後,我們就看到了大名鼎鼎的Cohen's d:

Cohen's d可以做n多變種,比如,單樣本的時候,可以表達成:

前測後測的時候可以表達為:

等等。但可以看出,表達的都是一種標準化的差異。這種樣本求出來的差異是一種點估計,我們還可以進一步對Cohen’d做一下區間估計,區間估計的原理,詳見[7][8][9],這裏就不細說了。

     這種“把差異表達出來”的思想,可以跟隨假設檢驗,進行更廣泛地推廣。比如,檢驗相關性時(學習時間與成績的相關性),相關係數 ,表達了樣本之間的實際相關性,就可以直接當做效應量。迴歸分析中,標準化之後的迴歸係數 (Standardized Beta)也可以當做效應量。

      我們在做某些研究時,可以先設定一個“最小效應量”。這樣做有幾個好處:首先是顯性地表達了我們對"研究重要性的期望"。其次,它能幫我們計算“統計功效(power)”,記不記得,老師在介紹假設檢驗原理時說,單純的假設檢驗中,因為備擇假設的虛無性,我們是無法計算第二類錯誤 ,進而無法計算power的。最小效應量可以幫我們把虛無的備擇假設實體化,我們就可以計算power了,在此基礎上也可以更好地計算研究所需的樣本量。(具體我就不細說了,大家結合前面的假設檢驗章節,自己思考一下吧。)

      而我們在彙報我們研究的時候,也不能只彙報P值和顯著不顯著。完整的報告應該包括:1. 統計檢驗型別;2. 統計量(t/F值等)和自由度(df);3. p 值(顯著性);4. 效應量(Cohen’s d)及其置信區間(CI)。依據這個故事,給大家一個報告的模板:


「卷式教學法」效果評估報告

統計結果:
獨立樣本t檢驗表明,卷式組(M=80.2, SD=10.1)與傳統組(M=80.0, SD=9.8)差異顯著(t(998)=2.17, p=0.03),但效應量極小(Cohen’s d=0.02, 95% CI [-0.10, 0.14])。

實際意義:
成績僅提高0.2分(0.25%),未達到教育領域的實用顯著標準(通常需≥5%提升)。
學費增加20%的情況下,價效比不具吸引力。

建議:
不推薦以「顯著提升成績」為宣傳點(可能涉嫌誤導)。
需進一步最佳化教學方法或驗證長期效果。


      好了,現在大家看到了顯著性(p值)和重要性(d值)的相輔相成、相愛相殺了吧。我們最後做一個表來總結一下吧:


情境

統計結論

實際意義

建議行動

p顯著 + d小

顯著

無意義

謹慎解釋,最佳化或終止研究

p不顯著 + d大

不顯著

潛在有意義

擴大樣本量,探索亞組效應

p顯著 + d大

顯著

有意義

推廣並驗證穩健性

p不顯著 + d小

不顯著

無意義

放棄研究,重新設計

     在屠龍者小p成為惡龍之前,小d拯救了他。從此,他們和他們的前輩小抽(抽樣分佈)、小區(區間估計)一起,組成了恐怖的“統計幫”,橫掃學術江湖...他們是如此厲害,直到有一天,江湖盟主老哲,輕輕地問了一句“哦,機率?機率到底是什麼...”

       這是另一個故事了。但是,大家或許能夠從整個《人間的統計學》中找到一些答案吧...

大家的風信研:【人間的統計學】補:效應量,假設檢驗那簡單卻重要的兄弟


完結


原文連結:https://mp.weixin.qq.com/s/ysVEkbsve7RHMVJn_lxCpw

0則評論

評論文章

您的電子郵件等資訊不會被公開,以下所有項目均必填

相關推薦