醫咖會：被誤解的P值-統計分析-臨床研習社

開篇宣告：1：以下內容轉自以下內容轉自微信公眾號醫咖會《被誤解的P值》，如有侵權，可聯絡刪除

2. 以下觀點，僅代表作者個人觀點，請帶著質疑的態度去閱讀。如有問題，歡迎評論區留言或直接聯絡作者

P值一直是臨床研究中評估結果統計學顯著性的核心指標，雖應用廣泛，卻常遭誤讀，從而可能對臨床決策產生負面影響。本文整理自《Br J Anaesth》發表的一項社論^[1]，探討了P值的常見認知誤區、過度依賴P值的後果、以及最佳化結果解讀的方法。

P值的常見誤解

P值最常見的誤解之一，是認為P值代表原假設為真的機率。許多人錯誤地認為，P值為0.05意味著該結果有5%的機率是偶然產生的。正如Staffa和Zurakowski^[2,3]強調的那樣，P值常常在缺乏效應值或置信區間的情況下被報告，導致混淆或錯誤解讀。這種誤解往往使人們對具有統計學顯著性的結果過度自信。

另一個常見誤區，是認為僅憑P值就能決定研究結果的有效性或重要性。通常，如果P值<0.05，結果被認為“顯著”，但這一做法忽略了一個重要事實：統計學顯著性並不等同於臨床重要性。即使某項研究的樣本量很大，並得出了具有統計學顯著性的P值，其效應值（effect size）可能極小，以至於在實踐中並無實際意義^[4]。

多重比較中的I類錯誤

顯著性檢驗存在一定程度的誤差，包括I類錯誤和II類錯誤。I類錯誤（假陽性）指錯誤地拒絕原假設，即實際上不存在效應卻被判定為存在；II類錯誤（假陰性）則是錯誤地接受原假設，即實際存在效應卻被判定為不存在。

在臨床試驗中，當單個研究進行多重比較時就會出現多重性問題^[5]。隨著統計檢驗次數的增加，I類錯誤的發生率會放大。族錯誤率（即一組假設檢驗中至少出現一次I類錯誤的機率）會隨著檢驗次數的增加而上升。

多重性可能出現在多種場景中，包括：多個亞組間的比較、多個治療組的評估、多個結局指標的測定，或對同一結局指標在不同時間點的分析^[6]。

研究者通常採用事後分析方法（如Bonferroni校正）來修正這一問題，透過將預設的α水平（通常為0.05）除以比較次數來調整顯著性閾值。例如，進行10次比較的研究，其校正後的閾值將變為0.005，這有助於降低I類錯誤的發生機率^[7]。然而，將P值閾值降至0.005也可能帶來重大挑戰。

過度依賴P值的後果

臨床研究中對P值的過度依賴引發諸多不良趨勢。首要問題是發表偏倚，即P值更小的研究更容易獲得發表機會，這種偏倚可能扭曲證據基礎，最終導致採用無效甚至有害的治療方案^[8]。

更值得警惕的是，為追求P值<0.05，部分研究者可能採取"P值操縱（P-hacking）"等不端行為，即透過多種方式反覆分析資料直至達到顯著性標準^[9]。

Greenland^[10]指出，儘管P值本身設計合理，但濫用和誤解現象普遍存在，常導致研究結論被錯誤批判或不當應用。為此他建議採用S值來替代，該指標透過位元（bits）量化關聯強度，能有效降低資料誤讀風險。S值是P值的負二進制對數變換，用於衡量資料相對於背景假設、模型及檢驗假設的資訊量。

例如，P值0.05對應的S值為4.32位元，其為意外的程度僅略高於連續四次擲硬幣均出現正面的情況。當P值趨近於零時，S值的位元數將遞增，使其成為更直觀的證據強度評估指標^[11]。

P值的替代方案

鑑於P值的侷限性，我們需要能更好體現臨床意義的評估指標。最小臨床重要差異（MCID）正是這樣一種指標，代表患者能夠感知的最小療效差異，且該差異足以改變臨床決策^[12]。

與僅關注統計顯著性的P值不同，MCID從患者角度強調研究結果的實際價值。例如，評估新型鎮痛技術時，研究者不應僅關注疼痛評分是否具有統計學意義的下降，更需考量這種改善是否達到提升患者生活質量的程度。

在樣本量、統計效能與臨床意義的關係方面，必須認識到傳統效能計算往往只追求統計顯著性而忽視實際價值。基於MCID計算樣本量可確保研究具備檢測臨床相關差異的統計效能。此外，參照MCID解讀效應估計值及其置信區間，能突顯研究結果的實踐意義，幫助臨床醫生判斷結果是否足以改善診療實踐。

來看一個假設案例：

某研究評估新型鎮痛藥對術後疼痛的管理效果，結果顯示疼痛評分顯著降低（P=0.03）。然而在10分量表上，疼痛評分僅降低1分。若不考慮最小臨床重要差異（MCID），這一結果可能被解讀為藥物有效的證據。但若該疼痛量表的MCID確定為2分，則研究觀察到的改善並未達到臨床意義閾值。此時，儘管P值具有統計學顯著性，該治療方案仍不能被認定為臨床有效。這個案例展現了將MCID與統計分析結合的重要性——唯有如此，才能準確理解研究結果的臨床價值。