小胖說統計之九:隨機化

小胖說統計之九:隨機化

開篇宣告:1:以下內容轉自網路,如有侵權,可聯絡刪除

                 2. 以下觀點,僅代表作者個人觀點,請帶著質疑的態度去閱讀。如有問題,歡迎評論區留言或直接聯絡作者

        和前面所提到的盲法一樣,隨機化也是在臨床試驗中避免偏倚的重要設計技巧之一。啥是隨機化呢,很簡單,通俗地說,受試者到底分在那個組,必須是隨機的,服從機率論的原理,不受研究者和受試者主觀意願的影響。隨機化可以消除由於治療分配帶來的偏倚,可以使治療組和對照組具有較好的可比性,更為重要的是隨機化是合理的統計檢驗的基礎,也就是說只有在隨機化的試驗中應用統計檢驗纔是合理的。


        隨機化有哪些方法呢?通常有以下幾種隨機化方法:簡單隨機化、區組隨機化、分層隨機化和動態隨機化。下邊小胖將對這幾種方法一一做簡單介紹。


        1. 簡單隨機化

        我們可以簡單地理解為扔硬幣,來了一個受試者,扔一次硬幣,正面進一組,反面進另一組,簡單易行,但大家可以想到,比如你扔了10 次可能正好有5 正5 反,也可能有4 正6 反,等等,當然你扔的次數越多,正反出現的機率就會越接近。這就出現了一個問題,我們臨床試驗一般例數有限,有時就會出現各組例數相差較大的情況。曾經有人做過計算,你扔100 次,正好50 正50 反的機率只有8%。


        2. 區組隨機化

        顧名思義,就是按照區組進行隨機化,從而保證某一相等區間內各組病人完全相等。舉個簡單的例子吧,兩個處理組A 組和B 組,我們設計4 個病人為一個區組,比如一共A 組和B 組每組要入選100 例病人共200 例吧,那一共有50個區組,4 個病人為一組,在這一組中保證有兩個A 和兩個B,這樣隨機1-4號裡兩個A 兩個B,5-8 號兩個A 兩個B,這樣依次類推。。。這樣我們就可以較好地做到兩組的病人基本相等。為什麼呢,很簡單,如果我們能完成200 例入組的話,可能會出現下邊幾種情況:

        - 入組例數正好是4 的倍數,比如說200 例,204 例等,這時入組例數正好是整倍的區間數(50,51 個區間),由於每個區間都是兩個A 兩個B,那麼最後每組的病人數肯定是相等的(100,102 例)

        - 入組例數除以4 的餘數是1,比如說201 例,那麼有一個組會多出1 例來

        - 入組例數除以4 的餘數是2,比如說202 例,這時會有兩種情況,一種是多出來的2 例都是一個組的,那麼有一個組會多出2 例來,另一種是那多出來的2 例各分在兩個組,那麼最後兩組的例數還是相等的

        - 入組例數除以4 的餘數是3,比如說203 例,那麼多出來的3 例肯定有2例分在一個組,另1 例分在另一個組,最後有一個組會多出1 例來。

        如上所述,最不理想的情況,最多一個組比另一個組會多出2 例來,這樣我們就可以做到兩組病例數的基本相同。


        區組隨機化一個重要的問題就是區組大小的問題,上邊這個例子我們取的區組大小就是4,那麼怎麼確定區組大小呢?

        隨機化方法是讓醫生無法預測下一個病人劃分到哪個組,因此我們在確定區組大小時也要謹記這個原則。如果兩個組別而你的區組大小為2,那第一個病人是A 組,那第二個病人肯定就是B 組了,那這種隨機性就相當差了。很好理解,區組越小,我們就越容易猜到下一個病人是哪個組的,因而我們應避免前邊提及的只有兩例病人的區組。但區組大小也不能太大,否則會可能產生由於中斷一個區組而使兩組例數有較大的差異。怎麼理解呢,舉個例子,兩個組別,如果你的區間長度為16,比如說你最後入選了168 例病人吧,這時一共有10 個完整的區組,另外最後還有一個區組被中斷了,只有8 例病人,這時這多餘的8 例病人的分配就有如下可能:

        - 情況1         A:0         B: 8         兩組相差8 例

        - 情況2         A:1         B: 7         兩組相差6 例

        - 情況3         A:2         B: 6         兩組相差4 例

        - 情況4         A:3         B: 5         兩組相差2 例

        - 情況5         A:4         B: 4         兩組相差0 例

        - 情況6         A:5         B: 3         兩組相差2 例

        - 情況7         A:6         B: 2         兩組相差4 例

        - 情況8         A:7         B: 1         兩組相差6 例

        - 情況9         A:8         B: 0         兩組相差8 例


        如上所述,這時就會出現兩組例數相差較多的情況,最大可能相差8 例。正如小胖在上篇博文中舉的例子,如果區間長度為4 的話,最大可能相差則為2例。

        因此,區間長度的選擇不宜太小,也不宜太大。通常情況下,如果只有兩個治療組別,區間長度一般可取4-10,就小胖的以前的做法,一般我會取4 或6。小胖還要羅唆一句,區間長度必須是組別個數的倍數哦,不然你咋分配病人呢,呵呵。


        3. 分層隨機化

        啥意思?就是每個重要因素或重要因素組合爲一單獨層(也就是單獨的隨機表格),而在每一單獨層內,各組病人例數保持均衡,從而最後達到這個重要因素在各個治療組分佈均衡的結果。舉個簡單的例子,兩個治療組試驗組(T)和

對照組(C),按照基因型B 或C 分層,可能會產生以下兩個隨機表格:


        第一個表格:

        基因型     分組

            B             T

            B             C

            B             C

            B             T

            ……


        第二個表格:

        基因型     分組

            C             C

            C             T

            C             C

            C             T

            ……


        在入組病人時,先看以下這個病人是什麼基因型的,如果是基因B 型的,則根據第一個表格的隨機順序入組;如果是基因C 型的,則根據第二個表格的隨機順序入組,最後我們能基本保證試驗組和對照組的基因B 型和C 型的病人大致相等。這就是最簡單的分層隨機化的過程。

        其實大家應該很熟悉分層隨機化,我們現在進行的臨床試驗大部分都是多中心臨床試驗,而我們在隨機的過程中一般都會採取分中心隨機化。這時的分中心隨機化其實就是以研究中心為層的分層隨機化。在中心隨機化中,每個中心都有自己單獨的一個隨機表格,病人隨機時,各個中心入選的病人按照各個中心的隨機表格的順序進行入組,最後保證的也是試驗組和對照組在各個中心的病人數大致相等,也可以理解為,每個中心試驗組和對照組的病人數大致相等。

        為什麼我們要進行分層隨機化呢?很簡單的道理,我們在作臨床試驗時總希望某些對療效結果有較大影響的因素在各個治療組內儘可能分佈均衡。舉個例子吧,在乙肝臨床試驗中,大家都知道基因型對最後的應答有很大的影響,通常情況下,基因C 型的比基因B 型的更難治,即療效差;如果試驗組基因C 型(難治的)的過多則試驗組的總體應答情況就會被拉下來,試驗組與對照組療效的差異就會比實際的變小;試驗組基因C 型(難治的)的過少則試驗組的總體療效就會被提上去了,試驗組與對照組療效的差異就會比實際的變大;總之,試驗組和對照組基因型分佈差異很大,就會影響到對療效的評價。因此,我們需要把基因型作為分層因素進行分層隨機化,使基因型在兩組分佈保持均衡。


        分層隨機化中如何選擇分層因素呢?這個更多地根據不同的疾病而定,選擇那些對療效有重要影響的因素。這些更多地取決於臨床實踐,而非統計學。小胖在這裏要說的是,多個分層因素的選擇。有的臨床試驗選擇的分層因素不止一個,

最常見的是你首先把研究中心當一個分層因素,然後在此之外又選擇了別的分層因素,如年齡、疾病亞型啊等等,這時就會出現分層因素組合的情況。下邊是分層因素組合的一個簡單例子:

        兩組:A 組和B 組

        分層因素:研究中心(10 箇中心)、疾病亞型(兩個亞型I 型和II 型)

        這時我們一共有10×2=20 層,即需20 個隨機安排表:

        隨機表格1:

        研究中心    基因型    分組

            01                 I             A

            01                 I             B

            01                 I             A

            01                 I             B

            ……

        隨機表格2:

        研究中心     基因型     分組

            01                 II             A

            01                 II             A

            01                 II             B

            01                 II             B

            ……

        隨機表格3:

        研究中心     基因型     分組

            02                 I                 B

            02                 I                 B

            02                 I                 A

            02                 I                 A

            ……


        隨機表格4:

        研究中心     基因型     分組

            02                 II                 A

            02                 II                 B

            02                 II                 B

            02                 II                 A

            ……

            …………………..

        隨機表格19:

        研究中心     基因型     分組

            10                 I                 B

            10                 I                 A

            10                 I                 A

            10                 I                 B

            ……


        隨機表格20:

        研究中心     基因型     分組

            10                 II                 A

            10                 II                 B

            10                 II                 A

            10                 II                 B

            ……


        當然,小胖要強調的一點是,分層的因素不能過多,因為因素一多則組合數就多,層數也就多,層數一多,就會使有些層次的人數不足。例如多中心臨床試驗中心為分層因素(10 箇中心),另外還有2 個分層因素,每個因素各分成2 層,則共有10×2×2=40 層,一共需要安排40 個隨機表格。如果一共入選200 例病人的話,每層平均5 個人,甚至有的層人數會很少,難以實施統計處理。因此分層因素不宜過多,要進行精選。通常來說兩個以上的分層因素就會使分層難以實施。

        在實際臨床試驗中我們最常見的其實是中心區組隨機化,即把區組隨機化和分層隨機化(以中心分層)結合起來。


        4. 動態隨機化

        動態隨機化是指在臨床試驗過程中,病人隨機入組的機率根據一定的條件而變化,能有效地保證各組間病例數和重要預後因素保持基本均衡。

        那為什麼要引入動態隨機化呢?如前所述,我們可以採取分層隨機化來保證一些重要的預後因素在各組分佈基本均衡,但我們也要考慮到分層隨機中的分層因素不能很多,如果分層因素很多,便會出現有的層的例數很少甚至沒有的情況,而動態隨機化就很好地解決這些問題。

        在一些樣本量不是很大,但又必須考慮預後因素對療效影響的臨床試驗中,動態隨機化顯得尤為必要。

        我們先從最簡單的動態隨機化方法來了解一下動態隨機化的思路:

        一個袋子裡有黑色和白色兩個球,你摸到黑球就入A 組,摸到白球就入B組,開始時你摸到黑球和白球的機率為0.5/0.5。假設你第一次摸了個黑球,入A組,然後你要把黑球放回袋子裡,同時在往袋子里加一個白球,這時袋子裡有1

黑2 白,你第二次摸到黑球和白球的機率就變成0.33/0.67,如果你第二次還是摸到黑球,那你要再加一個白球,這時袋子裡有1 黑3 白,此時你第三次摸到黑球和白球的機率就變成0.25/0.75,依次類推,每次隨機摸一個球,根據球的顏色確

定入組,然後將該球放回袋子裡並加入1 個另一顏色的球,繼續摸球。。。。這樣透過機率的不斷調整,最後達到兩組間病例數大致相等。

        以上就是最簡單的動態隨機化,可以實現各組例數大致相等,至於如何實現重要預後因素在兩組間分佈均衡,則需要更為複雜的方法,現在最常見的方法是最小化法。

        最小化法主要解決的就是預後因素在組間分佈均衡的問題,我們從下邊這個例子來看一下最小化法的基本思路:

        在一項臨床試驗中,年齡和性別是重要的預後因素,我們希望各治療組在這兩個方面保持均衡。已入組10 例病人情況如下:

        年齡     A 組     B 組

        <30           2         1

        30~50      1         1

        >50           2         3


        性別

        男             3         2

        女             2         3


        現在來了第11 例病人,他是35 歲的男性病人,那他要入哪一組呢?

        - 在A 組中,和他年齡水平(30~50)相同的病例為1 例;和他性別水平(男)相同的病例為3 例;兩者相加1+3 等於4

        - 在B 組中,和他年齡水平(30~50)相同的病例為1 例;和他性別水平(男)相同的病例為2 例;兩者相加1+2 等於3

        - 3<4, 那麼這例病人就入B 組,以使兩組在年齡和性別方面的差別減少


        以上就是最小化的最基本思路,簡單一句話概括,就是根據前邊入組的病人的情況,來確定病人的入組,原則上使組間預後因素的差別變小。

        說到這裏,可能大家覺得很複雜,其實我們需要了解的就是最小化法的簡單思路,知道是怎麼回事。到底這例病人該入那個組,就要求助於計算機了,咋說呢,現在啥都可以透過computer 來解決,呵呵。

        現在基本通常的做法就是,當合格病人要入組時,收集其預後因素的基本資訊,然後傳真到隨機中心,隨機中心按照傳真上的資訊輸入計算機,計算機程式就會計算出分到哪一組,然後再傳真通知研究者。


        上邊我們介紹了隨機化的四種方法,在我們開展的臨床試驗隨機化入組中,常碰到的情況是1:1 隨機,即各組要求病人入組的比例是相等的。當然在一些臨床試驗中,也會碰到一些隨機比率不是1:1 的情況。

        首先,我們比較一下1:1 隨機和非1:1 隨機。1:1 隨機在統計上是最有效率的隨機比率,在總樣本量一定的情況下,其統計把握度是最大的;而非1:1 隨機,如果要達到和1:1 隨機相同的把握度,則需要更大的樣本量。我們從下邊這個例子看一下吧:

        假設一臨床試驗,主要療效指標為應答率,假設試驗組和對照組的應答率分別為33.3%和20%;顯著性水平為雙側0.05,把握度為90%;

        - 如果設計為試驗組和對照組隨機比率為1:1,則總樣本量為460 (230例每組)

        - 如果設計為試驗組和對照組隨機比率為3:1,則總樣本量為600(450/150)


        從上面的例子可以看出,3:1 隨機的總樣本量要大於1:1 隨機,隨機比率越大時,需要的總樣本量越大。當隨機比率大於3:1 時,樣本量會變得很大,因此一般不會採用。

        這時大家會問一個問題了,既然非1:1 隨機需要更多的樣本量,那為什麼還要採用呢?

        其實我們在以下情況下,會常用到非1:1 隨機:

        - 治療組間存在著比較大的成本差異,即一個組治療的相關費用大大高於另一個組。這時我們就希望更多的病人入到便宜的那組中,這時我們就可以採用非1:1 隨機化了;

        - 對某些比較嚴重的疾病,一組療效較好甚至可以救命,而另一組比如說安慰劑或者常規醫療對疾病沒有大的療效,這時我們需要把較少的病人入到安慰劑組,因此也有必要採用非1:1 隨機化了。


        總之,究竟要不要採用非1:1 隨機,要根據實際情況綜合考慮,這裏又涉及到小胖自認為的臨床試驗的三個核心即科學、倫理和成本;這三個東西始終貫穿著臨床試驗的各個階段。


0則評論

評論文章

您的電子郵件等資訊不會被公開,以下所有項目均必填