#teaching #af #hd
洗腎病人的心房顫動與口服抗凝血劑
在治療病人時,醫生應該要睜開眼睛,看清楚病人的病情、權衡治療的好處/壞處比例。但是有時候醫生卻被迫要閉上眼睛治療病人,例如:在選擇是否要用口服抗凝血劑(OAC)治療洗腎病人的心房顫動(af)時,醫生是閉上眼睛的,就像古希臘神話中的正義女神一樣:她矇著眼睛,一手持天平,一手握劍。當 OAC 放在正義女神的天平上時,天平的一邊是預防缺血性中風,另外一邊是主要出血。
因為腎臟科是內科中擁有最少隨機分配對照臨床試驗(RCT)的科別(心臟科最多),而且幾乎所有的 OAC 臨床試驗都排除了CCr < 30 mL/min 以及洗腎病人。偏偏這一些病人比較容易流血(因為血小板功能異常),只有 apixaban 可能可以減量用在嚴重慢性腎臟病(CKD)或是洗腎的病人。偏偏只有 RCT 能證明因果關係(OAC 的效果),觀察性研究則不能,因為它無法排除與暴露(使用 OAC)及結局都有相關的因素。
要注意的是用腎功能調整藥物的劑量時,請用 Cockcroft-Gault 公式計算的 CCr,而不是 MDRD 或是 CKD-EPI 公式計算的 eGFR,因為幾乎所有的藥物試驗都是用 CCr 的。
臨床指引建議 af 的病人可以用 CHA2DS2VASc 分數(心衰竭、高血壓、年紀 ≥ 75 歲、糖尿病、中風/暫時性腦缺血/血管栓塞、心血管疾病《AMI, PAD, 主動脈硬化》、年紀 65-74 歲、女性)≥ 2 來選擇需要用 OAC 來預防缺血性中風者。
OAC 最大的副作用是主要出血:顱內出血、各部位出血(腹膜後、消化道、泌尿道、呼吸道)致血比容下降 ≥ 12%。維生素 K 抑制劑(VKA)可以用 INR 來評估劑量是否適當,NOAC不需要(也無法)評估劑量是否適當(這是好處,也是壞處)。Coumadin 過量能用維生素 K 來逆轉,(除了 dabigatron 以外)NOAC 過量卻無任何拮抗劑。OAC 造成主要出血的風險可以用 HAS-BLED (高血壓、肝/腎功能異常、中風、流血、INR 不穩定、年紀 > 65 歲、藥物/喝酒)分數來評估,一般說來 NOAC 造成主要出血的機率比 VKA 更低。
CKD 的病人比較容易有心血管疾病和 af,反之,有心血管疾病和 af的病人也比較容易併發 CKD。CKD 病人比較容易有缺血性中風,也比較容易有出血性中風。因此有 af 的 CKD 病人就像戰場上的英雄一樣,隨時都要面對生命的威脅。
那麽為了換取最美好的事(預防中風),最深沈的創痛(主要出血)是否值得呢?「有一種鳥,一生都在尋找一棵長滿尖刺的樹,找到後便將牠的胸膛撞去,在臨死前會唱出連雲雀與夜鶯都黯然失色的天籟。牠以生命作為代價,只換得一首動聽的歌。整個世界都在悄然聆聽,連神也在天國裡微笑。因為唯有最深沈的創痛,才能換取最美好的事」(「刺鳥」)。
2020 年發表的 16 個觀察性研究文獻回顧(N = 71877)發現洗腎病人使用 OAC 不能降低缺血性中風,雖然 apixaban 與coumadin/不使用 OAC 者比較能降低死亡率。Warfarin, dabigatran, rivaroxaban 則比 apixaban 更會造成出血。2020 年的觀察性研究則發現洗腎病人使用左心耳封堵手術(N = 92)在 2 年後的出血率比使用 OAC 者(N = 114)更低,死亡率也更低。
2020 年發表的 RCT(RENAL-AF,N = 132)發現在有 af 的洗腎病人中,apixaban 與 coumadin 的病人在 1 年後有相同的主要終點(出血)和次要終點(中風、主要出血、心血管疾病死亡率),雖然在使用 coumadin 者中,只有 44% 的時間是在治療範圍(INR 2-3)內。可惜本試驗本來預計收納 760 個病人,卻由於缺乏資助而中途停止。亦即本試驗缺乏統計檢定力,比較容易有假陽性和假陰性的結果。
2020 年發表的 RCT(Valkyries,女武神,N = 154)發現在有 af 的洗腎病人中,apixaban 比 coumadin 更不會造成危急生命的出血,雖然兩組病人在心血管疾病、出血、死亡率上沒有差別。可惜本研究並沒有安慰劑當成對照組,因此我們並不知道 apixaban、coumadin 是否能改善 af 洗腎病人的預後(心血管疾病、缺血性中風、死亡率)。
「女武神的騎行」是華格納歌劇「女武神」中的歌曲,美國的越戰電影「現代啟示錄」曾以此曲作為片中直升機飛行中的配樂。女武神是眾神之王沃坦所生的九個女兒,她們騎著飛馬將在戰場上死去的英雄抬到盾牌上帶回天宮復活。
在正在進行中的 RCT 中,DANWARD(N = 718)要研究 coumadin 對中風的效果,AXADIA-AFNET 8(N = 222)要研究 apixaban 對出血、中風、死亡率的效果。
且讓我們閉上眼睛,期待這些新的女武神能拯救戰場上的英雄吧!
檢定力公式 在 檢定力樣本數計算2023-精選在Youtube/網路影片/Dcard上的 ... 的八卦
檢定力 所需之樣本數公式,並利用模擬資料,嘗試不同的參數組合,計算模擬情況下之經驗型I錯誤率與經驗檢定力,最後分析該筆早產兒餵食訓練資料。 第11章 ... ... <看更多>
檢定力公式 在 檢定力樣本數計算2023-精選在Youtube/網路影片/Dcard上的 ... 的八卦
檢定力 所需之樣本數公式,並利用模擬資料,嘗試不同的參數組合,計算模擬情況下之經驗型I錯誤率與經驗檢定力,最後分析該筆早產兒餵食訓練資料。 第11章 ... ... <看更多>
檢定力公式 在 [心得] 影響A/B Test 所需樣本數的要素- 看板DataScience 的八卦
[關鍵字]: A/B Testing
[重點摘要]:
- 幹嘛管 A/B Test 的樣本數?樣本數太少會怎麼樣嗎?
- 實驗檢定力會不足、測不出有用的結果
- A/B Test 的樣本數不是越多越好嗎?太多又可能有什麼問題?
- 經常看見顯著、但是效果小到沒有幫助
- 多蒐集樣本在商業上也是一種成本
- 是什麼因素影響 A/B Test 所需樣本數?
- 樣本標準差、Minimum Detectable Effect、還有型一、型二錯誤
A/B Test 是個看似簡單,實際上充滿統計學學問的領域
一個小動作做錯、也可能鑄成錯誤決策
「樣本數怎麼算」就是做 A/B Test 的產品設計者、行銷專家
還有資料科學家們永遠都在問的萬年問題
如果沒有在實驗前想清楚這個問題
很有可能讓你的產品團隊精心準備的實驗成為浪費時間
以下我將和大家分享三個議題:
*為什麼要計較 A/B Test 的樣本數?
*是哪些要素影響 A/B Test 所需樣本數?
*所需樣本數可以用什麼公式計算?
更完整的數學公式加上 Python 程式碼圖文介紹
歡迎參考我的網誌文章:
https://haosquare.com/calculate-ab-testing-sample-size/
## 為什麼要計較 A/B Test 的樣本數?
我們先稍微聊聊究竟資料分析為什麼要這麼在意 A/B Test 的樣本數有多少。難道,不是
只要做好隨機對照實驗(RCT)、在假設檢定看到顯著就能馬上下結論嗎?沒這麼簡單!
當 A/B Test 樣本數過少時,統計檢定力往往會不足,也就是,即使你的產品新設計確實
對使用者有幫助,商業實驗也看不出顯著性。更麻煩的問題是,如果產品每天能蒐集的樣
本很少,我們常會急切地天天盯著 A/B Test 結果看,如果看到資料反映出統計檢定顯著
,馬上下結論、結束實驗,這種在樣本數不足下「偷看」的動作會造成持續監控問題,其
中的抽樣偏誤會使得實驗的統計錯誤大大提高!此「偷看」問題我過去曾在本板分享過,
如果你有興趣,歡迎參考之前的文來複習:#1VGG3_Pu
而當 A/B Test 樣本數過多也不全然是好事情,不是資料越多就一定越好。首先,對某些
使用者流量還不太高的產品而言,每個樣本都超珍貴、多蒐集幾個樣本可能要花不少時間
。如果你蒐集了比你實際上需要還多很多的樣本,就會多浪費好幾天蒐集樣本、還對實驗
沒什麼貢獻。而且別忘了,A/B Test 會讓你的使用者看到跟平常不一樣的產品,這個不一
樣或許是暫時的、未來或許會變回原狀(因為你的實驗有可能告訴你使用者其實不青睞新
設計),因此我們當然希望因為 A/B Test 而看到這個「不一樣」的使用者樣本越少越好
,我們不會想讓太多人看到我們反反覆覆修改著產品設計的過程。
此外,當樣本數超級大的時候,通常 P 值(P-value)都會很小,換言之,只要你的樣本
數超多,幾乎都能看到統計顯著、拒絕虛無假設
但樣本數過多的統計顯著往往只伴隨著很小很小的效果
會是「不實用」的統計顯著。
(Statistically significant, but not practically significant)
舉例而言,假設有藥廠發明了一種藥,可以讓身高增加 0.2 公分,他們找了超大一群樣本
、也真的在實驗看出統計顯著性,但你會為了想長高 0.2 公分冒險吃這種藥嗎?這就是統
計顯著不太「實用」(Practical Significance)的意思。如果你還想知道樣本數過大還
會造成哪些其他 P-value 問題,推薦你細細品嚐以下這篇 Too big to fail 論文:
https://reurl.cc/XERbqg
總之,想要為產品高效率執行 A/B Test,我們要找個剛剛好的樣本數
不能太低、也不適合太高
## 決定所需樣本數的四大要素
### 1. 樣本標準差
> 樣本標準差越大、A/B Test 需要的樣本數越多
樣本標準差(Standard Deviation)衡量樣本內數值的離散程度,樣本內的數值如果很發
散,我們會更難結論兩組數據間的差異。直接舉個例子來想像,假設已經知道A地區的平
均身高是 165 公分:
* 如果你在B地區抽樣出 5 個人:158、163、170、172、177 公分
* 即使樣本平均是 168 公分,但是數據很發散(樣本標準差很大)
* 讓你不敢斷言「B地區平均身高高於A地區」,或許還要 30 個樣本以上才能下結論
* 如果你在C地區抽樣出 5 個人:166、166、167、168、169 公分
* 雖然平均數只比A地區高 2 公分,但是每筆數據都很接近 167 公分、資料相當集中
(樣本標準差很小)
* 你可能會在心中想著:只要再抽樣 3 個人、他們身高也同樣接近 167 公分的話,你
或許已經願意相信「B地區平均身高高於A地區」
樣本標準差的影響亦可以用鐘型曲線來視覺化。統計學常會對估計值畫出鐘型曲線來呈現
其分佈,A/B Test 兩組的樣本平均數分佈可以各自畫出鐘型曲線,很概略地說,(見下圖
)兩個鐘型曲線只要重疊的部分很少、就會有統計顯著。所以,樣本標準差對決定樣本數
的影響可以這樣思考:
* 鐘型曲線越「瘦高」,越不容易重疊(越容易統計顯著)
* A/B Test 樣本數越多,標準誤會越小、鐘型曲線會越瘦高
* 而當樣本標準差越小,標準誤也會越小
* 那就表示樣本標準差很小的時候,樣本數可以不用那麼多,鐘型曲線也能保持同樣瘦高
、同樣容易呈現統計顯著
* 「容易呈現統計顯著」的程度就是統計學家口中的檢定力(Statistical Power)
### 2. Minimum Detectable Effect (MDE)
> MDE 越大、A/B Test 需要的樣本數越少
Minimum Detectable Effect(MDE)是期望最小的指標效果差異,它是主觀設定的,它可
能取自於你的產品設計理念,例如幫 APP 某個按鈕換造型預計提升 10% 點擊率;也可能
來自於商業策略問題,例如這個 APP 按鈕的點擊率如果無法成長 10%,那將會不符成本、
不值得改變產品。
決定樣本數的時候就把 MDE 考慮進去,將會解決剛剛提到的「不實用」統計顯著問題,因
為你事先設定好你的數據至少要看到多大差異才算是實用,只要你使用剛剛好的樣本數來
做商業實驗,最後如果看到實驗呈現出統計顯著,其效果肯定不小於 MDE、必然是「實用
」的統計顯著(Practical Significance)。
Practical Significance 參考說明:
https://online.stat.psu.edu/stat200/book/export/html/119
在此囉唆提醒,MDE 是在 A/B Test 開始之前就(主觀)決定好的,MDE 不是指實際實驗
數據的兩組平均數差異(因為實驗還沒開始做、不知道實際差異)。
當你設定的 MDE 越小,實驗需要的樣本數越高;反之,MDE 越大,需要樣本數越少。就用
上個小節的「長高藥」來舉例吧,假設已知控制組的平均身高是 165 公分:
* 如果實驗者設定 MDE 為 1 公分
你陸續蒐集了幾個樣本分別是 166 公分、164 公分、172 公分
* 實驗組平均雖然比控制組高了 2 公分,你可能還是會心想:「不能結論長高藥有效!
或許有抽樣偏誤存在,是運氣好抽到一位特別高的樣本才有這種結果」
* 還要多蒐集很多樣本才敢結論到底有沒有長高效果
* 如果實驗者設定 MDE 為 20 公分
而你目前蒐集到幾個樣本分別是 187 公分、174 公分、189 公分
* 實驗組平均只比控制組高了 18 公分、不到 MDE 設定的 20 公分
* 但光是實驗組蒐集這少少 3 個樣本相對於控制組都有很大的效果
你是否也開始相信這個長高藥好像真的有效了?
此外,MDE 對樣本數的影響也同樣可以用鐘型曲線來想像。
* A/B Test 樣本數越多,標準誤會越小、鐘型曲線會越瘦高
* 而 MDE 越大,對照組的鐘型曲線會越往右邊平移、與另個鐘型曲線的重疊會越少
* 換言之,MDE 越大,樣本數即使少一點、鐘型曲線矮胖一點,也同樣容易出現統計顯著
### 3. 型一與型二錯誤
> 允許的型一與型二錯誤率越高、A/B Test 需要的樣本數越少
統計方法不是完美的,不管你進行假設檢定之後看到顯著或不顯著,都還是有機會讓你造
成錯誤結論。有可能抽樣時恰好運氣不佳,使得你抽到的樣本對於母體不具有代表性、無
法反映出母體的真實特徵,這種出現抽樣偏誤的隨機性會使我們錯誤推論資料。統計學家
將這種 A/B Test 「預期會發生」的錯誤分成兩種:
* 型一錯誤(α 或 Type-1 Error):
A/B 兩組其實並沒有差異,統計檢定卻因為隨機性判定成有差異(偽陽性錯誤)
* 型二錯誤(β 或 Type-2 Error):
A/B 兩組確實有差異,統計檢定卻沒有偵測到顯著(偽陰性錯誤)
如同人做的決策不可能完美無缺,統計檢定的型一與型二錯誤也不可能完全消除、但可以
被控制,分析者可以自己決定容許統計方法有多少型一與型二錯誤存在。在資料越多時,
你對估計值的衡量就越精確,(通常)也表示會產生的決策錯誤越少;反過來說,如果你
允許發生的型一與型二錯誤越少,需要的樣本數就會越多。
在此又要囉唆地註記,很多資料科學家會用檢定力(Statistical Power)來描述型二錯誤
,檢定力其實就只是 1-β、與原本的型二錯誤 β 一體兩面,只需要注意樣本數計算的統
計直覺會變成:如果分析者要求 A/B Test 的檢定力(1-β)越高、需要的樣本數也會越
多。
相對於剛剛討論的另外兩個因素(樣本標準差由資料決定、MDE 由產品設計者決定),一
般來說,我們執行 A/B Test 會選擇的型一與型二錯誤率幾乎都是按照統計學的慣例、不
太會更動:
* 型一錯誤設定為 α = 0.05
* α 也被稱為顯著水準(Significance Level)
* 這也是為什麼我們常常看到 95% 信賴區間
* 型二錯誤設定為 β = 0.2
* 也就是檢定力 = 1-β = 80%
## 究竟樣本數計算公式是什麼?
進行 A/B Test 的正確做法是預先決定實驗樣本數、並且禁止在蒐集到這個樣本數之前偷
看。那麼實驗樣本數究竟是怎麼算出來的呢?以下是計算方法的「經驗法則」:
n = 16 * sigma^2 / delta^2
經驗法則的意思是,此公式已經經過不少簡化, 並且計算內容已蘊含了上述的四大要素
更重要的是, 我們使用時要注意其包含了幾項假設:
* 實驗的 A 與 B 兩組樣本數大小相同
* n 是 A 與 B 其中一組的樣本數至少要是多少(注意 n 不是 A 與 B 的樣本數總和)
* 型一與型二錯誤依照慣例設定 α = 0.05 與 β = 0.2
* 假設實驗的 A 與 B 兩組樣本變異數相同(樣本標準差相同)
(如果你的實驗要改變以上假設, 就不能再用此經驗法則、要去找更完整的數學公式)
這個簡化後的經驗法則公式不限於資料型態,不管你的 A/B Test 目標是連續型資料還是
比例資料都能適用。我們可以用 Python 程式跑些模擬來驗證我們算出來樣本數的正確性
對模擬流程有興趣的話,請參考我放在 GitHub 的 Python Notebook:
https://reurl.cc/y7vaaE
此外,這個簡短的樣本數計算公式還可以用效果量的觀點來理解
統計學課本所說的 效果量(Effect Size)是衡量兩個變數之間關係的強度,我自己則更
喜歡把效果量想成考慮資料離散程度(變異數)後的效果大小相對值,又或者,效果量可
以想成是為效果標準化、以統一尺度來衡量效果。
在 A/B Test 情境,效果量經常使用 Cohen’s d 來計算。而上面這個公式,可以用
Cohen's d 來改寫(以下 Cohen's d 以 ES 表示):
n = 16 * sigma^2 / delta^2 = 16 / ES^2
where ES = delta / sigma
由此改寫後的公式來看,A/B Test 樣本數取決於標準化後的效果大小
換言之,樣本數是 Cohen’s d 的函數。
依此能看出把樣本數轉換成 Cohen’s d 的函數來理解的好處:
幫我們一眼看出「樣本數取決於效果大小」的統計直覺
## 小結
如果你在網路上用英文關鍵字搜尋過「Sample Size」
很可能看過 Evan Miller 設計的熱門 A/B Test 樣本數計算機
https://www.evanmiller.org/ab-testing/sample-size.html
網頁提到他用的正是 n = 16 * sigma^2 / delta^2 這個經驗法則公式
而網站中對公式說明不多、也無法一眼看出用到了哪些假設
希望這篇文章能幫助各位板友
更清楚理解網路上搜尋到的各種 A/B Test 樣本數計算機究竟算了什麼
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.225.5.200 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1687878735.A.FB3.html
※ 編輯: AgileSeptor (36.225.15.165 臺灣), 06/28/2023 11:29:09
... <看更多>