數(shù)據(jù)分析師必看，老司機(jī)帶你認(rèn)識(shí) AB 常見的10個(gè)錯(cuò)誤

2021-02-01 分類：網(wǎng)站建設(shè)

「沒有數(shù)據(jù)，你只是一個(gè)有想法的人?！?/p>

這是 W. Edwards 的依據(jù)名言，它表明，A/B 測(cè)試對(duì)于做出良好的商業(yè)決策來說至關(guān)重要。在 Manomano，我們向數(shù)百萬用戶展示數(shù)百萬 DIY 和園藝產(chǎn)品，并每天進(jìn)行數(shù)十個(gè) A/B 測(cè)試，以改善我們網(wǎng)站的用戶體驗(yàn)

然而，運(yùn)行 A/B 測(cè)試和解釋結(jié)果可能非常困難，如果做得不對(duì)，可能會(huì)得到錯(cuò)誤的結(jié)論。這篇博文的目的不是要說明在運(yùn)行 A/B 測(cè)試時(shí)應(yīng)該做什么，而是要告訴你不應(yīng)該做什么。下面是我們?cè)谶M(jìn)行 A/B 測(cè)試時(shí)經(jīng)常會(huì)犯的 10 個(gè)常見錯(cuò)誤。

1.在僅當(dāng)一部分人受到影響時(shí)，觀察所有人

示例：你想測(cè)試你的搜索引擎相關(guān)性，但在分析 A/B 測(cè)試結(jié)果時(shí)，你查看整個(gè)總體，而不僅僅是使用搜索引擎的用戶。雖然這在科學(xué)的角度來說不是錯(cuò)誤的，但是達(dá)到統(tǒng)計(jì)顯著性需要更長的時(shí)間，因?yàn)樵诜治龅臄?shù)據(jù)中添加了一些噪聲：
經(jīng)驗(yàn) 1：為了更快地達(dá)到統(tǒng)計(jì)顯著性，應(yīng)該只觀察與測(cè)試功能交互用戶(這里是搜索引擎)的結(jié)果。

2.在沒有任何業(yè)務(wù)直覺的情況下進(jìn)行測(cè)試

不能使用太多變量(A/B/C/../N)進(jìn)行測(cè)試。例如，如果使用 α=5% 顯著性閾值并決定測(cè)試 20 個(gè)不同的場(chǎng)景，則其中每個(gè)場(chǎng)景是正樣本的機(jī)會(huì)是偶然的。這是多重比較問題的一個(gè)例子。因此，業(yè)務(wù)直覺對(duì)于決定啟動(dòng)哪個(gè) A/B 測(cè)試至關(guān)重要。為了說明這一點(diǎn)，我們可以修改 W.Edwards Deming 的名言：

「沒有想法，你只是一個(gè)有數(shù)據(jù)的人」

經(jīng)驗(yàn) 2：用你的直覺(或者更好的方法——做用戶調(diào)查)來決定啟動(dòng)哪一個(gè) A/B 測(cè)試。

3.對(duì)人口進(jìn)行分段以達(dá)到統(tǒng)計(jì)顯著性

這是多重比較問題的另一個(gè)例子：「我的 A/B 測(cè)試不顯著，因此我將在設(shè)備上對(duì)數(shù)據(jù)進(jìn)行分段以獲得顯著結(jié)果」。在進(jìn)行數(shù)據(jù)分割時(shí)必須非常小心。事實(shí)上，你比較的片段越多，結(jié)果中出現(xiàn)錯(cuò)誤的幾率就越大。

以 country * device 為例，我們?cè)?Manomano 有 n=15 個(gè)細(xì)分市場(chǎng)(5 個(gè)國家*3 個(gè)設(shè)備：法國/手機(jī)、法國/桌子、西班牙/平板電腦等)。讓我們計(jì)算在其中一個(gè)分段上偶然出現(xiàn)至少一個(gè)重要結(jié)果的概率：

我們有超過 50% 的機(jī)會(huì)出現(xiàn)這種偶然性，因此，從分割數(shù)據(jù)的測(cè)試中得出結(jié)論并采取行動(dòng)是非常危險(xiǎn)的。但也有一些技術(shù)可以緩解這一問題，比如 Bonferroni 校正。

經(jīng)驗(yàn) 3：不要為了達(dá)到統(tǒng)計(jì)顯著性而分割你的數(shù)據(jù)。

4.查看幾個(gè)指標(biāo)以達(dá)到統(tǒng)計(jì)顯著性

多重比較問題的另一個(gè)例子是：「我的 A/B 測(cè)試在轉(zhuǎn)換率、平均購物籃和跳出率上都沒有顯著結(jié)果。但這對(duì)每類購物籃的數(shù)量來說是很重要的!如果你觀察足夠多的指標(biāo)，你最終會(huì)發(fā)現(xiàn)其中一個(gè)指標(biāo)碰巧顯示了一個(gè)重要的結(jié)果：

經(jīng)驗(yàn) 4：堅(jiān)持測(cè)試設(shè)計(jì)的標(biāo)準(zhǔn)。

5.達(dá)到統(tǒng)計(jì)顯著性時(shí)停止測(cè)試

統(tǒng)計(jì)顯著性不能告訴你什么時(shí)候應(yīng)該停止測(cè)試。在停止測(cè)試之前，你需要等待以達(dá)到計(jì)算出的樣本大小。使用 A/B 測(cè)試計(jì)算器計(jì)算測(cè)試所需的樣本大小。有關(guān)這種偏差的更多細(xì)節(jié)，請(qǐng)閱讀這里的問題說明。你還可以在此處模擬 A/A 測(cè)試，以查看在測(cè)試早期達(dá)到統(tǒng)計(jì)顯著性的頻率，即使在測(cè)試結(jié)束時(shí)結(jié)果不顯著：

使用 james lutrek 工具，根據(jù)樣本數(shù)量觀察 A/A 測(cè)試實(shí)驗(yàn)的顯著性

經(jīng)驗(yàn) 5：即使你的測(cè)試有統(tǒng)計(jì)學(xué)意義(統(tǒng)計(jì)顯著性)，也要繼續(xù)測(cè)試，直到測(cè)試結(jié)束。

6.在達(dá)到統(tǒng)計(jì)顯著性之前不要停止測(cè)試

同樣，統(tǒng)計(jì)顯著性不能告訴你什么時(shí)候可以停止測(cè)試，或者繼續(xù)測(cè)試。你不應(yīng)該等待一個(gè)測(cè)試變得有意義，因?yàn)樗赡苡肋h(yuǎn)不會(huì)發(fā)生。如果你已經(jīng)達(dá)到了在測(cè)試前計(jì)算出的樣本量，這就意味著你的測(cè)試有足夠的統(tǒng)計(jì)能力得出結(jié)論。

經(jīng)驗(yàn) 6 ：一旦達(dá)到所需的樣本量，停止測(cè)試。

7.將(1-p 值)當(dāng)做 B 優(yōu)于 A 的概率

這是一個(gè)很常見的錯(cuò)誤。p 值為 2% 并不意味著 B 有 98% 的機(jī)會(huì)比 A 好。這個(gè)假設(shè)在數(shù)學(xué)上是錯(cuò)誤的，因?yàn)樗€取決于基準(zhǔn)率，即你所做的測(cè)試中，有積極影響的百分比(只有上帝知道這個(gè)數(shù)字!)。這個(gè)數(shù)字反映了你的商業(yè)直覺水平。

假設(shè)我們是上帝，我們知道 ManoMano 的基準(zhǔn)率是 20%。這意味著我們 20% 的測(cè)試都是陽性的：

80% 的陽性測(cè)試(灰色)拒絕零假設(shè)(統(tǒng)計(jì)能力)：

5% 的陰性測(cè)試(白色)拒絕零假設(shè)(顯著性閾值)：

結(jié)論：在 80% 的統(tǒng)計(jì)能力、5% 的顯著性閾值和 20% 的基準(zhǔn)率，當(dāng)檢驗(yàn)被認(rèn)為是陽性(p 值<0.05)時(shí)，我們只有 16/(16+4)=80% 的機(jī)會(huì)是真陽性，而不是 95%。

在這種情況下(統(tǒng)計(jì)能力=80%，顯著性閾值=5%)，知道你的 A/B 測(cè)試結(jié)果是有意義的，下面是一些概率，你的測(cè)試實(shí)際上是陽性的，這取決于基準(zhǔn)率：

經(jīng)驗(yàn) 7:(1-p 值)不是檢驗(yàn)為陽性的概率。如果你還想計(jì)算這個(gè)概率，使用貝葉斯 A/B 測(cè)試方法。

8.認(rèn)為觀察到的增量是特征帶來的增量

測(cè)試所觀察到的增量允讓你可以計(jì)算統(tǒng)計(jì)顯著性，但將觀察到的增量視為特征帶來的實(shí)際增量是錯(cuò)誤的，這通常需要更多的用戶或會(huì)話。

如果不能證明 B 優(yōu)于 A ，則選擇傳遞置信區(qū)間而不是原始增量。為了說明這一點(diǎn)，我們以 A/B 測(cè)試為例：

p 值為 0.014，可接受的顯著性水平為 95%，此 A/B 檢驗(yàn)為陽性，這意味著測(cè)試組顯著好于對(duì)照組?？梢院苋菀椎赜?jì)算出觀察到的跳出率相對(duì)增量：

但將觀測(cè)到的增量視為特征帶來的實(shí)際增量是不正確的。你應(yīng)該使用標(biāo)準(zhǔn)誤差計(jì)算每組的置信區(qū)間：

其中 p 是觀察到的組跳出率，n 是池樣本大小，zα 是對(duì)應(yīng)于置信水平 α 的 z 值(在本例中為 95%)。你可以在這里找到通常置信水平的 z 值。

使用此公式，你最終可以計(jì)算兩個(gè)組的 95% 置信區(qū)間(CI)跳出率：

也可以反計(jì)算相對(duì)增量(pctdiff)的置信區(qū)間，但它更復(fù)雜。如果需要更多詳細(xì)信息，請(qǐng)參閱這個(gè)調(diào)查的第 3.3.2 節(jié)。

經(jīng)驗(yàn) 8：當(dāng)你的測(cè)試為顯著陽性時(shí)，應(yīng)該傳遞置信區(qū)間而不是原始增量。

9.當(dāng) A/B 測(cè)試結(jié)果違背你的直覺時(shí)，忽略它們

如果你(和你的組織)還沒有準(zhǔn)備好用新的版本更新你的產(chǎn)品，除了確認(rèn)你的偏見，啟動(dòng) A/B 測(cè)試是沒有意義的。直覺在選擇測(cè)試內(nèi)容時(shí)至關(guān)重要，但它不應(yīng)與 A/B 測(cè)試的結(jié)果相抵觸。

經(jīng)驗(yàn) 9：與利益相關(guān)者確定測(cè)試前的閾值和相關(guān)行動(dòng)。

10.忘記檢查 A/B 測(cè)試系統(tǒng)是否可靠

為了保證你的 A/B 測(cè)試結(jié)果的可靠性，你的 A/B 測(cè)試系統(tǒng)必須經(jīng)過校準(zhǔn)并正常工作。確保這種可靠性的一種方法是持續(xù)進(jìn)行 A/A 測(cè)試，并檢查這兩種人群之間沒有顯著差異：

Manomano 的連續(xù) A/A 測(cè)試允許我們快速檢測(cè) 8 月份遇到的緩存錯(cuò)誤，由于該錯(cuò)誤，8 月 20 日到 8 月 22 日之間進(jìn)行的所有測(cè)試無效。

經(jīng)驗(yàn) 10：持續(xù)進(jìn)行 A/A 測(cè)試，以檢測(cè)可靠性。

結(jié)論

如你所見，在分析 A/B 測(cè)試結(jié)果時(shí)出錯(cuò)的風(fēng)險(xiǎn)非常高，而在測(cè)試之后所做的決策對(duì)你的公司來說至關(guān)重要。因此，你應(yīng)該對(duì)給到你的 A/B 測(cè)試結(jié)果持懷疑態(tài)度，特別是當(dāng)這個(gè)結(jié)果來自于一個(gè)對(duì)取得積極結(jié)果有強(qiáng)烈興趣的人(例如，一個(gè)想賣給你東西的人)時(shí)尤其如此。在 ManoMano，我們有一個(gè)值得信賴的委員會(huì)，幫助分析所有內(nèi)部和外部 A/B 測(cè)試的結(jié)果，并對(duì)結(jié)論有著公正的看法。

當(dāng)前標(biāo)題：數(shù)據(jù)分析師必看，老司機(jī)帶你認(rèn)識(shí) AB 常見的10個(gè)錯(cuò)誤
文章位置：http://muchs.cn/news/98493.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站設(shè)計(jì)公司、標(biāo)簽優(yōu)化、手機(jī)網(wǎng)站建設(shè)、網(wǎng)站導(dǎo)航、靜態(tài)網(wǎng)站、動(dòng)態(tài)網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

電商類小程序連續(xù)兩月阿拉丁指數(shù)TOP第一 2021-02-01
跨境電商獨(dú)立站是什么?你了解嗎？ 2021-02-01
電商二十年進(jìn)入下半場(chǎng)，怎么玩兒 2021-02-01
域名百萬出售，或被終端低價(jià)撿漏 2021-02-01
如何利用微信平臺(tái)來做好營銷？ 2021-02-01
物聯(lián)網(wǎng)是什么？幾個(gè)簡單的例子讓你向往物聯(lián)網(wǎng)的時(shí)代 2021-02-01
電商小程序怎么玩這三種模式可能是最靠譜的 2021-01-31
請(qǐng)收藏！“軟件架構(gòu)的十個(gè)常見模式” 2021-01-31

數(shù)據(jù)分析師必看，老司機(jī)帶你認(rèn)識(shí) AB 常見的10個(gè)錯(cuò)誤

1.在僅當(dāng)一部分人受到影響時(shí)，觀察所有人