AB test: ako zistiť víťaza testu a veľkosť vzorky

March 3, 2018

Tento post nadväzuje na článok o základoch AB testovania. Odporúčam si ho prečítať ak o AB testovaní počuješ prvý krát. 

 

AB test sa používajú hlavne UXáci pri testovaní rozličných variant elementu na stránke. Vďaka testom zistíme, ktorá varianta prinesie zvýšenie conversion rate a či je toto zvýšenie štatisticky významné. Ako čítať výsledky AB testu a správne ho interpretovať? Všetko si vysvetlíme na príkladoch.

 

 

Príklad

Na stránke testujem či zmena farby CTA buttonu prinesie viac konverzii. Predpokladám, že červená farba CTA buttonu prinesie viac konverzii ako pôvodná verzia. Test beží dva týždne.

 

Dáta:

 

 

Vidíme, že VarA prináša vyššie konverzie aj vyšší priemerný nákup. Je to ale naozaj dôvod implementovať túto variantu? Nie tak úplne.

 

Je treba si uvedomiť, že dve varianty testujeme iba na výberovej vzorke (návštevníkoch za dva týždne). Ak ale implementujeme varA na celú vzorku, prinesie nám rovnaký výsledok?

 

Potrebujeme aby bol rozdiel medzi variantami štatisticky významný. To znamená, že výsledky, ktoré preukazuje výberová vzorka, budú také isté aj pre celú populáciu. Teda, že sme netestovali nejakú podivnú skupinu, ktorá má dané výsledky iba vďaka náhode.

 

Vytvorím si nulovú hypotézu (H0) – tú chcem zamietnuť. V našom prípade, že CR sa pre varA bude rovnať CR pre varCG. Na základe dát z AB testov, overím túto variantu.

 

Každý záver zo štatistického testovania ale prijímam s nejakým rizikom - pravdepodobnosťou že môj záver bude chybný.

 

Chyby môžu byt dvojakého druhu:

  • H0 zamietame aj keď je H0 pravdivá - Chyba prvého druhu, ktorej pravdepodobnosť, že nastane sa vyjadruje ako alfa. Keby sa dopustíme takejto chyby, povedali by sme si, že CR sú rozdielne, aj keď v skutočnosti medzi nimi žiaden rozdiel nie je. Teda v príklade hore by sme implementovali červený CTA, čakali na zvýšenie konverzii, ale nič by sa nedialo. Preto chceme aby šanca, že niečo takéto nastane bola čo najmenšia - aby alfa bola čo najmenšia

  • H0 prijímame aj keď je H0 nie je pravda - chyba druhého druhu, ktorej pravdepodobnosť, že nastane vyjadruje beta. Beta teda môže byť aj o trošku väčšia, nie je to až také strašné riziko

Alfa a beta predstavujú na koľko percent sme ochotní prijať riziko danej chyby.

 

Pre náš prípad si určím napríklad:

Alfa = 0,05 (5%)

Beta = 0,2 (20%)

 

Alfa, Beta, CR, počet návštevníkov – to všetko so sebou súvisí a vďaka týmto súvislostiam si vieme určiť:

- rozdiel medzi CRs ktorý bude štatisticky významný ak máme danú veľkosť vzorky

- potrebnú veľkosť vzorky ak mám ostatne hodnoty dané

 

Čím väčšia alfa, beta, alebo rozdiel medzi CRs - tým menšiu vzorku potrebujeme aby sme dostali štatisticky významný výsledok.

Čim väčšia alfa, beta alebo čim väčšia vzorka - tým menší rozdiel medzi CRs potrebujeme aby sme potvrdili, že tento rozdiel je štatisticky významný.

 

Otázka:

1. Otázka: Je zmena medzi CR kontrolnej a alternatívnej skupiny štatisticky

významná?

 

A. Jednoduchšie riešenie a menej presne riešenie cez p-hodnotu

p hladina je najvyššia hladina významnosti (to je jedno…) na ktorej nezamietame nulovú hypotézu. P hladinu ti vypočíta nejaký program, takže si nad tým moc netreba trápiť hlavu. Na toto riešenie potrebujeme vedieť veľkosť jednotlivých vzoriek a CRs.

Hypotézu zamietame so štatistickou významnosťou ak je p-hladina menšia ako alfa, teda menšia ako 0.05.

 

Pri tomto riešení zohľadňujeme len alfu - porovnávame alfu a p hladinu.

Toto riešenie používa aj väčšina online toolov.

p-hladina je v mojom prípade 0.0189, teda menšia ako 0.05. Môžeme teda so štatistickou významnosťou zamietnuť nulovú hypotézu.

 

B. Zohľadňujem alfu aj betu

Dôležité je si uvedomiť, že alfa a beta spolu súvisia (resp. alfa a (1-beta) teda Power).

Alfu si určíme tak, že bude 0.05 a pozeráme sa či beta bude pre nás prijateľná (najlepšie pod 0.02).

 

Výsledok as follows:

Alfu, CRs, veľkosť vzoriek máme zadané. Vidíme, že Beta je 10% teda Power je

90%. Čo je dostatočne malá pravdepodobnosť chyby a preto tento rozdiel medzi CRs nemôžeme označiť ako štatisticky významný.

 

2. Otázka: Aká má byť vzorka veľká (minimálne) aby sme dostali štatisticky významný rozdiel?

 

Potrebujeme definovaný rozdiel medzi CRs a fixnú alfu a betu - teda dopredu

dané riziko, že sa dopustíme chyby, do ktorého sme ochotní ísť.

 

 

 

 

 

 

 

 

 

V takomto prípade by sme potrebovali minimálne 686 návštevníkov na jednu variantu aby pre nás alfa a beta boli prijateľné (povedal program).

 

Pri danej návštevnosti – 950 ľudí týždenne, by nám teda stačilo len 0,72 týždňa na štatisticky významné výsledky.

 

Momentálne je nárast CR 42,96% (you wish). Pri danej návštevnosti, a dvoch týždňoch kedy by AB test bežal by nám stačil rozdiel iba 6,91% na to aby boli výsledky štatisticky významné.

 

Čo ak chceme zistiť či je rozdiel medzi priemermi štatisticky významný (napríklad medzi priemernou hodnotou nákupu? Na zistenie tohoto sa najčastejšie používa t-test. Vypočíta vám ho príklad Evan's Awesome A/B Tools.

Share on Facebook
Share on Twitter
Please reload

Kam ďalej?

Základy webdesignu a.k.a príbeh začínajúcej designerky

AB test: ako zistiť víťaza testu a veľkosť vzorky

1/7
Please reload

Barbora Grmanová design | Slovakia