A / B Testini Qanday Bajarish Kerak

Tarjima qilingan maqola - How Not To Run an A/B Test

Muallif(lar) - Evan Miller

Maqolaning manbasi:

http://www.evanmiller.org/how-not-to-run-an-ab-test.html

2010 yil 18-aprel

Agar veb-saytingizda A / B testlarini o'tkazsangiz va muhim natijalarga erishish uchun mavjud eksperimentlarni muntazam tekshirib ko'rsangiz, statistika ma'lumotlarini takroriy ahamiyatga ega bo'lgan sinov xatolaridan qanday qutulishingiz mumkin. Natijada, sizning asboblar paneli sizning natijangiz statistik jihatdan ahamiyatli ekanini ta'kidlagan bo'lsa-da, bu juda muhim emas. Bu maqolada nima sababdan bayon etilgan.

Kelib chiqishi

A / B boshqaruv paneli "asl nusxasini urish 95%" ni yoki statistik ahamiyatga ega 90% ehtimolligini aytganida, u quyidagi savolni so'raydi: A va B o'rtasida asosiy farq yo'qligini ta'kidlayotganda, qanchalik tez-tez ma'lumotlardagi tasodifiy farqga qarang. Bu savolga javob ma'no darajasi deb ataladi va "statistik jihatdan ahamiyatli natijalar" ma'no darajasi past, masalan, 5% yoki 1% ni bildiradi. Paneli odatda plaginni ishlatadi (masalan, 95% yoki 99%) va uni "asl nusxasini urish ehtimoli" yoki shunga o'xshash bir narsa deb hisoblang.

Shu bilan birga, muhim ahamiyatga ega hisob-kitobni tanqidiy deb hisoblashingiz mumkin, ehtimol buni hatto buni amalga oshirmasdan ham buzishingiz mumkin: namunaviy o'lchov oldindan belgilangan . Agar oldindan qaror chiqarish o'rniga, "bu tajriba aniq kuzatishlar to'playdi" deb aytsangiz, "biz muhim farqni ko'rmagunimizcha ishga tushamiz", deyishingiz mumkin, barcha ma'naviy qadriyatlar mazmunsiz bo'ladi . Bu natija butunlay qarama-qarshidir va u erda barcha A / B test paketlari buni e'tiborsiz qoldiradi, ammo men bu masalaning manbasini oddiy misol bilan tushuntirishga harakat qilaman.

Misol

Eksperimentni 200 va 500 ta kuzatishlardan keyin tahlil qilsangiz, to'rtta narsa bo'lishi mumkin:

	Stsenariy 1	Stsenariy 2	Stsenariy 3	Stsenariy 4
200 ta kuzatuvdan keyin	Ahamiyatsiz	Ahamiyatsiz	Muhim!	Muhim!
500 ta kuzatuvdan keyin	Ahamiyatsiz	Muhim!	Ahamiyatsiz	Muhim!
Tajribaning oxiri	Ahamiyatsiz	Muhim!	Ahamiyatsiz	Muhim!

A va B davolanishining bir xilligi va ahamiyat darajasi 5% bo'lsa, eksperiment oxirida biz 5% hollarda muhim natijaga erishamiz.

Ammo, biz muhim natijaga erishilgandan so'ng eksperimentni to'xtatdik. Keling, to'rtta narsani ko'rib chiqaylik:

	Stsenariy 1	Stsenariy 2	Stsenariy 3	Stsenariy 4
200 ta kuzatuvdan keyin	Ahamiyatsiz	Ahamiyatsiz	Muhim!	Muhim!
500 ta kuzatuvdan keyin	Ahamiyatsiz	Muhim!	sinov to'xtatildi	sinov to'xtatildi
Tajribaning oxiri	Ahamiyatsiz	Muhim!	Muhim!	Muhim!

Birinchi satr avvalgisiga o'xshashdir va 200 ta kuzatuvdan keyin ahamiyatli darajalar mukammal darajada kuzatiladi. Endi esa uchinchi qatorga qarang. Tajriba oxirida, A va B ning aslida bir xil ekanligi taxmin qilinib, biz nisbatan sezilarli darajada kam natijalarga erishdik. Shuning uchun, ahamiyatning darajasi - "kuzatilgan farqning tasodifan kelib chiqadigan vaqt" foizi - noto'g'ri bo'ladi.

Muammo qanchalik katta?

Ayirboshlash kursingizni 50 foizga teng deb hisoblang va yangi tamg'aning 50 foizdan (yoki undan kam) o'tkazish tezligi ko'rsatilishini tekshirmoqchisiz. Eksperimentni to'xtatib turasiz, u 5% ni tashkil qiladi yoki siz 150 ta kuzatuvdan so'ng tajriba boshlaysiz. Endi yangi logotip deyarli yo'q. Sizning tajribangiz noto'g'ri darajada muhim natijani topgan vaqtning qaysi foizi? Besh foizdan ortiq emas, balki emasmi? Ehtimol, olti foiz, avvalgi tahlil asosida?

26,1% ni sinab ko'ring - bu sizning fikringizdan ko'ra besh barobar ko'p . Bu har qanday kuzatishdan keyin ahamiyatli sinovni boshlaganimiz uchun, bu yomon misolning bir xil turi, lekin bu eshitilmaydi. Eng kamida bitta A / B sinov doirasi, aslida muhim natijadan keyin eksperimentlarni avtomatik ravishda to'xtatish uchun kod beradi. Bu, sizning bu statistik ifloslanishingiz ekanini tushunmaguningizcha, bu sizning chinakam hiyla-naykaga o'xshaydi.

Qiymatni qayta ko'rib chiqish doimo noto'g'ri pozitsiyalarni oshiradi, E. Ko'pgina kichik natijalar muhim (lekin aksincha emas) deb o'ylaysiz. Muammo sizga ma'lumotni "o'rganish" va tajribani to'xtatishingiz mumkin bo'lsa, bu muammoni hal qiladi. Ko'rinishingiz qanchalik ko'p bo'lsa, sizning ahamiyatli darajalaringiz o'chib ketadi. Misol uchun, agar siz doimiy tajribani o'n marta ko'rsangiz, 1% da muhim deb hisoblagan narsa aslida faqat 5%. Quyida siz 5% haqiqiy qiymat olish uchun kerak bo'lgan boshqa muhim qadriyatlar:

Siz qaradingiz ...	Sizga kerakli haqiqiy qiymatning 5 foizini olish ...
1 marta	2,9% muhimligini qayd etdi
2 marta	2,2% muhimligini qayd etdi
Uch marta	1,8% muhimligini qayd etdi
5 marta	1,4% muhimligini qayd etdi
10 marta	1,0% muhimligini qayd etdi

Muammoning nima ekanligini aniqlang, lekin agar siz hozirgi A / B testlarining natijalarini muntazam nazorat qilib, tezkor qaror qabul qilsangiz biznesingizni boshqarsangiz, bu jadval sizni g'azablantirishi kerak.

Nima qilish mumkin?

Tajribalarni bajarayotgan bo'lsangiz: sinab ko'rishning takroriy xatosidan qochishning eng yaxshi usuli bu qiymatni qayta-qayta sinab ko'rish emas. A / B test dasturlarining sizga taqdim etadigan "asl" raqamlarini haydash imkoniyati borligiga ishonishdan oldin, avvalgi namuna o'lchamini aniqlab oling va eksperimentni tugatishini kuting. "Peeking" eksperimentni to'xtatishdan oldin uning harakatini boshlaydi. Bilaman, bu inson tabiatiga ziddir, shuning uchun eng yaxshi maslahat: tushmasin!

Siz namunali o'lchamni oldindan tuzatmoqchi bo'lganingiz uchun qanday namunaviy o'lchami ishlatishingiz kerak? Ushbu formula yaxshi qoidadir:

δ ni aniqlamoqchi bo'lgan minimal effekt bo'lib, va σ² siz kutgan namunaviy variance. Albatta, farqni bilmasligingiz mumkin, lekin agar bu siz hisoblaydigan binomial nisbati bo'lsa (masalan, foizning o'zgarish nisbati), bu farq quyidagicha aniqlanadi:

Namuna kattaliklarini moslashtirish bu erda ko'rsatilgan muammoni butunlay engillashtiradi.

Obnovleniya, May 2013: Siz ushbu formulani yangi interaktiv namunaviy o'lchov hisoblagich bilan ishlay olasiz. Quvvat darajasini va ahamiyatini belgilash kerakli effekt hajmini kiriting va kerakli namunaviy o'lchami ko'rsatadigan osongina o'qilishi mumkin bo'lgan raqamni olasiz. Obnovleniya tugadi

Agar siz A / B test dasturiy ta'minotini yozmoqchi bo'lsangiz: tajribaning oxirigacha ahamiyatlilik darajasini bildirmangiz va tajribaning to'xtab turilishi yoki davom ettirilishi haqida qaror qabul qilish uchun ahamiyatlilik darajasidan foydalanmang. Mavjud eksperimentlarning ahamiyati haqida xabar berish o'rniga, hozirgi namuna o'lchamini hisobga olgan holda katta ta'sirni qanday qilib olish mumkinligini bilib olaylik. Buni quyidagicha hisoblash mumkin:

α/2 va kuch (1−β) ma'lum darajada ahamiyatga ega bo'lgan ikki t t-statistika qaerda?

Qanday ohangda bo'lmasin, davolanishni yakunlashdan oldin davolanishning ta'sirini "mavjud baholash" ni ham yo'q qila olasiz. Agar bu ma'lumot eksperimentni to'xtatish uchun ishlatilsa, sizning ahamiyatli darajalaringiz axlat.

Agar chindan ham uni to'g'ri bajarishni istasangiz: namuna o'lchamlarini tuzatish asabiylashtirishi mumkin. O'zgartishlaringiz keng tarqalgan zarba bo'lsa, uni darhol tarqatmaslik kerakmi? Bu muammoni tibbiy dunyoga uzoq vaqt davomida etkazib berdi, chunki tibbiy tadqiqotchilar tez-tez klinik davolanishni to'xtatmoqchi bo'ldilar, yangi davolash samaradorligini namoyon etishi bilanoq, ular o'zlarining ma'lumotlaridan ishonchli statistik xulosalar chiqarishlari kerak. Tibbiy eksperimentlarning rivojlanishida kimdir, albatta, tarmoqqa moslashishi kerak bo'lgan bir necha yondashuvlar:

Nomerlangan eksperiment dizayni : ketma-ketlikdagi tajriba sizni sinovni davom ettirish yoki bermaslikka qaror qilgan nazorat nuqtalarini belgilash imkonini beradi va sizga to'g'ri darajalar beradi.

Batafsil: "Oddiy ketma-ket A / B test"
Bayes tajribasi : Bayes tajribasi bilan siz istalgan vaqtda eksperimentni to'xtatib, to'liq xulosa chiqarishingiz mumkin. Vebda amalga oshirilgan eksperimentlarning haqiqiy vaqtda haqiqiyligini hisobga olib, Bayes dizayni oldinga boradigan yo'lga o'xshaydi.

Batafsil: "Bayes A / B Test"

Xulosa

Ular kuchli va qulay ko'rinadigan bo'lsalar-da, joriy A / B eksperimentlar jadvalidagi fikrlar noto'g'ri foydalanishni taklif qiladi. Qo'lda yoki avtomatik "to'xtatish qoida" bilan birgalikda ishlatilgan har qanday vaqtda, natijada aniqlangan testlar shunchaki haqiqiy emas. Dasturda ketma-ket yoki Bayes tadqiqotlari amalga oshirilgunga qadar, veb-tajribalarida ishlaydigan har bir kishi tajriba o'tkazishi kerak, unda namunaviy o'lcham oldindan tuzatilgan va deyarli diniy intizom bilan ushbu namunaga mos kelishi kerak.