Digital Marketing
Matematika di Balik A/B Testing Landing Page
Sebelum memutuskan varian mana yang menang, marketer perlu tahu rumus sample size dan p-value. Kalau tidak, keputusan "varian B menang" seringkali cuma ilusi statistik.
TL;DR: A/B testing yang benar butuh minimal sample size yang dihitung dari standar deviasi dan minimum detectable effect. Rumus ringkasnya $n = 16\sigma^2/\delta^2$ untuk asumsi $\alpha=0{,}05$ dan power $80%$. Marketer yang skip tahap ini sering salah menyimpulkan varian pemenang padahal perbedaannya hanya noise statistik.
Di banyak review campaign, saya melihat tim marketing men-declare varian pemenang setelah dua hari test dengan 400 pengunjung per varian. Keputusan seperti ini hampir selalu prematur. A/B testing adalah eksperimen statistik, dan seperti eksperimen ilmiah lain, butuh ukuran sampel yang cukup supaya kesimpulannya tidak bias.
Rumus Dasar Sample Size
Untuk metrik konversi biner (convert / tidak convert), rumus ringkas sample size per varian adalah:
$$n = \frac{16 \cdot \sigma^2}{\delta^2}$$
dengan $\sigma^2 = p(1-p)$ untuk baseline conversion rate $p$, dan $\delta$ adalah minimum detectable effect absolut. Konstanta $16$ berasal dari $(z_{\alpha/2} + z_\beta)^2 \approx (1{,}96 + 0{,}84)^2 \approx 7{,}84$, lalu dikali $2$ karena dua varian.
Contoh konkret. Baseline CR $2%$ dan Anda ingin mendeteksi uplift relatif $20%$ (jadi $\delta = 0{,}004$ absolut):
$$n = \frac{16 \cdot 0{,}02 \cdot 0{,}98}{(0{,}004)^2} \approx 19{.}600$$
Artinya Anda butuh sekitar $19{.}600$ pengunjung per varian, atau $\sim 39{.}200$ total. Ini yang jarang disadari marketer.
Uplift Absolut vs Relatif
Saat melaporkan hasil, selalu sebut keduanya:
$$\Delta_{\text{absolut}} = CR_B - CR_A$$
$$\Delta_{\text{relatif}} = \frac{CR_B - CR_A}{CR_A} \times 100%$$
Misal $CR_A = 2%$ dan $CR_B = 2{,}6%$. Absolut $+0{,}6$ poin persentase, relatif $+30%$. Stakeholder biasanya lebih ingat angka relatif, tetapi absolut yang benar-benar menggerakkan revenue.
P-Value dan Statistical Significance
Sebuah hasil disebut signifikan statistik jika $p\text{-value} < 0{,}05$. Artinya, probabilitas melihat perbedaan sebesar ini (atau lebih besar) ketika tidak ada perbedaan sebenarnya, kurang dari $5%$. Tools seperti GA4 dan Optimizely menghitung ini otomatis, tetapi marketer tetap perlu paham artinya.
Hati-hati dengan peeking, yaitu mengintip hasil setiap hari. Ini meningkatkan false positive rate dari $5%$ menjadi $20%$ atau lebih. Referensi: Evan Miller, How Not to Run an A/B Test.
Studi Kasus Nalesha
Saat menangani Nalesha Parfum, tim kami menguji dua versi hero landing page. Varian A menampilkan produk, varian B menampilkan founder. Setelah $21$ hari dengan $n \approx 14{.}000$ per varian, uplift $B$ relatif $+18%$ dengan $p = 0{,}03$. Keputusan ship dibuat bukan karena angka besar, tapi karena sample size sudah tercapai dan $p$ lolos ambang. Framework detail ada di panduan landing page konversi tinggi.
Pertanyaan Umum
Berapa lama idealnya menjalankan A/B test?
Minimal $2$ minggu penuh atau sampai sample size tercapai, mana yang lebih lama. Dua minggu menutupi variasi weekday-weekend.
Bagaimana kalau traffic saya kecil?
Gunakan sequential testing atau fokus ke north star metric yang lebih sensitif. Atau uji perubahan lebih besar (redesign total) supaya $\delta$ lebih besar dan $n$ lebih kecil.
Apakah $p=0{,}049$ benar-benar lebih baik dari $p=0{,}051$?
Secara statistik hampir tidak berbeda. Ambang $0{,}05$ adalah konvensi, bukan hukum alam.
Ringkas untuk Dipakai Besok
Sebelum menekan tombol "start test", hitung dulu sample size. Jika trafficnya tidak cukup dalam dua minggu, jangan mulai tes, atau uji perubahan yang lebih dramatis.
Artikel Terkait
Digital Marketing
Dari Excel ke Notion: Transformasi Digital UMKM yang Realistis
Transformasi digital UMKM bukan berarti langsung pakai ERP mahal. Langkah pertama yang paling berdampak justru pindah dari Excel terserak ke Notion atau tools kolaboratif.
Digital Marketing
Studi Kasus: Bagaimana Glosarium Membawa Traffic Organik ke Website
Glosarium bukan sekadar kamus istilah. Ia adalah aset SEO long-tail yang sering diabaikan. Berikut data dan strategi dari proyek vitoatmo.com.
Website Bisnis
LCP, INP, CLS: Bedah Tiga Metrik Core Web Vitals dengan Rumus
Panduan lengkap tiga metrik Core Web Vitals, lengkap dengan ambang batas Google, rumus perhitungan, dan checklist optimasi yang sudah terbukti di proyek klien.
Butuh website yang benar-benar bekerja?
Hubungi Vito untuk konsultasi gratis 15 menit.
WhatsApp Sekarang →