Digital Marketing

Matematika di Balik A/B Testing Landing Page

Sebelum memutuskan varian mana yang menang, marketer perlu tahu rumus sample size dan p-value. Kalau tidak, keputusan "varian B menang" seringkali cuma ilusi statistik.

Vito Atmo·21 April 2026·0 kali dibaca·3 min baca

Matematika di Balik A/B Testing Landing Page

TL;DR: A/B testing yang benar butuh minimal sample size yang dihitung dari standar deviasi dan minimum detectable effect. Rumus ringkasnya $n = 16\sigma^2/\delta^2$ untuk asumsi $\alpha=0{,}05$ dan power $80%$. Marketer yang skip tahap ini sering salah menyimpulkan varian pemenang padahal perbedaannya hanya noise statistik.

Di banyak review campaign, saya melihat tim marketing men-declare varian pemenang setelah dua hari test dengan 400 pengunjung per varian. Keputusan seperti ini hampir selalu prematur. A/B testing adalah eksperimen statistik, dan seperti eksperimen ilmiah lain, butuh ukuran sampel yang cukup supaya kesimpulannya tidak bias.

Formula sample size A/B testing dan uplift conversion rate

Rumus Dasar Sample Size

Untuk metrik konversi biner (convert / tidak convert), rumus ringkas sample size per varian adalah:

$$n = \frac{16 \cdot \sigma^2}{\delta^2}$$

dengan $\sigma^2 = p(1-p)$ untuk baseline conversion rate $p$, dan $\delta$ adalah minimum detectable effect absolut. Konstanta $16$ berasal dari $(z_{\alpha/2} + z_\beta)^2 \approx (1{,}96 + 0{,}84)^2 \approx 7{,}84$, lalu dikali $2$ karena dua varian.

Contoh konkret. Baseline CR $2%$ dan Anda ingin mendeteksi uplift relatif $20%$ (jadi $\delta = 0{,}004$ absolut):

$$n = \frac{16 \cdot 0{,}02 \cdot 0{,}98}{(0{,}004)^2} \approx 19{.}600$$

Artinya Anda butuh sekitar $19{.}600$ pengunjung per varian, atau $\sim 39{.}200$ total. Ini yang jarang disadari marketer.

Uplift Absolut vs Relatif

Saat melaporkan hasil, selalu sebut keduanya:

$$\Delta_{\text{absolut}} = CR_B - CR_A$$

$$\Delta_{\text{relatif}} = \frac{CR_B - CR_A}{CR_A} \times 100%$$

Misal $CR_A = 2%$ dan $CR_B = 2{,}6%$. Absolut $+0{,}6$ poin persentase, relatif $+30%$. Stakeholder biasanya lebih ingat angka relatif, tetapi absolut yang benar-benar menggerakkan revenue.

P-Value dan Statistical Significance

Sebuah hasil disebut signifikan statistik jika $p\text{-value} < 0{,}05$. Artinya, probabilitas melihat perbedaan sebesar ini (atau lebih besar) ketika tidak ada perbedaan sebenarnya, kurang dari $5%$. Tools seperti GA4 dan Optimizely menghitung ini otomatis, tetapi marketer tetap perlu paham artinya.

Hati-hati dengan peeking, yaitu mengintip hasil setiap hari. Ini meningkatkan false positive rate dari $5%$ menjadi $20%$ atau lebih. Referensi: Evan Miller, How Not to Run an A/B Test.

Studi Kasus Nalesha

Saat menangani Nalesha Parfum, tim kami menguji dua versi hero landing page. Varian A menampilkan produk, varian B menampilkan founder. Setelah $21$ hari dengan $n \approx 14{.}000$ per varian, uplift $B$ relatif $+18%$ dengan $p = 0{,}03$. Keputusan ship dibuat bukan karena angka besar, tapi karena sample size sudah tercapai dan $p$ lolos ambang. Framework detail ada di panduan landing page konversi tinggi.

Pertanyaan Umum

Berapa lama idealnya menjalankan A/B test?

Minimal $2$ minggu penuh atau sampai sample size tercapai, mana yang lebih lama. Dua minggu menutupi variasi weekday-weekend.

Bagaimana kalau traffic saya kecil?

Gunakan sequential testing atau fokus ke north star metric yang lebih sensitif. Atau uji perubahan lebih besar (redesign total) supaya $\delta$ lebih besar dan $n$ lebih kecil.

Apakah $p=0{,}049$ benar-benar lebih baik dari $p=0{,}051$?

Secara statistik hampir tidak berbeda. Ambang $0{,}05$ adalah konvensi, bukan hukum alam.

Ringkas untuk Dipakai Besok

Sebelum menekan tombol "start test", hitung dulu sample size. Jika trafficnya tidak cukup dalam dua minggu, jangan mulai tes, atau uji perubahan yang lebih dramatis.