Digital Marketing
Sample Ratio Mismatch (SRM)
SRM adalah ketidaksesuaian rasio sampel di A/B test antara alokasi yang direncanakan dan jumlah pengunjung aktual, sinyal kuat bahwa hasil eksperimen tidak valid.
TL;DR: Sample Ratio Mismatch (SRM) terjadi ketika jumlah pengunjung di varian A dan B tidak sesuai dengan alokasi 50/50 (atau rasio lain yang diset). Praktik standar industri menolak hasil eksperimen yang punya p-value SRM di bawah 0,01. Penyebab umum: bug tracking, redirect tidak konsisten, atau bot traffic yang tidak difilter.
Apa itu Sample Ratio Mismatch?
SRM adalah quality gate dalam A/B testing yang mengecek apakah jumlah pengunjung tiap varian sesuai alokasi yang direncanakan. Misal alokasi 50/50 dengan 100.000 pengunjung total, varian A dapat 49.500 dan varian B 50.500. Selisihnya kecil dan masih dalam toleransi statistik. Tapi jika A 47.000 dan B 53.000, chi-square test akan menunjukkan p-value rendah, sinyal SRM. Hasil eksperimen ini tidak boleh dipakai untuk keputusan.
Penyebab Umum
| Penyebab | Contoh konkret | Cara cek |
|---|---|---|
| Bug tracking | Event firing beda antar varian | Compare event count di GA4 |
| Redirect inconsistent | 301 di satu varian tidak di lain | Cek server log |
| Bot atau crawler | Tidak terfilter di salah satu varian | Cross-check dengan bot traffic report |
| Caching bias | CDN cache satu varian lebih lama | Audit cache header per varian |
Tools eksperimen modern seperti GrowthBook dan Statsig menyertakan SRM check otomatis. Microsoft Experimentation Platform menerbitkan kalkulator dan referensi praktik untuk tim yang membangun sistem internal.
Kenapa Penting?
Tim Indonesia yang menjalankan eksperimen tanpa SRM check sering mengambil keputusan berdasarkan data yang sebenarnya bias. Hasil yang terlihat menang 5 persen bisa jadi artefak alokasi yang tidak seimbang, bukan kemenangan varian. Memasang SRM check di pipeline analitik mencegah kesimpulan yang salah dan menjaga kredibilitas tim eksperimen.
Pertanyaan Umum
Berapa threshold p-value yang aman untuk SRM?
Praktik industri menggunakan p-value di bawah 0,01 sebagai sinyal alarm. Lebih konservatif dari threshold 0,05 untuk hipotesis utama karena SRM masalah validitas, bukan efek.
Apakah SRM selalu berarti eksperimen harus dihentikan?
Tidak harus dihentikan, tapi root cause wajib ditemukan sebelum hasil dipakai. Sering kali eksperimen perlu diulang setelah bug diperbaiki.