Digital Transformation
Contextual Bandit
Contextual Bandit adalah algoritma reinforcement learning ringan yang memilih varian terbaik berdasarkan konteks pengguna, menyeimbangkan eksplorasi dan eksploitasi tanpa siklus A/B test penuh.
TL;DR: Contextual Bandit adalah pengembangan dari Multi-Armed Bandit yang memperhitungkan konteks pengguna seperti perangkat, lokasi, atau riwayat klik sebelum memilih varian. Algoritma ini cocok untuk personalisasi rekomendasi, judul artikel, atau urutan produk. Bedanya dengan A/B Testing, Contextual Bandit belajar dan beradaptasi terus-menerus, bukan menunggu hasil signifikansi statistik di akhir periode.
Apa itu Contextual Bandit?
Multi-Armed Bandit klasik memilih satu dari beberapa varian untuk semua pengguna, lalu mempelajari mana yang paling sering menghasilkan reward, misalnya klik atau konversi. Contextual Bandit menambah lapisan input berupa context vector, misalnya {device: mobile, region: jakarta, user_segment: returning}, sehingga keputusan varian disesuaikan tiap segmen. Output algoritma ini menyajikan personalisasi mikro tanpa perlu model rekomendasi penuh. Pendekatan ini banyak dipakai oleh perusahaan media seperti New York Times dan Yahoo untuk menentukan headline mana yang paling mungkin diklik tipe pembaca tertentu.
Cara Kerja Singkat
| Tahap | Deskripsi |
|---|---|
| Observe context | Sistem membaca atribut pengguna dan halaman saat ini |
| Choose arm | Algoritma memilih varian (Thompson Sampling atau LinUCB) |
| Observe reward | Klik, konversi, atau metrik lain dicatat |
| Update model | Bobot varian diperbarui dengan konteks tadi |
Kenapa Penting
Untuk konversi di landing page atau urutan produk e-commerce, Contextual Bandit memberi hasil lebih cepat dengan sampel lebih sedikit dibanding A/B test klasik. Tim marketing bisa menjalankan beberapa varian sekaligus tanpa membuang traffic ke varian yang jelas kalah. Keterbatasannya, butuh log yang bersih dan engineering yang terbiasa dengan pipeline machine learning ringan. Untuk landasan teori praktis, Microsoft Research mempublikasikan ringkasan di Contextual Bandits learning algorithms.
Pertanyaan Umum
Apa beda Contextual Bandit dengan A/B Testing?
A/B Testing membagi traffic merata, menunggu signifikansi statistik, lalu memilih pemenang. Contextual Bandit terus mengalokasikan traffic lebih banyak ke varian yang berkinerja baik per konteks tanpa menunggu akhir periode.
Apakah Contextual Bandit menggantikan rekomendasi berbasis machine learning?
Tidak sepenuhnya. Bandit cocok untuk pilihan jumlah arm kecil seperti judul, hero image, atau CTA. Sistem rekomendasi penuh tetap dibutuhkan saat katalog ribuan item.
Istilah Terkait