Digital Transformation

Contextual Bandit

Contextual Bandit adalah algoritma reinforcement learning ringan yang memilih varian terbaik berdasarkan konteks pengguna, menyeimbangkan eksplorasi dan eksploitasi tanpa siklus A/B test penuh.

Vito Atmo
Vito Atmo·29 April 2026·0 kali dibaca·2 min baca

TL;DR: Contextual Bandit adalah pengembangan dari Multi-Armed Bandit yang memperhitungkan konteks pengguna seperti perangkat, lokasi, atau riwayat klik sebelum memilih varian. Algoritma ini cocok untuk personalisasi rekomendasi, judul artikel, atau urutan produk. Bedanya dengan A/B Testing, Contextual Bandit belajar dan beradaptasi terus-menerus, bukan menunggu hasil signifikansi statistik di akhir periode.

Apa itu Contextual Bandit?

Multi-Armed Bandit klasik memilih satu dari beberapa varian untuk semua pengguna, lalu mempelajari mana yang paling sering menghasilkan reward, misalnya klik atau konversi. Contextual Bandit menambah lapisan input berupa context vector, misalnya {device: mobile, region: jakarta, user_segment: returning}, sehingga keputusan varian disesuaikan tiap segmen. Output algoritma ini menyajikan personalisasi mikro tanpa perlu model rekomendasi penuh. Pendekatan ini banyak dipakai oleh perusahaan media seperti New York Times dan Yahoo untuk menentukan headline mana yang paling mungkin diklik tipe pembaca tertentu.

Cara Kerja Singkat

TahapDeskripsi
Observe contextSistem membaca atribut pengguna dan halaman saat ini
Choose armAlgoritma memilih varian (Thompson Sampling atau LinUCB)
Observe rewardKlik, konversi, atau metrik lain dicatat
Update modelBobot varian diperbarui dengan konteks tadi

Kenapa Penting

Untuk konversi di landing page atau urutan produk e-commerce, Contextual Bandit memberi hasil lebih cepat dengan sampel lebih sedikit dibanding A/B test klasik. Tim marketing bisa menjalankan beberapa varian sekaligus tanpa membuang traffic ke varian yang jelas kalah. Keterbatasannya, butuh log yang bersih dan engineering yang terbiasa dengan pipeline machine learning ringan. Untuk landasan teori praktis, Microsoft Research mempublikasikan ringkasan di Contextual Bandits learning algorithms.

Pertanyaan Umum

Apa beda Contextual Bandit dengan A/B Testing?

A/B Testing membagi traffic merata, menunggu signifikansi statistik, lalu memilih pemenang. Contextual Bandit terus mengalokasikan traffic lebih banyak ke varian yang berkinerja baik per konteks tanpa menunggu akhir periode.

Apakah Contextual Bandit menggantikan rekomendasi berbasis machine learning?

Tidak sepenuhnya. Bandit cocok untuk pilihan jumlah arm kecil seperti judul, hero image, atau CTA. Sistem rekomendasi penuh tetap dibutuhkan saat katalog ribuan item.

Bagikan