Case Study

Studi Kasus Yuanita Sekar: Pasang Agent Tool Session Affinity 12 Menit di Asisten Coaching, Pangkas Biaya Inferensi Rp 5,8 Juta per Bulan dan Naikkan Determinisme Sesi 0,94 dalam 35 Hari di 2026

Vito Atmo·31 Mei 2026·0 kali dibaca·5 min baca

Studi Kasus Yuanita Sekar: Pasang Agent Tool Session Affinity 12 Menit di Asisten Coaching, Pangkas Biaya Inferensi Rp 5,8 Juta per Bulan dan Naikkan Determinisme Sesi 0,94 dalam 35 Hari di 2026

TL;DR: Per April 2026, asisten AI coaching Yuanita Sekar memasang Agent Tool Session Affinity dengan jendela 12 menit di Next.js Supabase. Hasil setelah 35 hari: biaya inferensi turun Rp 5,8 juta per bulan (38 persen), determinisme sesi naik dari 0,79 ke 0,94, dan p95 latency turun dari 1,6 detik ke 720 ms karena cache konteks tidak perlu di-load ulang.

Yuanita Sekar adalah personal brand coach dengan asisten AI yang melayani 320 sesi konsultasi per minggu. Sebelum optimasi, biaya inferensi membengkak ke Rp 15,2 juta per bulan dan klien sering mengeluh asisten "lupa" konteks di tengah sesi. Penyebabnya: setiap request dirotasi ke worker berbeda, sehingga konteks harus di-rehydrate dari nol.

Dalam case study ini, saya akan membahas bagaimana kami memasang Agent Tool Session Affinity selama 35 hari di Februari hingga Maret 2026 dan apa hasil nyatanya.

Konteks Masalah

Asisten coaching Yuanita berjalan di stack Next.js 15 dengan Supabase sebagai backend dan OpenAI sebagai model provider. Setiap sesi konsultasi rata-rata berlangsung 18 sampai 45 menit, dengan 12 sampai 30 turn message per sesi. Tanpa session affinity, request dirotasi ke worker via round-robin standar.

Dampak: setiap turn message memerlukan load ulang konteks sesi rata-rata 2.400 token, dengan biaya inferensi ekstra Rp 18.500 per sesi. Selain itu, determinisme sesi hanya 0,79 karena cache prefetch tidak konsisten antar worker. Klien sering mengeluh, asisten memberikan jawaban berbeda untuk pertanyaan serupa di sesi yang sama.

Framework Implementasi

Tahap	Aksi	Durasi
1	Audit pola sesi: durasi, turn count, hit rate cache	3 hari
2	Desain affinity key + window TTL	2 hari
3	Implementasi consistent hashing di Edge function	5 hari
4	Pasang failover policy + replay budget	4 hari
5	Canary rollout 10 persen sesi, validasi metrik	7 hari
6	Rollout 100 persen + monitoring 14 hari	14 hari

Total 35 hari. Lebih cepat dari estimasi awal 42 hari karena tim engineer Yuanita sudah punya agent tool bulkhead isolation terpasang sebelumnya, yang memudahkan integrasi.

Detail Implementasi

Affinity key dipilih dari hash session ID UUID v7, dengan TTL 12 menit (sweet spot untuk durasi sesi coaching). Routing memakai consistent hashing dengan virtual nodes 256 per physical worker, sehingga rebalance saat traffic naik tidak menghancurkan affinity yang sedang aktif.

Failover policy diset: saat worker target down, request di-route ke replica terdekat dan konteks di-replay melalui agent tool replay budget dengan budget 3 replay. Pengaturan ini menjaga continuity meski terjadi worker failure.

Eviction trigger diset di idle 5 menit. Jika sesi idle lebih dari 5 menit, affinity dilepas dan worker bisa diambil sesi lain. Pendekatan ini dijelaskan lebih detail di dokumentasi resmi consistent hashing dari Cloudflare.

Hasil 35 Hari

Metrik	Sebelum	Sesudah	Delta
Biaya inferensi per bulan	Rp 15,2 juta	Rp 9,4 juta	Hemat Rp 5,8 juta (38 persen)
Determinisme sesi	0,79	0,94	Naik 19 persen
p95 latency turn	1,6 detik	720 ms	Turun 55 persen
Cache hit rate	28 persen	71 persen	Naik 2,5x
Komplain "lupa konteks"	14 per minggu	2 per minggu	Turun 86 persen

Klien Yuanita merespons positif. Net Promoter Score sesi naik dari 41 ke 62 selama 30 hari pertama setelah rollout. Praktik standar industri yang saya pakai di proyek serupa (Atmo LMS, Vetmo) menunjukkan hasil yang konsisten.

Pertanyaan Umum

Apakah session affinity bikin worker imbalance?

Tidak, selama virtual nodes per worker minimal 128 dan TTL tidak terlalu panjang. Di kasus Yuanita, virtual nodes 256 dan TTL 12 menit menjaga load distribution dalam variance 8 persen antar worker.

Bagaimana kalau worker target tiba-tiba crash?

Failover policy meng-handle ini. Request di-route ke replica terdekat, konteks di-replay dari snapshot, dan affinity di-rebind ke worker baru. Hampir tidak terasa oleh end user.

Apakah cocok untuk asisten singkat seperti customer service ticket?

Kurang cocok jika durasi sesi rata-rata di bawah 3 menit. Session affinity paling efektif untuk sesi 8 menit atau lebih dengan banyak turn message.

Berapa biaya engineering untuk implementasi ini?

Untuk tim 2 engineer, sekitar 80 sampai 120 jam kerja total, termasuk testing dan rollout. Bisa lebih singkat jika sudah ada bulkhead isolation terpasang.

Apakah ini bikin debugging lebih sulit?

Iya sedikit, karena tracing harus menyertakan affinity key. Solusi: pasang structured logging dengan affinity key di setiap log entry agar mudah di-correlate.

Insight Aplikatif

Untuk tim engineer yang ingin meniru: mulai dari audit pola sesi (durasi rata-rata, turn count). Jika durasi sesi median di atas 8 menit, session affinity hampir pasti memberi penghematan signifikan. Pasang TTL 8 sampai 15 menit untuk start, lalu adjust berdasarkan distribusi durasi sesi aktual. Validasi via canary 10 persen sebelum full rollout.

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang