Studi Kasus Yuanita Sekar: Pasang Agent Tool Session Affinity 12 Menit di Asisten Coaching, Pangkas Biaya Inferensi Rp 5,8 Juta per Bulan dan Naikkan Determinisme Sesi 0,94 dalam 35 Hari di 2026
TL;DR: Per April 2026, asisten AI coaching Yuanita Sekar memasang Agent Tool Session Affinity dengan jendela 12 menit di Next.js Supabase. Hasil setelah 35 hari: biaya inferensi turun Rp 5,8 juta per bulan (38 persen), determinisme sesi naik dari 0,79 ke 0,94, dan p95 latency turun dari 1,6 detik ke 720 ms karena cache konteks tidak perlu di-load ulang.
Yuanita Sekar adalah personal brand coach dengan asisten AI yang melayani 320 sesi konsultasi per minggu. Sebelum optimasi, biaya inferensi membengkak ke Rp 15,2 juta per bulan dan klien sering mengeluh asisten "lupa" konteks di tengah sesi. Penyebabnya: setiap request dirotasi ke worker berbeda, sehingga konteks harus di-rehydrate dari nol.
Dalam case study ini, saya akan membahas bagaimana kami memasang Agent Tool Session Affinity selama 35 hari di Februari hingga Maret 2026 dan apa hasil nyatanya.
Konteks Masalah
Asisten coaching Yuanita berjalan di stack Next.js 15 dengan Supabase sebagai backend dan OpenAI sebagai model provider. Setiap sesi konsultasi rata-rata berlangsung 18 sampai 45 menit, dengan 12 sampai 30 turn message per sesi. Tanpa session affinity, request dirotasi ke worker via round-robin standar.
Dampak: setiap turn message memerlukan load ulang konteks sesi rata-rata 2.400 token, dengan biaya inferensi ekstra Rp 18.500 per sesi. Selain itu, determinisme sesi hanya 0,79 karena cache prefetch tidak konsisten antar worker. Klien sering mengeluh, asisten memberikan jawaban berbeda untuk pertanyaan serupa di sesi yang sama.
Framework Implementasi
| Tahap | Aksi | Durasi |
|---|---|---|
| 1 | Audit pola sesi: durasi, turn count, hit rate cache | 3 hari |
| 2 | Desain affinity key + window TTL | 2 hari |
| 3 | Implementasi consistent hashing di Edge function | 5 hari |
| 4 | Pasang failover policy + replay budget | 4 hari |
| 5 | Canary rollout 10 persen sesi, validasi metrik | 7 hari |
| 6 | Rollout 100 persen + monitoring 14 hari | 14 hari |
Total 35 hari. Lebih cepat dari estimasi awal 42 hari karena tim engineer Yuanita sudah punya agent tool bulkhead isolation terpasang sebelumnya, yang memudahkan integrasi.
Detail Implementasi
Affinity key dipilih dari hash session ID UUID v7, dengan TTL 12 menit (sweet spot untuk durasi sesi coaching). Routing memakai consistent hashing dengan virtual nodes 256 per physical worker, sehingga rebalance saat traffic naik tidak menghancurkan affinity yang sedang aktif.
Failover policy diset: saat worker target down, request di-route ke replica terdekat dan konteks di-replay melalui agent tool replay budget dengan budget 3 replay. Pengaturan ini menjaga continuity meski terjadi worker failure.
Eviction trigger diset di idle 5 menit. Jika sesi idle lebih dari 5 menit, affinity dilepas dan worker bisa diambil sesi lain. Pendekatan ini dijelaskan lebih detail di dokumentasi resmi consistent hashing dari Cloudflare.
Hasil 35 Hari
| Metrik | Sebelum | Sesudah | Delta |
|---|---|---|---|
| Biaya inferensi per bulan | Rp 15,2 juta | Rp 9,4 juta | Hemat Rp 5,8 juta (38 persen) |
| Determinisme sesi | 0,79 | 0,94 | Naik 19 persen |
| p95 latency turn | 1,6 detik | 720 ms | Turun 55 persen |
| Cache hit rate | 28 persen | 71 persen | Naik 2,5x |
| Komplain "lupa konteks" | 14 per minggu | 2 per minggu | Turun 86 persen |
Klien Yuanita merespons positif. Net Promoter Score sesi naik dari 41 ke 62 selama 30 hari pertama setelah rollout. Praktik standar industri yang saya pakai di proyek serupa (Atmo LMS, Vetmo) menunjukkan hasil yang konsisten.
Pertanyaan Umum
Apakah session affinity bikin worker imbalance?
Tidak, selama virtual nodes per worker minimal 128 dan TTL tidak terlalu panjang. Di kasus Yuanita, virtual nodes 256 dan TTL 12 menit menjaga load distribution dalam variance 8 persen antar worker.
Bagaimana kalau worker target tiba-tiba crash?
Failover policy meng-handle ini. Request di-route ke replica terdekat, konteks di-replay dari snapshot, dan affinity di-rebind ke worker baru. Hampir tidak terasa oleh end user.
Apakah cocok untuk asisten singkat seperti customer service ticket?
Kurang cocok jika durasi sesi rata-rata di bawah 3 menit. Session affinity paling efektif untuk sesi 8 menit atau lebih dengan banyak turn message.
Berapa biaya engineering untuk implementasi ini?
Untuk tim 2 engineer, sekitar 80 sampai 120 jam kerja total, termasuk testing dan rollout. Bisa lebih singkat jika sudah ada bulkhead isolation terpasang.
Apakah ini bikin debugging lebih sulit?
Iya sedikit, karena tracing harus menyertakan affinity key. Solusi: pasang structured logging dengan affinity key di setiap log entry agar mudah di-correlate.
Insight Aplikatif
Untuk tim engineer yang ingin meniru: mulai dari audit pola sesi (durasi rata-rata, turn count). Jika durasi sesi median di atas 8 menit, session affinity hampir pasti memberi penghematan signifikan. Pasang TTL 8 sampai 15 menit untuk start, lalu adjust berdasarkan distribusi durasi sesi aktual. Validasi via canary 10 persen sebelum full rollout.
Artikel Terkait
Case Study
Studi Kasus Felicia Tan: Perpanjang AEO Snippet Quote Attribution Decay Konten Fashion dari Half-Life 11 Hari ke 28 Hari dan Naikkan Brand Mention Perplexity 2,3 Kali dalam 37 Hari di 2026
Studi kasus 37 hari: cara perpanjang half-life attribution decay dari 11 ke 28 hari pakai temporal anchor + evidence rotation di konten fashion.
Case Study
Studi Kasus Nalesha: Pasang LLM Context Shard Rebalance di Pipeline RAG Parfum, Pangkas p95 Latency 41 Persen dan Naikkan Sitasi Perplexity dari 0,6 ke 1,3 per Minggu dalam 33 Hari di 2026
Studi kasus Nalesha rebalance shard retriever pipeline RAG produk parfum, p95 latency dari 248 ke 146 ms, sitasi Perplexity naik 2,2 kali dalam 33 hari di 2026.
Case Study
Studi Kasus Atmo LMS: Pasang Agent Tool Circuit Breaker Window 120 Detik di Asisten Kurikulum, Pangkas Cascading Failure 67 Persen dan Hemat Biaya Inferensi Rp 7,4 Juta per Bulan dalam 34 Hari di 2026
Cerita lapangan pasang circuit breaker 120 detik di asisten kurikulum Atmo LMS, dari trigger insiden, parameter yang diuji, sampai dampak operasionalnya.
Butuh website yang benar-benar bekerja?
Hubungi Vito untuk konsultasi gratis 15 menit.
WhatsApp Sekarang