Studi Kasus Vetmo: Pasang LLM Context Shard Affinity 12 Menit di Asisten Booking Pet Care, Pangkas Rehydration Cost 42 Persen dan Hemat Inferensi Rp 6,2 Juta per Bulan dalam 32 Hari di 2026

TL;DR: Tim Vetmo memangkas rehydration cost asisten booking pet care 42 persen dengan memasang LLM Context Shard Affinity TTL 12 menit di pipeline RAG Next.js Supabase. Biaya inferensi turun Rp 6,2 juta per bulan, p95 latency stabil di bawah 780 ms, dan rasio cache hit naik dari 0,38 ke 0,72 dalam 32 hari di 2026.
Vetmo (klien pet care di portofolio Vito Atmo) menjalankan asisten booking berbasis LLM yang melayani 8.400 sesi per bulan. Sejak Januari 2026, biaya inferensi terus naik tanpa pertumbuhan sesi yang sebanding. Audit di awal April menunjukkan akar masalahnya: setiap turn percakapan berpindah shard konteks, memaksa pipeline RAG meng-rehydrate embedding dan history dari storage dingin berulang kali.
Dalam beberapa proyek RAG terakhir, saya melihat pola serupa di asisten dengan sesi panjang. Routing default sering memperlakukan tiap turn sebagai request independen, padahal sesi pengguna alami bersifat sticky.
Konteks dan Pengukuran Awal
Asisten Vetmo melayani booking grooming dan vaksinasi. Rata-rata sesi 7-9 turn dengan durasi 4-12 menit. Stack: Next.js 15 di Vercel, embedding di Supabase pgvector, LLM call via edge runtime.
Pengukuran baseline 14 hari pertama April 2026:
- Biaya inferensi: Rp 14,8 juta per bulan untuk 8.400 sesi
- Rasio cache hit embedding: 0,38
- LLM Context Rehydration Cost multiplier: 2,4 kali
- p95 latency per turn: 1.240 ms
- Sesi gagal lengkap karena timeout: 7 persen
Akar masalah teridentifikasi dari log Vercel: 62 persen turn dalam satu sesi yang sama mendarat di shard konteks berbeda. Setiap perpindahan memicu rehydrate penuh.
Intervensi: Pasang Shard Affinity 12 Menit
Berdasarkan praktik standar di pipeline RAG Next.js Supabase yang dipakai di proyek Vito Atmo, kami pasang LLM Context Shard Affinity dengan TTL 12 menit. Implementasi minimal: hash session_id ke shard_id pakai consistent hashing, simpan mapping di Upstash Redis dengan TTL 12 menit.
| Parameter | Sebelum | Sesudah |
|---|---|---|
| Routing strategy | Round robin | Consistent hashing dengan affinity |
| TTL mapping | Tidak ada | 12 menit |
| Fallback saat shard down | Random | Shard tetangga via ring |
| Evaluasi rebalance | Tidak ada | Mingguan via LLM Context Shard Rebalance |
Rollout bertahap: 20 persen traffic di minggu pertama, 60 persen di minggu kedua, 100 persen di minggu ketiga. Pendekatan ini memberi ruang untuk monitoring ketimpangan beban antar-shard.
Hasil Setelah 32 Hari
Pengukuran hari ke-32 (Mei 2026) menunjukkan perubahan signifikan:
- Biaya inferensi turun ke Rp 8,6 juta per bulan, hemat Rp 6,2 juta atau 42 persen
- Rasio cache hit embedding naik dari 0,38 ke 0,72
- Rehydration cost multiplier turun dari 2,4 ke 1,3
- p95 latency per turn turun dari 1.240 ms ke 780 ms
- Sesi gagal timeout turun dari 7 persen ke 2 persen
Efek samping positif: konversi booking naik 14 persen karena UX terasa lebih responsif. Tim Vetmo mengonfirmasi keluhan "asisten lemot" di review aplikasi turun signifikan.
Catatan penting: angka ini bervariasi tergantung pola sesi dan distribusi beban. Untuk Vetmo dengan sesi rata-rata 7-9 turn, TTL 12 menit pas. Asisten dengan sesi lebih pendek (3-4 turn) mungkin cukup TTL 6-8 menit. Asisten konsultasi panjang (15-20 turn) bisa perlu 20-25 menit, sekaligus pasang Agent Tool Handoff Latency monitoring.
Pertanyaan Umum
Apakah shard affinity sama dengan sticky session di load balancer?
Konsepnya mirip. Sticky session umumnya untuk web server, sementara shard affinity khusus mengarah ke shard konteks LLM yang menyimpan embedding dan history sesi.
Bagaimana kalau shard tujuan down di tengah sesi?
Fallback ke shard tetangga via consistent hashing ring, lalu mark affinity baru sampai shard utama sehat. Praktik ini menjaga sesi tetap jalan walau dengan rehydrate satu kali.
Berapa lama sampai melihat hasil setelah implementasi?
Umumnya 14-21 hari untuk sinyal awal di rasio cache hit, 28-35 hari untuk efek penuh di biaya inferensi karena perlu siklus pemakaian yang representatif.
Apakah cocok untuk asisten dengan traffic spike?
Cocok asal pasang rebalance otomatis mingguan. Tanpa rebalance, beberapa shard bisa overloaded saat traffic spike, sementara shard lain idle.
Catatan Penutup
Shard affinity adalah perbaikan infrastruktur yang sering luput dari radar tim marketing. Padahal dampaknya langsung ke unit economics asisten LLM: lebih murah, lebih cepat, lebih stabil. Untuk tim Indonesia yang mulai serius monetisasi asisten agent, ini termasuk lima setting prioritas yang harus pasang sebelum scale ke 10 ribu sesi per bulan. Referensi tambahan ada di dokumentasi Vercel tentang Edge Cache regions yang relevan untuk konteks geografis Indonesia.
Artikel Terkait
Case Study
Studi Kasus: Konsultan Hukum Indonesia, dari 0 ke 12 Lead Berkualitas dalam 90 Hari
Bagaimana website satu halaman dengan struktur konversi yang tepat membawa konsultan hukum dari nol inbound ke 12 lead berkualitas dalam 90 hari pertama.
Case Study
Studi Kasus Felicia Tan: Pasang LLM Context Eviction Policy Berbobot di Asisten Fashion, Pangkas Token Konteks 36 Persen dan Hemat Inferensi Rp 5,4 Juta per Bulan dalam 33 Hari di 2026
Cerita lapangan kalibrasi eviction policy berbobot 0,4/0,3/0,3 untuk relevance, frequency, recency di asisten fashion Felicia Tan. Dari diagnosa, eksperimen, sampai hasil 33 hari.

Case Study
Studi Kasus Nalesha: Pangkas AEO Snippet Trust Decay Rate Konten Parfum dari 11 ke 4 Persen per Minggu dan Lipat-Duakan Sitasi Perplexity dalam 36 Hari di 2026
Tim Nalesha gagal pertahankan sitasi Perplexity karena snippet meluruh terlalu cepat. Setelah kalibrasi AEO Snippet Trust Decay Rate dari 11 ke 4 persen per minggu, sitasi naik 2,1 kali dan biaya refresh konten turun 36 persen.
Butuh website yang benar-benar bekerja?
Hubungi Vito untuk konsultasi gratis 15 menit.
WhatsApp Sekarang