Case Study

Studi Kasus Vetmo: Pasang LLM Context Shard Affinity 12 Menit di Asisten Booking Pet Care, Pangkas Rehydration Cost 42 Persen dan Hemat Inferensi Rp 6,2 Juta per Bulan dalam 32 Hari di 2026

Vito Atmo·31 Mei 2026·0 kali dibaca·4 min baca

Studi Kasus Vetmo: Pasang LLM Context Shard Affinity 12 Menit di Asisten Booking Pet Care, Pangkas Rehydration Cost 42 Persen dan Hemat Inferensi Rp 6,2 Juta per Bulan dalam 32 Hari di 2026

TL;DR: Tim Vetmo memangkas rehydration cost asisten booking pet care 42 persen dengan memasang LLM Context Shard Affinity TTL 12 menit di pipeline RAG Next.js Supabase. Biaya inferensi turun Rp 6,2 juta per bulan, p95 latency stabil di bawah 780 ms, dan rasio cache hit naik dari 0,38 ke 0,72 dalam 32 hari di 2026.

Vetmo (klien pet care di portofolio Vito Atmo) menjalankan asisten booking berbasis LLM yang melayani 8.400 sesi per bulan. Sejak Januari 2026, biaya inferensi terus naik tanpa pertumbuhan sesi yang sebanding. Audit di awal April menunjukkan akar masalahnya: setiap turn percakapan berpindah shard konteks, memaksa pipeline RAG meng-rehydrate embedding dan history dari storage dingin berulang kali.

Dalam beberapa proyek RAG terakhir, saya melihat pola serupa di asisten dengan sesi panjang. Routing default sering memperlakukan tiap turn sebagai request independen, padahal sesi pengguna alami bersifat sticky.

Konteks dan Pengukuran Awal

Asisten Vetmo melayani booking grooming dan vaksinasi. Rata-rata sesi 7-9 turn dengan durasi 4-12 menit. Stack: Next.js 15 di Vercel, embedding di Supabase pgvector, LLM call via edge runtime.

Pengukuran baseline 14 hari pertama April 2026:

Biaya inferensi: Rp 14,8 juta per bulan untuk 8.400 sesi
Rasio cache hit embedding: 0,38
LLM Context Rehydration Cost multiplier: 2,4 kali
p95 latency per turn: 1.240 ms
Sesi gagal lengkap karena timeout: 7 persen

Akar masalah teridentifikasi dari log Vercel: 62 persen turn dalam satu sesi yang sama mendarat di shard konteks berbeda. Setiap perpindahan memicu rehydrate penuh.

Intervensi: Pasang Shard Affinity 12 Menit

Berdasarkan praktik standar di pipeline RAG Next.js Supabase yang dipakai di proyek Vito Atmo, kami pasang LLM Context Shard Affinity dengan TTL 12 menit. Implementasi minimal: hash session_id ke shard_id pakai consistent hashing, simpan mapping di Upstash Redis dengan TTL 12 menit.

Parameter	Sebelum	Sesudah
Routing strategy	Round robin	Consistent hashing dengan affinity
TTL mapping	Tidak ada	12 menit
Fallback saat shard down	Random	Shard tetangga via ring
Evaluasi rebalance	Tidak ada	Mingguan via LLM Context Shard Rebalance

Rollout bertahap: 20 persen traffic di minggu pertama, 60 persen di minggu kedua, 100 persen di minggu ketiga. Pendekatan ini memberi ruang untuk monitoring ketimpangan beban antar-shard.

Hasil Setelah 32 Hari

Pengukuran hari ke-32 (Mei 2026) menunjukkan perubahan signifikan:

Biaya inferensi turun ke Rp 8,6 juta per bulan, hemat Rp 6,2 juta atau 42 persen
Rasio cache hit embedding naik dari 0,38 ke 0,72
Rehydration cost multiplier turun dari 2,4 ke 1,3
p95 latency per turn turun dari 1.240 ms ke 780 ms
Sesi gagal timeout turun dari 7 persen ke 2 persen

Efek samping positif: konversi booking naik 14 persen karena UX terasa lebih responsif. Tim Vetmo mengonfirmasi keluhan "asisten lemot" di review aplikasi turun signifikan.

Catatan penting: angka ini bervariasi tergantung pola sesi dan distribusi beban. Untuk Vetmo dengan sesi rata-rata 7-9 turn, TTL 12 menit pas. Asisten dengan sesi lebih pendek (3-4 turn) mungkin cukup TTL 6-8 menit. Asisten konsultasi panjang (15-20 turn) bisa perlu 20-25 menit, sekaligus pasang Agent Tool Handoff Latency monitoring.

Pertanyaan Umum

Apakah shard affinity sama dengan sticky session di load balancer?

Konsepnya mirip. Sticky session umumnya untuk web server, sementara shard affinity khusus mengarah ke shard konteks LLM yang menyimpan embedding dan history sesi.

Bagaimana kalau shard tujuan down di tengah sesi?

Fallback ke shard tetangga via consistent hashing ring, lalu mark affinity baru sampai shard utama sehat. Praktik ini menjaga sesi tetap jalan walau dengan rehydrate satu kali.

Berapa lama sampai melihat hasil setelah implementasi?

Umumnya 14-21 hari untuk sinyal awal di rasio cache hit, 28-35 hari untuk efek penuh di biaya inferensi karena perlu siklus pemakaian yang representatif.

Apakah cocok untuk asisten dengan traffic spike?

Cocok asal pasang rebalance otomatis mingguan. Tanpa rebalance, beberapa shard bisa overloaded saat traffic spike, sementara shard lain idle.

Catatan Penutup

Shard affinity adalah perbaikan infrastruktur yang sering luput dari radar tim marketing. Padahal dampaknya langsung ke unit economics asisten LLM: lebih murah, lebih cepat, lebih stabil. Untuk tim Indonesia yang mulai serius monetisasi asisten agent, ini termasuk lima setting prioritas yang harus pasang sebelum scale ke 10 ribu sesi per bulan. Referensi tambahan ada di dokumentasi Vercel tentang Edge Cache regions yang relevan untuk konteks geografis Indonesia.

Studi Kasus: Konsultan Hukum Indonesia, dari 0 ke 12 Lead Berkualitas dalam 90 Hari

Bagaimana website satu halaman dengan struktur konversi yang tepat membawa konsultan hukum dari nol inbound ke 12 lead berkualitas dalam 90 hari pertama.

Case Study

Studi Kasus Felicia Tan: Pasang LLM Context Eviction Policy Berbobot di Asisten Fashion, Pangkas Token Konteks 36 Persen dan Hemat Inferensi Rp 5,4 Juta per Bulan dalam 33 Hari di 2026

Cerita lapangan kalibrasi eviction policy berbobot 0,4/0,3/0,3 untuk relevance, frequency, recency di asisten fashion Felicia Tan. Dari diagnosa, eksperimen, sampai hasil 33 hari.

Case Study

Studi Kasus Nalesha: Pangkas AEO Snippet Trust Decay Rate Konten Parfum dari 11 ke 4 Persen per Minggu dan Lipat-Duakan Sitasi Perplexity dalam 36 Hari di 2026

Tim Nalesha gagal pertahankan sitasi Perplexity karena snippet meluruh terlalu cepat. Setelah kalibrasi AEO Snippet Trust Decay Rate dari 11 ke 4 persen per minggu, sitasi naik 2,1 kali dan biaya refresh konten turun 36 persen.

#llm-ops#shard-affinity#vetmo#case-study#nextjs#supabase

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang