Case Study

Studi Kasus Vetmo: Pasang LLM Context Shard Affinity 12 Menit di Asisten Booking Pet Care, Pangkas Rehydration Cost 42 Persen dan Hemat Inferensi Rp 6,2 Juta per Bulan dalam 32 Hari di 2026

Vito Atmo
Vito Atmo·31 Mei 2026·0 kali dibaca·4 min baca
Studi Kasus Vetmo: Pasang LLM Context Shard Affinity 12 Menit di Asisten Booking Pet Care, Pangkas Rehydration Cost 42 Persen dan Hemat Inferensi Rp 6,2 Juta per Bulan dalam 32 Hari di 2026

TL;DR: Tim Vetmo memangkas rehydration cost asisten booking pet care 42 persen dengan memasang LLM Context Shard Affinity TTL 12 menit di pipeline RAG Next.js Supabase. Biaya inferensi turun Rp 6,2 juta per bulan, p95 latency stabil di bawah 780 ms, dan rasio cache hit naik dari 0,38 ke 0,72 dalam 32 hari di 2026.

Vetmo (klien pet care di portofolio Vito Atmo) menjalankan asisten booking berbasis LLM yang melayani 8.400 sesi per bulan. Sejak Januari 2026, biaya inferensi terus naik tanpa pertumbuhan sesi yang sebanding. Audit di awal April menunjukkan akar masalahnya: setiap turn percakapan berpindah shard konteks, memaksa pipeline RAG meng-rehydrate embedding dan history dari storage dingin berulang kali.

Dalam beberapa proyek RAG terakhir, saya melihat pola serupa di asisten dengan sesi panjang. Routing default sering memperlakukan tiap turn sebagai request independen, padahal sesi pengguna alami bersifat sticky.

Konteks dan Pengukuran Awal

Asisten Vetmo melayani booking grooming dan vaksinasi. Rata-rata sesi 7-9 turn dengan durasi 4-12 menit. Stack: Next.js 15 di Vercel, embedding di Supabase pgvector, LLM call via edge runtime.

Pengukuran baseline 14 hari pertama April 2026:

  • Biaya inferensi: Rp 14,8 juta per bulan untuk 8.400 sesi
  • Rasio cache hit embedding: 0,38
  • LLM Context Rehydration Cost multiplier: 2,4 kali
  • p95 latency per turn: 1.240 ms
  • Sesi gagal lengkap karena timeout: 7 persen

Akar masalah teridentifikasi dari log Vercel: 62 persen turn dalam satu sesi yang sama mendarat di shard konteks berbeda. Setiap perpindahan memicu rehydrate penuh.

Intervensi: Pasang Shard Affinity 12 Menit

Berdasarkan praktik standar di pipeline RAG Next.js Supabase yang dipakai di proyek Vito Atmo, kami pasang LLM Context Shard Affinity dengan TTL 12 menit. Implementasi minimal: hash session_id ke shard_id pakai consistent hashing, simpan mapping di Upstash Redis dengan TTL 12 menit.

ParameterSebelumSesudah
Routing strategyRound robinConsistent hashing dengan affinity
TTL mappingTidak ada12 menit
Fallback saat shard downRandomShard tetangga via ring
Evaluasi rebalanceTidak adaMingguan via LLM Context Shard Rebalance

Rollout bertahap: 20 persen traffic di minggu pertama, 60 persen di minggu kedua, 100 persen di minggu ketiga. Pendekatan ini memberi ruang untuk monitoring ketimpangan beban antar-shard.

Hasil Setelah 32 Hari

Pengukuran hari ke-32 (Mei 2026) menunjukkan perubahan signifikan:

  • Biaya inferensi turun ke Rp 8,6 juta per bulan, hemat Rp 6,2 juta atau 42 persen
  • Rasio cache hit embedding naik dari 0,38 ke 0,72
  • Rehydration cost multiplier turun dari 2,4 ke 1,3
  • p95 latency per turn turun dari 1.240 ms ke 780 ms
  • Sesi gagal timeout turun dari 7 persen ke 2 persen

Efek samping positif: konversi booking naik 14 persen karena UX terasa lebih responsif. Tim Vetmo mengonfirmasi keluhan "asisten lemot" di review aplikasi turun signifikan.

Catatan penting: angka ini bervariasi tergantung pola sesi dan distribusi beban. Untuk Vetmo dengan sesi rata-rata 7-9 turn, TTL 12 menit pas. Asisten dengan sesi lebih pendek (3-4 turn) mungkin cukup TTL 6-8 menit. Asisten konsultasi panjang (15-20 turn) bisa perlu 20-25 menit, sekaligus pasang Agent Tool Handoff Latency monitoring.

Pertanyaan Umum

Apakah shard affinity sama dengan sticky session di load balancer?

Konsepnya mirip. Sticky session umumnya untuk web server, sementara shard affinity khusus mengarah ke shard konteks LLM yang menyimpan embedding dan history sesi.

Bagaimana kalau shard tujuan down di tengah sesi?

Fallback ke shard tetangga via consistent hashing ring, lalu mark affinity baru sampai shard utama sehat. Praktik ini menjaga sesi tetap jalan walau dengan rehydrate satu kali.

Berapa lama sampai melihat hasil setelah implementasi?

Umumnya 14-21 hari untuk sinyal awal di rasio cache hit, 28-35 hari untuk efek penuh di biaya inferensi karena perlu siklus pemakaian yang representatif.

Apakah cocok untuk asisten dengan traffic spike?

Cocok asal pasang rebalance otomatis mingguan. Tanpa rebalance, beberapa shard bisa overloaded saat traffic spike, sementara shard lain idle.

Catatan Penutup

Shard affinity adalah perbaikan infrastruktur yang sering luput dari radar tim marketing. Padahal dampaknya langsung ke unit economics asisten LLM: lebih murah, lebih cepat, lebih stabil. Untuk tim Indonesia yang mulai serius monetisasi asisten agent, ini termasuk lima setting prioritas yang harus pasang sebelum scale ke 10 ribu sesi per bulan. Referensi tambahan ada di dokumentasi Vercel tentang Edge Cache regions yang relevan untuk konteks geografis Indonesia.

Bagikan

Artikel Terkait

#llm-ops#shard-affinity#vetmo#case-study#nextjs#supabase

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang