Studi Kasus Vetmo: Pasang Agent Tool Budget 2 Panggilan per Sesi di Asisten Booking Pet Care, Pangkas Cascading Retry 58 Persen dan Hemat Inferensi Rp 5,9 Juta per Bulan dalam 33 Hari di 2026
TL;DR: Vetmo menerapkan Agent Tool Budget 2 panggilan per sesi di asisten booking pet care. Hasil dalam 33 hari: cascading retry turun 58 persen, biaya inferensi hemat Rp 5,9 juta per bulan, p95 latency sesi turun dari 1,4 detik ke 720 ms. Studi kasus ini menjelaskan setup, metrik, dan trade-off yang harus dipertimbangkan marketer Indonesia yang mengelola asisten LLM.
Vetmo adalah platform booking pet care yang dibangun Vito Atmo dengan stack Next.js + Supabase. Asisten LLM-nya menangani jadwal kunjungan, lookup riwayat hewan, dan konfirmasi pembayaran. Per Januari 2026, tim mengamati pola sesi yang mengulang panggilan tool sampai 7-8 kali sebelum gagal, terutama di jam ramai.
Masalah: Cascading Retry yang Membakar Biaya
Tanpa batas eksplisit, agen LLM yang ragu cenderung memanggil ulang tool yang sama. Pola ini muncul saat respons pertama parsial atau ambigu. Setiap panggilan menambah biaya inferensi dan menambah waktu tunggu user.
Telemetri Vetmo di awal 2026 menunjukkan 22 persen sesi memakai lebih dari 5 panggilan tool. Dari sesi tersebut, 38 persen berakhir tanpa jawaban definitif. Biaya inferensi per sesi gagal rata-rata 2,1 kali sesi sukses.
Kerangka Implementasi: 4 Komponen
Pendekatan yang dipakai tim Vetmo:
| Komponen | Konfigurasi |
|---|---|
| Budget hard limit | 2 panggilan per sesi |
| Soft warning trigger | Setelah panggilan ke-1, agen siapkan ringkasan |
| Fallback path | Saat budget habis, agen tawarkan handoff ke admin |
| Telemetry | Log budget consumption per sesi ke tabel Supabase |
Logika ditulis di middleware Next.js yang membungkus setiap function call ke Supabase. Konfigurasi disimpan di tabel agent_config sehingga bisa diubah tanpa redeploy.
Hasil 33 Hari
| Metrik | Sebelum | Sesudah | Delta |
|---|---|---|---|
| Sesi dengan lebih dari 2 panggilan tool | 22 persen | 4 persen | turun 82 persen |
| Cascading retry per minggu | 312 sesi | 131 sesi | turun 58 persen |
| Biaya inferensi bulanan | Rp 14,3 juta | Rp 8,4 juta | hemat Rp 5,9 juta |
| p95 latency sesi | 1,4 detik | 720 ms | turun 49 persen |
| Sesi yang berakhir handoff admin | 6 persen | 9 persen | naik 50 persen |
Catatan trade-off: handoff ke admin naik dari 6 ke 9 persen. Untuk Vetmo ini diterima karena handoff selalu menghasilkan booking sukses, sementara cascading retry sering tidak. Detail kerangka biaya inferensi yang dipakai mengacu pada praktik orkestrasi agen yang dibahas Anthropic sepanjang 2025-2026.
Apa yang Bisa Direplikasi Marketer Indonesia
Marketer yang mengelola asisten LLM di e-commerce atau layanan booking bisa replikasi pola serupa. Yang perlu disiapkan: telemetry per sesi (jumlah tool call, panjang sesi, hasil akhir), konfigurasi budget yang bisa diatur ulang, dan jalur fallback yang masuk akal (handoff manusia, jawaban template, atau ringkasan parsial).
Bandingkan dengan pendekatan di studi kasus Atmo LMS soal cancellation budget yang menerapkan pola serupa di konteks edukasi.
Pertanyaan Umum
Berapa angka budget yang ideal untuk asisten booking?
Berdasarkan data Vetmo, 2 panggilan per sesi cukup untuk 86 persen kasus. Untuk asisten yang menangani konsultasi lebih kompleks, angka 4-6 panggilan lebih realistis. Validasi dengan telemetry sesi sebelum produksi.
Apakah handoff ke admin selalu mahal?
Tidak selalu. Untuk Vetmo, handoff justru meningkatkan tingkat konversi karena admin bisa menutup booking dengan empati. Beban admin naik sekitar 3 persen sesi tambahan per minggu.
Bagaimana cara memantau Tool Budget di production?
Tabel telemetry sederhana dengan kolom session_id, tool_calls, outcome, dan latency_ms cukup untuk audit mingguan. Tidak perlu observability tools mahal di tahap awal.
Apakah Tool Budget berbeda dengan Rate Limiting?
Berbeda. Rate Limiting membatasi total panggilan ke sebuah API dalam window waktu. Tool Budget membatasi panggilan per sesi user, lebih relevan untuk asisten percakapan.
Penutup: Budget yang Ketat Memaksa Agen Lebih Cerdas
Hasil di Vetmo memperkuat satu prinsip yang sering diabaikan: pembatasan eksplisit bisa meningkatkan kualitas output. Agen yang tahu hanya punya 2 panggilan akan memilih panggilan paling informatif. Tanpa batas, agen cenderung "mencoba dulu lalu lihat hasilnya", pola yang mahal di produksi.
Artikel Terkait
Case Study
Studi Kasus: Glosarium sebagai Mesin Trafik Organik yang Diam
Banyak yang menganggap halaman istilah sekadar pelengkap. Padahal, dengan struktur yang tepat, glosarium bisa jadi sumber trafik organik paling stabil di sebuah website.
Case Study
Studi Kasus: Bagaimana Glosarium Jadi Mesin Traffic Organik
Glosarium sering dianggap pelengkap. Padahal, jika dirancang benar, ia bisa jadi salah satu sumber traffic organik paling stabil sebuah website.
Case Study
MVP untuk UMKM: Validasi Produk Sebelum Bangun Besar
MVP membantu UMKM menguji kebutuhan pasar sebelum modal besar keluar. Langkah praktis dan studi kasus nyata membangun versi terkecil yang cukup.
Butuh website yang benar-benar bekerja?
Hubungi Vito untuk konsultasi gratis 15 menit.
WhatsApp Sekarang