Case Study

Studi Kasus Vetmo: Pasang Agent Tool Budget 2 Panggilan per Sesi di Asisten Booking Pet Care, Pangkas Cascading Retry 58 Persen dan Hemat Inferensi Rp 5,9 Juta per Bulan dalam 33 Hari di 2026

Vito Atmo·1 Juni 2026·0 kali dibaca·4 min baca

Studi Kasus Vetmo: Pasang Agent Tool Budget 2 Panggilan per Sesi di Asisten Booking Pet Care, Pangkas Cascading Retry 58 Persen dan Hemat Inferensi Rp 5,9 Juta per Bulan dalam 33 Hari di 2026

TL;DR: Vetmo menerapkan Agent Tool Budget 2 panggilan per sesi di asisten booking pet care. Hasil dalam 33 hari: cascading retry turun 58 persen, biaya inferensi hemat Rp 5,9 juta per bulan, p95 latency sesi turun dari 1,4 detik ke 720 ms. Studi kasus ini menjelaskan setup, metrik, dan trade-off yang harus dipertimbangkan marketer Indonesia yang mengelola asisten LLM.

Vetmo adalah platform booking pet care yang dibangun Vito Atmo dengan stack Next.js + Supabase. Asisten LLM-nya menangani jadwal kunjungan, lookup riwayat hewan, dan konfirmasi pembayaran. Per Januari 2026, tim mengamati pola sesi yang mengulang panggilan tool sampai 7-8 kali sebelum gagal, terutama di jam ramai.

Masalah: Cascading Retry yang Membakar Biaya

Tanpa batas eksplisit, agen LLM yang ragu cenderung memanggil ulang tool yang sama. Pola ini muncul saat respons pertama parsial atau ambigu. Setiap panggilan menambah biaya inferensi dan menambah waktu tunggu user.

Telemetri Vetmo di awal 2026 menunjukkan 22 persen sesi memakai lebih dari 5 panggilan tool. Dari sesi tersebut, 38 persen berakhir tanpa jawaban definitif. Biaya inferensi per sesi gagal rata-rata 2,1 kali sesi sukses.

Kerangka Implementasi: 4 Komponen

Pendekatan yang dipakai tim Vetmo:

Komponen	Konfigurasi
Budget hard limit	2 panggilan per sesi
Soft warning trigger	Setelah panggilan ke-1, agen siapkan ringkasan
Fallback path	Saat budget habis, agen tawarkan handoff ke admin
Telemetry	Log budget consumption per sesi ke tabel Supabase

Logika ditulis di middleware Next.js yang membungkus setiap function call ke Supabase. Konfigurasi disimpan di tabel agent_config sehingga bisa diubah tanpa redeploy.

Hasil 33 Hari

Metrik	Sebelum	Sesudah	Delta
Sesi dengan lebih dari 2 panggilan tool	22 persen	4 persen	turun 82 persen
Cascading retry per minggu	312 sesi	131 sesi	turun 58 persen
Biaya inferensi bulanan	Rp 14,3 juta	Rp 8,4 juta	hemat Rp 5,9 juta
p95 latency sesi	1,4 detik	720 ms	turun 49 persen
Sesi yang berakhir handoff admin	6 persen	9 persen	naik 50 persen

Catatan trade-off: handoff ke admin naik dari 6 ke 9 persen. Untuk Vetmo ini diterima karena handoff selalu menghasilkan booking sukses, sementara cascading retry sering tidak. Detail kerangka biaya inferensi yang dipakai mengacu pada praktik orkestrasi agen yang dibahas Anthropic sepanjang 2025-2026.

Apa yang Bisa Direplikasi Marketer Indonesia

Marketer yang mengelola asisten LLM di e-commerce atau layanan booking bisa replikasi pola serupa. Yang perlu disiapkan: telemetry per sesi (jumlah tool call, panjang sesi, hasil akhir), konfigurasi budget yang bisa diatur ulang, dan jalur fallback yang masuk akal (handoff manusia, jawaban template, atau ringkasan parsial).

Bandingkan dengan pendekatan di studi kasus Atmo LMS soal cancellation budget yang menerapkan pola serupa di konteks edukasi.

Pertanyaan Umum

Berapa angka budget yang ideal untuk asisten booking?

Berdasarkan data Vetmo, 2 panggilan per sesi cukup untuk 86 persen kasus. Untuk asisten yang menangani konsultasi lebih kompleks, angka 4-6 panggilan lebih realistis. Validasi dengan telemetry sesi sebelum produksi.

Apakah handoff ke admin selalu mahal?

Tidak selalu. Untuk Vetmo, handoff justru meningkatkan tingkat konversi karena admin bisa menutup booking dengan empati. Beban admin naik sekitar 3 persen sesi tambahan per minggu.

Bagaimana cara memantau Tool Budget di production?

Tabel telemetry sederhana dengan kolom session_id, tool_calls, outcome, dan latency_ms cukup untuk audit mingguan. Tidak perlu observability tools mahal di tahap awal.

Apakah Tool Budget berbeda dengan Rate Limiting?

Berbeda. Rate Limiting membatasi total panggilan ke sebuah API dalam window waktu. Tool Budget membatasi panggilan per sesi user, lebih relevan untuk asisten percakapan.

Penutup: Budget yang Ketat Memaksa Agen Lebih Cerdas

Hasil di Vetmo memperkuat satu prinsip yang sering diabaikan: pembatasan eksplisit bisa meningkatkan kualitas output. Agen yang tahu hanya punya 2 panggilan akan memilih panggilan paling informatif. Tanpa batas, agen cenderung "mencoba dulu lalu lihat hasilnya", pola yang mahal di produksi.

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang