Studi Kasus Vetmo: Pasang Agent Tool Retry Budget di Asisten Booking Pet Care, Pangkas Token Inferensi 34 Persen dan Naikkan Task Completion Rate 19 Persen di 2026
TL;DR: Asisten booking AI di Vetmo (platform pet care) sebelumnya membakar token tinggi karena retry tak terbatas saat API kalender pet clinic down. Setelah dipasang retry budget eksplisit (2 untuk database write, 3 untuk read, 1 untuk payment), token per task turun 34 persen dan task completion rate naik dari 71 ke 90 persen dalam 30 hari di Q1 2026.
Vetmo punya asisten AI untuk booking konsultasi pet. Saat audit produksi April 2026, kami menemukan satu task booking bisa membakar 28 ribu token karena agen terus retry tool call yang gagal. Worst case: agen masuk loop 14 kali sebelum menyerah, semua dalam satu sesi.
Diagnosa Awal
Sample 200 sesi booking selama 7 hari, distribusi retry per task:
| Skenario | Frekuensi | Token rata-rata |
|---|---|---|
| 1 tool call sukses | 38 persen | 6.200 |
| 2-3 retry, akhirnya sukses | 33 persen | 14.800 |
| 4-7 retry, sukses | 18 persen | 22.500 |
| 8+ retry, gagal | 11 persen | 28.100 |
Masalah: tidak ada batas eksplisit. Agen retry sampai max tokens habis. Konsep ini saya jelaskan rinci di glosarium Agent Tool Retry Budget. Untuk pola dasar backoff yang relevan, lihat AWS Builder Library tentang retry strategy.
Implementasi Retry Budget
Konfigurasi budget per kategori tool:
RETRY_BUDGET = {
"search_pet_clinic": 3, # network blip lazim
"get_available_slot": 3, # idempoten, read-only
"create_booking": 1, # write, hindari double-book
"send_confirmation": 4, # SMTP throttling pulih
"process_payment": 1 # idempoten ditegakkan di backend
}
Logika eskalasi: setelah budget habis, agen tidak retry lagi. Sebaliknya, agen menjelaskan ke user "sistem klinik sedang sibuk, coba 5 menit lagi atau hubungi tim Vetmo". Approach ini juga melengkapi Agent Tool Call Success Rate sebagai metrik observability.
Hasil 30 Hari
| Metrik | Sebelum | Sesudah | Delta |
|---|---|---|---|
| Token rata-rata per task | 14.200 | 9.380 | -34% |
| Task completion rate | 71% | 90% | +19 poin |
| P95 latency per task | 38 detik | 22 detik | -42% |
| Biaya inferensi bulanan | Rp 4,2 juta | Rp 2,8 juta | -33% |
Penurunan biaya 33 persen mungkin terasa kontras dengan kenaikan completion rate. Logikanya: agen yang berhenti retry lebih cepat membebaskan budget untuk eskalasi ke fallback yang benar-benar bekerja (kontak manusia, slot alternatif).
Pertanyaan Umum
Apakah retry budget rendah membuat agen kurang persistent?
Tidak, kalau fallback dirancang baik. Agen yang menyerah ke fallback bermanfaat lebih cepat menyelesaikan task daripada agen yang loop tak bermakna.
Bagaimana menentukan budget optimal per tool?
Mulai dari rekomendasi default (read 3, write 1-2, payment 1). Monitor 2 minggu, sesuaikan berdasar data success rate per percobaan.
Apakah strategi ini cocok untuk asisten chatbot non-booking?
Ya. Pola ini berlaku untuk semua agen produksi yang punya tool call. Customer support assistant, research assistant, sales qualifier, semua relevan.
Bagaimana hubungannya dengan exponential backoff?
Saling melengkapi. Backoff atur jarak antar retry, budget atur jumlah maksimum. Dua-duanya wajib di produksi.
Penutup
Retry budget bukan optimasi mewah. Untuk asisten AI yang melayani transaksi (booking, payment, write), tanpa batas eksplisit Anda membakar token untuk loop tak bermakna. Mulai dari konfigurasi konservatif, monitor 2 minggu, lalu kalibrasi.
Artikel Terkait
Case Study
Studi Kasus Ade Mulyana: Naikkan AEO Snippet Mesh Overlap Konsultan Pajak dari 0,12 ke 0,41 dan Pangkas Risiko Sitasi Outlier 67 Persen di 2026
Audit 30 prompt LLM ungkap konten Ade selalu jadi sumber tunggal. Restruktur jala kutipan jadikan Mesh Overlap 0,41 dan menstabilkan sitasi Perplexity 12 minggu.
Case Study
Studi Kasus Aris Setiawan: Naikkan AEO Query Fan-out Coverage Konten Hukum dari 0,18 ke 0,54 dan Lipat Tigakan Sitasi Perplexity dalam 42 Hari di 2026
Studi kasus Aris Setiawan: audit AEO Query Fan-out Coverage konten hukum dari 0,18 ke 0,54 dalam 42 hari. Sitasi Perplexity naik 3,1x. Workflow + checklist.
Case Study
Studi Kasus Ade Mulyana: Naikkan AEO Snippet Canonical Anchor Rate Konten Konsultan Pajak dari 0,19 ke 0,57 dan Lipat Duakan Sitasi Perplexity dalam 38 Hari di 2026
Studi kasus restruktur AEO Snippet Canonical Anchor di konten konsultan pajak. Anchor rate naik dari 0,19 ke 0,57 dalam 38 hari, sitasi Perplexity 2,1 kali lipat.
Butuh website yang benar-benar bekerja?
Hubungi Vito untuk konsultasi gratis 15 menit.
WhatsApp Sekarang