Digital Transformation

Agent Tool Fallback Cascade

Vito Atmo
Vito Atmo·31 Mei 2026·0 kali dibaca·2 min baca

TL;DR: Agent Tool Fallback Cascade adalah urutan tool cadangan yang dipanggil agent LLM jika tool utama gagal, dengan batas hop tetap (umumnya 2 sampai 3 lapis). Tujuannya menjaga sesi tetap selesai tanpa rantai panggilan yang menjalar tak terbatas dan membakar biaya inferensi.

Apa itu Agent Tool Fallback Cascade?

Agent Tool Fallback Cascade adalah pola desain di mana setiap tool kritis (mis. pencarian harga, ketersediaan slot, atau lookup pelanggan) punya daftar pengganti yang dipanggil berurutan ketika tool sebelumnya melempar error atau melebihi deadline. Yang membedakan cascade dari sekadar retry adalah batas hop tetap, sehingga agent tidak mencoba semua opsi sampai habis dan justru memperburuk latency.

Pola ini dekat dengan agent-tool-degradation-policy yang mengatur tingkatan layanan saat sistem stres, sementara cascade lebih spesifik mengatur rute panggilan tool per langkah.

Komponen Cascade

KomponenFungsi
Primary toolTool default dengan akurasi paling tinggi
Secondary toolPengganti dengan biaya lebih rendah, cakupan lebih sempit
Tertiary toolFallback terakhir, biasanya cache lama atau data statis
Hop budgetJumlah maksimum lapis fallback (2 sampai 3)
Stop signalIndikator bahwa cascade harus berhenti dan minta klarifikasi user

Kenapa Penting?

Tanpa cascade yang dibatasi, agent yang gagal di tool utama akan mencoba ulang berkali-kali, lalu pindah ke fallback, lalu mencoba ulang lagi. Setiap hop menambah token dan latency. Praktik standar di pipeline RAG produksi menunjukkan hop budget 2 sampai 3 lapis memberi sweet spot antara ketahanan sesi dan biaya inferensi.

Untuk marketer dan developer Indonesia yang menjalankan asisten produk di Next.js dan Supabase, cascade yang dipasang rapi membantu menjaga p95 latency sesi di bawah 1,2 detik bahkan saat tool kritis sedang flaky.

Pertanyaan Umum

Apa bedanya cascade dengan retry?

Retry mengulang tool yang sama. Cascade berpindah ke tool berbeda dengan kontrak input/output yang setara.

Berapa hop ideal?

Umumnya 2 hingga 3. Lebih dari 3 cenderung menambah biaya tanpa memperbaiki tingkat keberhasilan sesi.

Bagikan