Digital Transformation
LLM Tool Call Fanout Budget
TL;DR: LLM Tool Call Fanout Budget membatasi berapa tool boleh dipanggil paralel dalam satu giliran agent. Sweet spot 2 ke 4 panggilan. Tanpa budget, fanout 8+ bisa menggandakan biaya inferensi dan menabrak tail latency.
Apa itu Fanout Budget?
Fanout Budget adalah kontrak antara agent dan orchestrator: setiap giliran reasoning hanya boleh men-trigger N tool secara paralel. Ini berbeda dari warmup budget yang mengatur ritme inisialisasi. Saat membangun pipeline RAG untuk Atmo LMS, kami menemukan fanout > 5 menambah p95 latency 38 persen tanpa peningkatan kualitas jawaban.
Cara Hitung Budget Optimal
| Kategori Sesi | Fanout Aman |
|---|---|
| Q&A ringan | 1 ke 2 |
| Riset/RAG | 2 ke 4 |
| Multi-agent orkestrasi | 3 ke 5 |
| Agen kritis (transaksional) | 1 (serial) |
Hitung pakai rumus: budget = min(slot_paralel, biaya_max / biaya_per_tool).
Kenapa Penting?
Tanpa budget, pola "fan-out-fan-in" agent modern bisa membuat satu pertanyaan memicu 12 panggilan. Untuk operator agent di Indonesia dengan budget LLM terbatas (Rupiah), fanout discipline adalah cara paling cepat hemat 20-40 persen biaya inferensi. Dokumentasi OpenAI tool use juga menyarankan batas eksplisit per turn.
Pertanyaan Umum
Apakah fanout 1 (serial) selalu paling baik?
Tidak. Serial menambah latency. Sweet spot untuk RAG: 2-4 panggilan paralel dengan timeout per tool.
Bagaimana monitor fanout di production?
Catat tool_call_count per turn_id di Supabase, hitung distribusi p50/p95 mingguan.
Istilah Terkait