Digital Transformation

LLM Tool Call Fanout Budget

Vito Atmo
Vito Atmo·31 Mei 2026·0 kali dibaca·2 min baca

TL;DR: LLM Tool Call Fanout Budget membatasi berapa tool boleh dipanggil paralel dalam satu giliran agent. Sweet spot 2 ke 4 panggilan. Tanpa budget, fanout 8+ bisa menggandakan biaya inferensi dan menabrak tail latency.

Apa itu Fanout Budget?

Fanout Budget adalah kontrak antara agent dan orchestrator: setiap giliran reasoning hanya boleh men-trigger N tool secara paralel. Ini berbeda dari warmup budget yang mengatur ritme inisialisasi. Saat membangun pipeline RAG untuk Atmo LMS, kami menemukan fanout > 5 menambah p95 latency 38 persen tanpa peningkatan kualitas jawaban.

Cara Hitung Budget Optimal

Kategori SesiFanout Aman
Q&A ringan1 ke 2
Riset/RAG2 ke 4
Multi-agent orkestrasi3 ke 5
Agen kritis (transaksional)1 (serial)

Hitung pakai rumus: budget = min(slot_paralel, biaya_max / biaya_per_tool).

Kenapa Penting?

Tanpa budget, pola "fan-out-fan-in" agent modern bisa membuat satu pertanyaan memicu 12 panggilan. Untuk operator agent di Indonesia dengan budget LLM terbatas (Rupiah), fanout discipline adalah cara paling cepat hemat 20-40 persen biaya inferensi. Dokumentasi OpenAI tool use juga menyarankan batas eksplisit per turn.

Pertanyaan Umum

Apakah fanout 1 (serial) selalu paling baik?

Tidak. Serial menambah latency. Sweet spot untuk RAG: 2-4 panggilan paralel dengan timeout per tool.

Bagaimana monitor fanout di production?

Catat tool_call_count per turn_id di Supabase, hitung distribusi p50/p95 mingguan.

Bagikan