Digital Transformation
LLM Routing Budget
TL;DR: LLM Routing Budget adalah aturan yang menentukan model bahasa mana yang dipakai untuk tiap jenis permintaan, lengkap dengan batas biaya dan latensi per panggilan. Tujuannya supaya tugas sederhana memakai model kecil yang murah dan cepat, sementara tugas kompleks tetap dialokasikan ke model besar yang lebih akurat.
Apa itu LLM Routing Budget?
LLM Routing Budget adalah kerangka anggaran yang dipasang di lapisan orkestrasi aplikasi AI. Kerangka ini memetakan kategori permintaan (klasifikasi pendek, ringkasan satu paragraf, penalaran multi-langkah, ekstraksi terstruktur) ke model yang paling sesuai berdasarkan biaya per 1.000 token, target latensi p95, dan tingkat kualitas minimum. Hasilnya, satu aplikasi bisa memakai 3 sampai 5 model berbeda secara bersamaan tanpa menjadi mahal atau lambat. Konsepnya berhubungan erat dengan agent tool budget yang membatasi panggilan tool dan agent tool retry policy budget yang membatasi pengulangan.
Cara Kerja
Routing budget biasanya bekerja di tiga lapisan. Pertama, classifier ringan menebak jenis dan tingkat kesulitan permintaan masuk. Kedua, router memilih model berdasarkan tabel kebijakan: ada batas biaya per panggilan, batas latensi, dan ambang kepercayaan. Ketiga, sistem mencatat aktual biaya dan latensi untuk audit. Tabel kebijakan sederhana misalnya seperti ini.
| Kategori Permintaan | Model Pilihan | Batas Biaya | Target Latensi p95 |
|---|---|---|---|
| Klasifikasi pendek | Haiku setara | Rp 0,3 per call | 0,4 detik |
| Ringkasan paragraf | Sonnet setara | Rp 1,2 per call | 0,9 detik |
| Penalaran kompleks | Opus setara | Rp 4 per call | 2,1 detik |
Kenapa Penting?
Tanpa routing budget, aplikasi AI cenderung memakai model terbesar untuk semua tugas. Akibatnya biaya inferensi naik 3 sampai 5 kali lipat dan latensi p95 melar di atas 2 detik. Dari pengalaman menangani asisten booking Vetmo dan asisten coaching Ryandi Pratama, pemasangan routing budget yang baik bisa memangkas biaya 30 sampai 40 persen tanpa menurunkan kepuasan pengguna. Untuk konteks lebih luas, lihat panduan resmi di Anthropic Engineering blog tentang multi-model serving.
Pertanyaan Umum
Apakah LLM Routing Budget sama dengan load balancing?
Tidak. Load balancing membagi trafik antar instance model yang sama untuk skalabilitas. Routing budget memilih model yang berbeda berdasarkan jenis tugas dan target biaya.
Berapa banyak model yang ideal dipakai dalam satu aplikasi?
Praktik umum di 2026 adalah 2 sampai 4 model, satu kecil untuk klasifikasi, satu menengah untuk produksi konten, dan satu besar untuk penalaran berat. Lebih dari 5 model cenderung sulit dipelihara.
Istilah Terkait