Digital Transformation

LLM Routing Budget

Vito Atmo
Vito Atmo·1 Juni 2026·1 kali dibaca·3 min baca

TL;DR: LLM Routing Budget adalah aturan yang menentukan model bahasa mana yang dipakai untuk tiap jenis permintaan, lengkap dengan batas biaya dan latensi per panggilan. Tujuannya supaya tugas sederhana memakai model kecil yang murah dan cepat, sementara tugas kompleks tetap dialokasikan ke model besar yang lebih akurat.

Apa itu LLM Routing Budget?

LLM Routing Budget adalah kerangka anggaran yang dipasang di lapisan orkestrasi aplikasi AI. Kerangka ini memetakan kategori permintaan (klasifikasi pendek, ringkasan satu paragraf, penalaran multi-langkah, ekstraksi terstruktur) ke model yang paling sesuai berdasarkan biaya per 1.000 token, target latensi p95, dan tingkat kualitas minimum. Hasilnya, satu aplikasi bisa memakai 3 sampai 5 model berbeda secara bersamaan tanpa menjadi mahal atau lambat. Konsepnya berhubungan erat dengan agent tool budget yang membatasi panggilan tool dan agent tool retry policy budget yang membatasi pengulangan.

Cara Kerja

Routing budget biasanya bekerja di tiga lapisan. Pertama, classifier ringan menebak jenis dan tingkat kesulitan permintaan masuk. Kedua, router memilih model berdasarkan tabel kebijakan: ada batas biaya per panggilan, batas latensi, dan ambang kepercayaan. Ketiga, sistem mencatat aktual biaya dan latensi untuk audit. Tabel kebijakan sederhana misalnya seperti ini.

Kategori PermintaanModel PilihanBatas BiayaTarget Latensi p95
Klasifikasi pendekHaiku setaraRp 0,3 per call0,4 detik
Ringkasan paragrafSonnet setaraRp 1,2 per call0,9 detik
Penalaran kompleksOpus setaraRp 4 per call2,1 detik

Kenapa Penting?

Tanpa routing budget, aplikasi AI cenderung memakai model terbesar untuk semua tugas. Akibatnya biaya inferensi naik 3 sampai 5 kali lipat dan latensi p95 melar di atas 2 detik. Dari pengalaman menangani asisten booking Vetmo dan asisten coaching Ryandi Pratama, pemasangan routing budget yang baik bisa memangkas biaya 30 sampai 40 persen tanpa menurunkan kepuasan pengguna. Untuk konteks lebih luas, lihat panduan resmi di Anthropic Engineering blog tentang multi-model serving.

Pertanyaan Umum

Apakah LLM Routing Budget sama dengan load balancing?

Tidak. Load balancing membagi trafik antar instance model yang sama untuk skalabilitas. Routing budget memilih model yang berbeda berdasarkan jenis tugas dan target biaya.

Berapa banyak model yang ideal dipakai dalam satu aplikasi?

Praktik umum di 2026 adalah 2 sampai 4 model, satu kecil untuk klasifikasi, satu menengah untuk produksi konten, dan satu besar untuk penalaran berat. Lebih dari 5 model cenderung sulit dipelihara.

Bagikan