Digital Transformation
LLM Grounding Budget
TL;DR: LLM Grounding Budget adalah batas maksimum jumlah dokumen sumber yang boleh dipanggil model bahasa untuk menjawab satu pertanyaan pengguna. Batas ini menjaga jawaban tetap fokus, mengurangi halusinasi, dan menahan biaya inferensi tidak meledak saat lalu lintas naik.
Apa itu LLM Grounding Budget?
LLM Grounding Budget memberi pagar pada proses retrieval augmented generation (RAG). Tanpa pagar, sistem akan menarik puluhan dokumen, membengkakkan konteks, dan menaikkan biaya per jawaban. Konsep ini sejalan dengan Agent Tool Budget dan LLM Context Warm Pool Budget yang sama-sama membatasi konsumsi resource saat agent berjalan.
Cara Kerja
- Sistem menerima pertanyaan, melakukan retrieval awal dari REST API atau vector DB.
- Top-k dokumen disaring berdasarkan skor relevansi.
- Hanya N dokumen pertama (sesuai budget) yang masuk ke konteks final.
- Dokumen di luar budget di-drop atau dirangkum dulu.
Budget umumnya 3 sampai 8 dokumen untuk asisten umum, 1 sampai 3 dokumen untuk asisten dengan latency ketat seperti booking atau coaching.
Kenapa Penting?
Bagi web developer Indonesia yang membangun chatbot atau asisten AI di Next.js, grounding budget adalah satu-satunya cara realistis menjaga p95 latency tetap di bawah 1,5 detik. Pengalaman di project Atmo LMS dan Vetmo menunjukkan: setiap penambahan 1 dokumen di konteks rata-rata menambah 180 sampai 250 ms latency.
Pertanyaan Umum
Berapa angka grounding budget yang ideal?
Untuk asisten produktif dengan jawaban faktual, 3 sampai 5 dokumen cukup. Untuk RAG riset, 6 sampai 8 dokumen masih wajar.
Apa bedanya dengan context window LLM?
Context window adalah kapasitas teknis model. Grounding budget adalah keputusan produk Anda berapa banyak yang benar-benar dipakai.