Digital Transformation
LLM Context Compaction Ratio
TL;DR: LLM Context Compaction Ratio adalah perbandingan ukuran konteks asli terhadap konteks setelah dipadatkan, biasanya dinyatakan sebagai angka seperti 3,2:1 atau 68% pengurangan. Sweet spot untuk asisten produksi di Next.js Supabase: rasio 2,5:1 hingga 4:1 dengan citation quality minimal 0,85.
Apa itu LLM Context Compaction Ratio?
LLM Context Compaction Ratio adalah metrik yang mengukur efektivitas proses memadatkan konteks LLM. Pemadatan dilakukan ketika percakapan agent atau pipeline RAG menumpuk token sampai mendekati batas context window. Konsep ini erat kaitannya dengan LLM Context Window Utilization Rate dan LLM Context Eviction Bias, tetapi compaction fokus pada rasio kompresi, bukan eviksi atau utilization.
Ada tiga teknik compaction yang umum dipakai praktisi:
- Summarization compaction: ringkas N pesan terlama jadi satu paragraf ringkas.
- Selective extraction: ambil hanya fakta dengan skor relevansi di atas threshold.
- Hierarchical compaction: simpan ringkasan multi-level (paragraf, bab, dokumen).
Cara Hitung dan Sweet Spot
Rumus dasar: tokens_asli / tokens_setelah_compact = ratio. Contoh konkret dari implementasi di Next.js dengan Supabase pgvector:
| Skenario | Token Asli | Token Compact | Ratio | Citation Quality |
|---|---|---|---|---|
| Konservatif | 8.000 | 6.400 | 1,25:1 | 0,96 |
| Sweet spot | 8.000 | 2.500 | 3,2:1 | 0,89 |
| Agresif | 8.000 | 1.100 | 7,3:1 | 0,71 |
Rasio agresif terlihat menarik karena hemat token, tetapi citation quality di bawah 0,80 cenderung membuat jawaban agent kehilangan detail kritis. Praktik standar yang diadopsi dari riset compression-aware RAG (Anthropic claude-3 context engineering notes) merekomendasikan rasio 2,5:1 hingga 4:1 sebagai range produksi.
Kenapa Penting?
Untuk asisten AI di skala UMKM Indonesia (1.000 hingga 10.000 sesi per hari), compaction ratio yang tepat bisa memangkas biaya inferensi 28 hingga 42% per bulan, sambil menjaga p95 latency tetap di bawah 1 detik. Tanpa compaction terukur, biaya context tokens bisa menjadi komponen terbesar dalam tagihan API LLM, sering melampaui biaya output generation 2 hingga 3 kali lipat.
Pertanyaan Umum
Apa beda compaction dengan summarization biasa?
Summarization adalah salah satu teknik compaction. Compaction lebih luas: termasuk selective extraction dan hierarchical storage, bukan hanya peringkasan naratif.
Berapa frekuensi compaction yang aman?
Trigger berbasis utilization: jalankan compaction saat utilization rate melewati 70%, jangan tunggu sampai 95% karena risiko gagal di tengah generation.
Istilah Terkait