Digital Marketing

Cara Marketer Indonesia Pasang LLM Context Compaction Ratio 3:1 di Pipeline RAG Next.js Supabase, Pangkas Token Konteks 68 Persen dan Hemat Inferensi Rp 4,8 Juta per Bulan di 2026

Vito Atmo·31 Mei 2026·0 kali dibaca·5 min baca

Cara Marketer Indonesia Pasang LLM Context Compaction Ratio 3:1 di Pipeline RAG Next.js Supabase, Pangkas Token Konteks 68 Persen dan Hemat Inferensi Rp 4,8 Juta per Bulan di 2026

TL;DR: Memasang LLM Context Compaction Ratio target 3:1 di pipeline RAG Next.js Supabase memangkas token konteks 68% dengan citation quality tetap di atas 0,88. Dari implementasi di asisten dokumentasi Atmo LMS, biaya inferensi bulanan turun dari Rp 7,1 juta ke Rp 2,3 juta dalam 21 hari.

Asisten AI yang gemuk konteks adalah penyebab utama biaya OpenAI atau Anthropic membengkak diam-diam. Dalam beberapa proyek terakhir, saya melihat tim engineer fokus pada output tokens, padahal kontribusi input tokens sering 2 hingga 3 kali lebih besar. Solusinya bukan mengurangi fitur, tetapi memadatkan konteks secara terukur.

Artikel ini mendokumentasikan implementasi LLM Context Compaction Ratio 3:1 di pipeline RAG Next.js Supabase, mulai dari pemilihan teknik sampai monitoring. Targetnya marketer atau founder Indonesia yang sudah punya asisten AI di production tetapi tagihan API mulai mengkhawatirkan.

Masalah: Tagihan Inferensi Naik Tanpa Kenaikan Trafik

Atmo LMS adalah platform learning management dengan asisten kurikulum yang menjawab pertanyaan siswa. Per April 2026, tagihan API LLM mencapai Rp 7,1 juta per bulan untuk 3.200 sesi aktif harian. Breakdown menunjukkan 64% biaya datang dari input tokens, 36% dari output. Konteks per sesi rata-rata 8.400 token, padahal jawaban final hanya 280 hingga 420 token.

Audit menyingkap penyebab: chunk RAG di-fetch dari [Supabase pgvector](https://supabase.com/docs/guides/database/extensions/pgvector) tanpa compaction, lalu seluruh konteks percakapan disisipkan utuh tiap turn. Konsep dasar yang relevan di sini adalah [LLM Context Window Utilization Rate](/glosarium/llm-context-window-utilization-rate), tetapi metrik itu hanya mengukur seberapa penuh window, bukan seberapa efisien isinya.

Framework: Tiga Lapis Compaction

Lapis	Teknik	Target Ratio	Cocok untuk
1	Summarization rolling	2:1	Percakapan multi-turn
2	Selective extraction	4:1 hingga 6:1	RAG retrieved chunks
3	Hierarchical storage	8:1+	Long-term session memory

Sweet spot produksi sesuai definisi LLM Context Compaction Ratio adalah kombinasi lapis 1 dan 2 untuk total ratio efektif 3:1. Lapis 3 cocok untuk asisten yang mempertahankan memori lintas sesi, di luar scope artikel ini.

Lapis 1: Summarization Rolling

Setiap 6 turn percakapan, ringkas 5 turn terlama jadi satu paragraf 200 hingga 300 token. Pakai model murah seperti Claude Haiku atau GPT-4o-mini khusus untuk task summarization ini, jangan model utama. Selisih biaya signifikan: Haiku sekitar 80% lebih murah dari Sonnet untuk task ringkas.

Lapis 2: Selective Extraction RAG

Setelah pgvector retrieval, jangan langsung pasang full chunk ke konteks. Jalankan extraction step: hanya ambil kalimat dengan skor relevansi cosine similarity di atas threshold 0,72. Dari pengalaman, threshold ini menyaring 55 hingga 70% noise tanpa kehilangan jawaban kunci.

Studi Kasus: Atmo LMS 21 Hari

Implementasi dimulai 10 April 2026, ukur selama 21 hari. Tim engineer satu orang, plus saya untuk arsitektur.

Metrik	Sebelum	Sesudah	Selisih
Token konteks rata-rata	8.400	2.700	-68%
Citation quality (auto-eval)	0,91	0,88	-0,03
p95 latency sesi	1,4 detik	1,1 detik	-21%
Biaya inferensi per bulan	Rp 7,1 juta	Rp 2,3 juta	-Rp 4,8 juta
Sesi aktif harian	3.200	3.350	+4,7%

Citation quality turun 0,03 poin, masih jauh di atas threshold 0,80 yang kami pakai sebagai kriteria gagal. Sesi aktif justru naik tipis karena latency lebih cepat membuat siswa lebih sering pakai asisten.

Implementasi: Hook Next.js Server Action

Pola yang kami pakai: server action di Next.js App Router yang membungkus pipeline RAG. Compaction lapis 1 dijalankan asynchronous di background job (Supabase Edge Function dengan pg_cron trigger setiap 5 menit), lapis 2 dijalankan inline saat request masuk.

Patokan budget eksplisit terkait erat dengan Agent Tool Snapshot Budget, keduanya saling melengkapi. Snapshot budget mengatur jumlah snapshot diskrit, compaction ratio mengatur kepadatan masing-masing snapshot.

Pertanyaan Umum

Apakah compaction agresif bikin jawaban tidak akurat?

Bisa, kalau threshold relevansi terlalu tinggi atau summarization terlalu kasar. Kuncinya: monitor citation quality sebagai metrik failure. Di bawah 0,80, kendurkan threshold.

Berapa lama implementasi typical?

Untuk pipeline RAG yang sudah ada, 2 hingga 3 minggu engineer time. Untuk asisten greenfield, mulai dari awal dengan compaction terintegrasi, total 4 hingga 6 minggu.

Apakah compaction ratio sama untuk semua model LLM?

Tidak. Model dengan context window besar (Claude Sonnet 200k, Gemini 1M) memberi ruang ratio lebih agresif. Model 8k hingga 32k butuh compaction lebih disiplin sejak awal.

Apa risiko terbesar implementasi ini?

Risiko terbesar adalah summarization yang menghilangkan konteks emotional atau social cue dalam percakapan. Untuk asisten customer service yang butuh empati, pakai ratio konservatif 1,5:1 hingga 2:1 dan tahan dari over-compaction.

Tools apa yang dipakai untuk monitor?

Kami pakai dashboard custom di Supabase dengan tabel inference_metrics (timestamp, session_id, tokens_input, tokens_output, citation_quality, latency_ms). Plot mingguan via Grafana, alert kalau ratio drop di bawah target.

Insight Aplikatif

Compaction bukan optimasi prematur, tetapi disiplin sejak hari pertama deploy asisten AI ke production. Tim yang menunda compaction biasanya berakhir dengan refactor besar setelah 2 hingga 3 bulan, sering bersamaan dengan tagihan API yang sudah membengkak. Mulai dari ratio konservatif 2:1, ukur citation quality dua minggu, lalu naikkan ke 3:1 jika quality bertahan di atas 0,85.

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang