Case Study

Studi Kasus Aris Setiawan: Kalibrasi LLM Context Anchor Decay Half-Life 5.200 Token di Asisten Konsultasi Hukum, Pangkas Token Konteks 38 Persen dan Hemat Inferensi Rp 6,2 Juta per Bulan dalam 33 Hari di 2026

Vito Atmo
Vito Atmo·31 Mei 2026·0 kali dibaca·4 min baca
Studi Kasus Aris Setiawan: Kalibrasi LLM Context Anchor Decay Half-Life 5.200 Token di Asisten Konsultasi Hukum, Pangkas Token Konteks 38 Persen dan Hemat Inferensi Rp 6,2 Juta per Bulan dalam 33 Hari di 2026

TL;DR: Aris Setiawan, konsultan personal branding hukum, butuh asisten LLM yang mempertahankan akurasi klaim faktual sambil memangkas biaya inferensi. Tim Vito Atmo memasang LLM Context Anchor Decay eksponensial dengan half-life 5.200 token. Dalam 33 hari, token konteks rata-rata turun 38 persen, akurasi jawaban tetap di 0,92, dan biaya inferensi bulanan turun dari Rp 16,4 juta ke Rp 10,2 juta. Penghematan netto Rp 6,2 juta per bulan.

Konteks Klien dan Masalah Awal

Aris Setiawan adalah konsultan hukum personal branding yang menggunakan asisten LLM untuk menjawab pertanyaan klien seputar perjanjian kerja dan struktur perusahaan. Sebelum kalibrasi, asisten memakai konteks penuh tanpa decay, artinya semua anchor klaim faktual (pasal undang-undang, tanggal putusan, definisi terminologi) punya bobot sama dari token pertama sampai token ke-32.000.

Dampaknya jelas. Token konteks rata-rata per sesi mencapai 28.400 token, biaya inferensi menyentuh Rp 16,4 juta per bulan untuk volume 4.200 sesi. Yang lebih merepotkan, akurasi jawaban justru menurun di sesi panjang karena anchor lawas yang tidak relevan ikut mempengaruhi output. Pola ini konsisten dengan temuan di pipeline RAG lain yang juga belum memakai LLM Context Compaction Ratio.

Hipotesis dan Pendekatan

Tim membentuk hipotesis: jika decay dikalibrasi dengan half-life 4.000 sampai 6.000 token, anchor relevan untuk pertanyaan langsung akan tetap berbobot tinggi sementara anchor yang sudah jauh dari fokus pertanyaan akan terdorong ke bobot rendah. Hasilnya, model dapat memilih klaim yang lebih akurat dengan token konteks lebih sedikit.

Tiga half-life diuji selama dua minggu (8.000, 5.200, 3.000 token). Half-life 5.200 token muncul sebagai sweet spot. Half-life 8.000 token terlalu lambat, akurasi naik 1 persen tapi token konsumsi turun hanya 12 persen. Half-life 3.000 token terlalu cepat, akurasi turun 4 persen meski hemat token 49 persen.

Implementasi Teknis

KomponenKonfigurasi
Kurva decayEksponensial
Half-life5.200 token
Anchor minimum3 per sesi (selalu dipertahankan)
Refresh anchorPer 1.200 token baru

Pipeline dijalankan di Supabase Edge Function dengan instrumentasi log token konsumsi per sesi. Untuk konteks tambahan tentang scoring snippet AI Search di sisi publik, dapat dirujuk dokumentasi Perplexity research documentation dan praktik Web Vitals di [web.dev Core Web Vitals](https://web.dev/articles/vitals) untuk halaman embed yang menampilkan jawaban.

Hasil Setelah 33 Hari

Setelah 33 hari produksi, tiga metrik utama bergerak positif. Token konteks rata-rata turun dari 28.400 ke 17.600, kira-kira 38 persen. Akurasi jawaban (diukur pakai sampel 240 pertanyaan terkurasi) bertahan di 0,92, sama dengan baseline pre-kalibrasi. Biaya inferensi turun dari Rp 16,4 juta ke Rp 10,2 juta per bulan, hemat Rp 6,2 juta per bulan.

Selain metrik utama, satu efek samping positif muncul. Latency p95 sesi turun dari 1,8 detik ke 1,1 detik karena konteks lebih ringkas. Klien menyatakan respons asisten terasa lebih cepat dan jawaban tetap presisi pada terminologi hukum.

Pertanyaan Umum

Apakah half-life 5.200 token berlaku untuk semua domain konsultasi?

Tidak otomatis. Half-life yang optimal tergantung kepadatan klaim faktual per domain. Domain hukum cenderung butuh half-life lebih panjang dibanding domain transaksional seperti e-commerce.

Bagaimana menjaga akurasi saat decay agresif?

Pertahankan minimum 3 anchor pilar yang tidak ikut decay. Anchor ini biasanya berisi definisi terminologi inti yang harus selalu tersedia.

Apakah pendekatan ini cocok untuk asisten kepribadian non-konsultatif?

Pendekatan ini paling cocok untuk asisten yang menjawab pertanyaan berbasis fakta. Untuk asisten kreatif atau brainstorming, decay terlalu agresif justru merugikan.

Berapa lama tahap A/B test yang dibutuhkan?

Berdasarkan pengalaman, 10 sampai 14 hari per half-life sudah cukup untuk dapat sinyal stabil, asal volume sesi minimal 800 per minggu.

Apakah hemat Rp 6,2 juta per bulan tetap setelah skala naik?

Penghematan persentase (sekitar 38 persen) cenderung stabil. Penghematan nominal naik proporsional dengan volume sesi.

Penutup: Decay Sebagai Disiplin Engineering

Hasil 33 hari di asisten Aris Setiawan menunjukkan bahwa decay yang dikalibrasi dengan benar bukan tradeoff antara akurasi dan biaya, melainkan optimasi keduanya sekaligus. Yang dibutuhkan adalah disiplin engineering untuk menjalankan A/B test sistematis dan kemauan editorial untuk menetapkan anchor pilar dengan jelas.

Bagikan

Artikel Terkait

#studi-kasus#llm#context-anchor-decay#hukum#aris-setiawan

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang