Studi Kasus Aris Setiawan: Kalibrasi LLM Context Anchor Decay Half-Life 5.200 Token di Asisten Konsultasi Hukum, Pangkas Token Konteks 38 Persen dan Hemat Inferensi Rp 6,2 Juta per Bulan dalam 33 Hari di 2026

TL;DR: Aris Setiawan, konsultan personal branding hukum, butuh asisten LLM yang mempertahankan akurasi klaim faktual sambil memangkas biaya inferensi. Tim Vito Atmo memasang LLM Context Anchor Decay eksponensial dengan half-life 5.200 token. Dalam 33 hari, token konteks rata-rata turun 38 persen, akurasi jawaban tetap di 0,92, dan biaya inferensi bulanan turun dari Rp 16,4 juta ke Rp 10,2 juta. Penghematan netto Rp 6,2 juta per bulan.
Konteks Klien dan Masalah Awal
Aris Setiawan adalah konsultan hukum personal branding yang menggunakan asisten LLM untuk menjawab pertanyaan klien seputar perjanjian kerja dan struktur perusahaan. Sebelum kalibrasi, asisten memakai konteks penuh tanpa decay, artinya semua anchor klaim faktual (pasal undang-undang, tanggal putusan, definisi terminologi) punya bobot sama dari token pertama sampai token ke-32.000.
Dampaknya jelas. Token konteks rata-rata per sesi mencapai 28.400 token, biaya inferensi menyentuh Rp 16,4 juta per bulan untuk volume 4.200 sesi. Yang lebih merepotkan, akurasi jawaban justru menurun di sesi panjang karena anchor lawas yang tidak relevan ikut mempengaruhi output. Pola ini konsisten dengan temuan di pipeline RAG lain yang juga belum memakai LLM Context Compaction Ratio.
Hipotesis dan Pendekatan
Tim membentuk hipotesis: jika decay dikalibrasi dengan half-life 4.000 sampai 6.000 token, anchor relevan untuk pertanyaan langsung akan tetap berbobot tinggi sementara anchor yang sudah jauh dari fokus pertanyaan akan terdorong ke bobot rendah. Hasilnya, model dapat memilih klaim yang lebih akurat dengan token konteks lebih sedikit.
Tiga half-life diuji selama dua minggu (8.000, 5.200, 3.000 token). Half-life 5.200 token muncul sebagai sweet spot. Half-life 8.000 token terlalu lambat, akurasi naik 1 persen tapi token konsumsi turun hanya 12 persen. Half-life 3.000 token terlalu cepat, akurasi turun 4 persen meski hemat token 49 persen.
Implementasi Teknis
| Komponen | Konfigurasi |
|---|---|
| Kurva decay | Eksponensial |
| Half-life | 5.200 token |
| Anchor minimum | 3 per sesi (selalu dipertahankan) |
| Refresh anchor | Per 1.200 token baru |
Pipeline dijalankan di Supabase Edge Function dengan instrumentasi log token konsumsi per sesi. Untuk konteks tambahan tentang scoring snippet AI Search di sisi publik, dapat dirujuk dokumentasi Perplexity research documentation dan praktik Web Vitals di [web.dev Core Web Vitals](https://web.dev/articles/vitals) untuk halaman embed yang menampilkan jawaban.
Hasil Setelah 33 Hari
Setelah 33 hari produksi, tiga metrik utama bergerak positif. Token konteks rata-rata turun dari 28.400 ke 17.600, kira-kira 38 persen. Akurasi jawaban (diukur pakai sampel 240 pertanyaan terkurasi) bertahan di 0,92, sama dengan baseline pre-kalibrasi. Biaya inferensi turun dari Rp 16,4 juta ke Rp 10,2 juta per bulan, hemat Rp 6,2 juta per bulan.
Selain metrik utama, satu efek samping positif muncul. Latency p95 sesi turun dari 1,8 detik ke 1,1 detik karena konteks lebih ringkas. Klien menyatakan respons asisten terasa lebih cepat dan jawaban tetap presisi pada terminologi hukum.
Pertanyaan Umum
Apakah half-life 5.200 token berlaku untuk semua domain konsultasi?
Tidak otomatis. Half-life yang optimal tergantung kepadatan klaim faktual per domain. Domain hukum cenderung butuh half-life lebih panjang dibanding domain transaksional seperti e-commerce.
Bagaimana menjaga akurasi saat decay agresif?
Pertahankan minimum 3 anchor pilar yang tidak ikut decay. Anchor ini biasanya berisi definisi terminologi inti yang harus selalu tersedia.
Apakah pendekatan ini cocok untuk asisten kepribadian non-konsultatif?
Pendekatan ini paling cocok untuk asisten yang menjawab pertanyaan berbasis fakta. Untuk asisten kreatif atau brainstorming, decay terlalu agresif justru merugikan.
Berapa lama tahap A/B test yang dibutuhkan?
Berdasarkan pengalaman, 10 sampai 14 hari per half-life sudah cukup untuk dapat sinyal stabil, asal volume sesi minimal 800 per minggu.
Apakah hemat Rp 6,2 juta per bulan tetap setelah skala naik?
Penghematan persentase (sekitar 38 persen) cenderung stabil. Penghematan nominal naik proporsional dengan volume sesi.
Penutup: Decay Sebagai Disiplin Engineering
Hasil 33 hari di asisten Aris Setiawan menunjukkan bahwa decay yang dikalibrasi dengan benar bukan tradeoff antara akurasi dan biaya, melainkan optimasi keduanya sekaligus. Yang dibutuhkan adalah disiplin engineering untuk menjalankan A/B test sistematis dan kemauan editorial untuk menetapkan anchor pilar dengan jelas.
Artikel Terkait

Case Study
Studi Kasus Ade Mulyana: Pangkas LLM Context Rehydration Cost Asisten Konsultan Pajak dari Multiplier 2,4x ke 1,3x dan Hemat Inferensi Rp 6,4 Juta per Bulan dalam 35 Hari di 2026
Asisten pajak Ade sering rehydrate konteks panjang berkali-kali per sesi. Audit menunjukkan 38 persen biaya inferensi bulanan adalah overhead rehydration murni.
Case Study
Studi Kasus Ade Mulyana: Naikkan AEO Snippet Rerank Throughput Konten Konsultan Pajak dari 42 ke 124 Snippet per Detik dan Lipat-Duakan Sitasi Perplexity dalam 32 Hari di 2026
Studi kasus konkret naikkan AEO snippet rerank throughput dari 42 ke 124 per detik di pipeline konten konsultan pajak Ade Mulyana. Sitasi Perplexity naik 2,1x.
Case Study
Studi Kasus Vetmo: Naikkan AEO Snippet Rerank Coverage Konten Booking Pet Care dari 0,42 ke 0,68 dan Lipat-Duakan Sitasi Perplexity dalam 31 Hari di 2026
Studi kasus Vetmo menaikkan AEO Snippet Rerank Coverage konten booking pet care dari 0,42 ke 0,68 dan melipatduakan sitasi Perplexity dalam 31 hari lewat audit threshold dan rotasi snippet.
Butuh website yang benar-benar bekerja?
Hubungi Vito untuk konsultasi gratis 15 menit.
WhatsApp Sekarang