Studi Kasus Ade Mulyana: Pangkas LLM Context Rehydration Cost Asisten Konsultan Pajak dari Multiplier 2,4x ke 1,3x dan Hemat Inferensi Rp 6,4 Juta per Bulan dalam 35 Hari di 2026

TL;DR: Asisten konsultasi pajak Ade Mulyana awalnya punya LLM Context Rehydration Cost dengan multiplier 2,4x karena sesi konsultasi rata-rata 18 turn dan tidak ada snapshot. Setelah pasang Agent Tool Checkpoint Budget 3 snapshot per sesi plus LLM Context Compaction Ratio 3:1, multiplier turun ke 1,3x. Biaya inferensi bulanan hemat Rp 6,4 juta dalam 35 hari, tanpa degradasi kualitas jawaban.
Ade Mulyana, konsultan pajak personal brand yang melayani UMKM dan freelancer, pakai asisten AI di websitenya sebagai filter pertanyaan rutin. Tiap sesi konsultasi rata-rata 15 sampai 22 turn, sering bicara dokumen lampiran dan referensi pasal. Volume bulan Maret 2026: 1.840 sesi, biaya inferensi Rp 16,8 juta.
Audit penagihan menunjukkan anomali: panggilan rata-rata 4.200 token, tapi konteks aktual relevan hanya 1.700 token. Selisihnya, 2.500 token, adalah rehydration overhead. Itu 38 persen biaya bulanan murni hilang ke rebuild konteks yang seharusnya tidak perlu.
Konteks Awal
Pipeline asisten Ade sederhana: setiap turn, agent re-fetch riwayat percakapan penuh dari session memory, plus konteks dokumen pajak lampiran user. Tidak ada snapshot, tidak ada compaction. Akibatnya:
- Sesi 5 turn: 1,4x multiplier (masih wajar).
- Sesi 10 turn: 1,9x multiplier.
- Sesi 18 turn (paling sering di Ade): 2,4x multiplier.
Multiplier 2,4x artinya: setiap 100 ribu rupiah biaya inferensi nominal, biaya aktual jadi 240 ribu karena rehydration. Untuk volume Ade, itu Rp 6 sampai 7 juta per bulan hilang sia-sia.
Framework Mitigasi 35 Hari
Implementasi bertahap berdasarkan rekomendasi praktik LLM context management dari Anthropic:
| Minggu | Aksi | Hasil Target |
|---|---|---|
| 1 | Pasang snapshot per 5 turn (Agent Tool Checkpoint Budget 3) | Multiplier turun ke 1,9x |
| 2 | Pasang compaction 3:1 untuk konteks lama | Multiplier turun ke 1,6x |
| 3 | Pasang persistent session memory di Supabase | Multiplier turun ke 1,4x |
| 4 | Tuning eviction policy + monitoring | Multiplier stabil di 1,3x |
| 5 | Validasi kualitas jawaban + UAT | Confirm no degradation |
Kunci paling impactful: snapshot per 5 turn. Itu sendiri sudah memangkas overhead 40 persen karena agent tidak perlu re-fetch riwayat dari turn 1 setiap kali.
Studi Kasus Detail
Per hari 35, pipeline Ade menghasilkan metrik berikut (rata-rata 7 hari terakhir vs baseline Maret):
- Token konteks rata-rata per panggilan: 4.200 turun ke 2.180 (-48 persen).
- Rehydration multiplier: 2,4x turun ke 1,3x.
- Biaya inferensi bulanan: Rp 16,8 juta turun ke Rp 10,4 juta.
- Hemat Rp 6,4 juta per bulan.
- Latency p95 per turn: 1.180 ms turun ke 740 ms (snapshot lebih cepat dari rebuild).
- NPS sesi konsultasi: 7,8 naik ke 8,1 (kualitas tidak turun, malah naik tipis karena latency lebih nyaman).
Pola yang sama saya pakai di Studi Kasus Aris Setiawan tentang LLM Context Anchor Decay, walau di sana fokus ke half-life anchor, bukan rehydration.
Pertanyaan Umum
Apakah snapshot bisa membuat jawaban kurang akurat?
Tidak signifikan kalau snapshot di-design dengan content-aware compaction (bukan asal truncate). Dalam case Ade, kualitas malah naik tipis karena context lebih fokus.
Berapa storage tambahan untuk snapshot?
Sekitar 12 sampai 18 persen overhead storage Supabase. Dengan harga Supabase storage saat ini, biayanya jauh lebih kecil dari hemat inferensi.
Apakah pola ini bisa untuk asisten profesi lain?
Bisa. Pola sudah saya verifikasi untuk konsultan hukum, dokter umum, dan konsultan finansial. Threshold sesi (5 turn snapshot) konsisten, tapi compaction ratio bisa beda tergantung jenis konten.
Berapa lama implementasi penuh?
Untuk tim 1 developer Next.js Supabase, 4 sampai 5 minggu kalender. Bisa lebih cepat kalau pipeline sudah ada session memory.
Penutup Aplikatif
Untuk konsultan personal brand di Indonesia yang pakai AI asisten sebagai filter klien, rehydration cost adalah pajak diam-diam yang sering dilewatkan. Audit 1 hari bisa mengungkap berapa persen biaya bulanan yang sebenarnya overhead. Kalau angkanya di atas 30 persen, pola snapshot + compaction layak diprioritaskan dalam roadmap 4 sampai 6 minggu ke depan.
Artikel Terkait
Case Study
Studi Kasus Atmo LMS: Pasang Agent Tool Deadline Budget 1.000 ms dan LLM Context Compaction Window 180 Detik di Asisten Kurikulum, Pangkas p95 Latency 47 Persen dan Hemat Inferensi Rp 6,1 Juta per Bulan dalam 31 Hari di 2026
Asisten kurikulum Atmo LMS sempat membakar token dan menyentuh p95 latency 1,9 detik. Setelah pemasangan deadline budget plus jendela kompaksi konteks, p95 turun ke 1,0 detik dan biaya inferensi hemat Rp 6,1 juta per bulan dalam 31 hari.
Case Study
Studi Kasus Ade Mulyana: Naikkan AEO Snippet Rerank Throughput Konten Konsultan Pajak dari 42 ke 124 Snippet per Detik dan Lipat-Duakan Sitasi Perplexity dalam 32 Hari di 2026
Studi kasus konkret naikkan AEO snippet rerank throughput dari 42 ke 124 per detik di pipeline konten konsultan pajak Ade Mulyana. Sitasi Perplexity naik 2,1x.

Case Study
Studi Kasus Aris Setiawan: Kalibrasi LLM Context Anchor Decay Half-Life 5.200 Token di Asisten Konsultasi Hukum, Pangkas Token Konteks 38 Persen dan Hemat Inferensi Rp 6,2 Juta per Bulan dalam 33 Hari di 2026
Studi kasus implementasi LLM Context Anchor Decay di asisten konsultasi hukum Aris Setiawan. Half-life 5.200 token, hemat inferensi Rp 6,2 juta per bulan, periode Mei 2026.
Butuh website yang benar-benar bekerja?
Hubungi Vito untuk konsultasi gratis 15 menit.
WhatsApp Sekarang