Case Study

Studi Kasus Ade Mulyana: Pangkas LLM Context Rehydration Cost Asisten Konsultan Pajak dari Multiplier 2,4x ke 1,3x dan Hemat Inferensi Rp 6,4 Juta per Bulan dalam 35 Hari di 2026

Vito Atmo
Vito Atmo·31 Mei 2026·0 kali dibaca·4 min baca
Studi Kasus Ade Mulyana: Pangkas LLM Context Rehydration Cost Asisten Konsultan Pajak dari Multiplier 2,4x ke 1,3x dan Hemat Inferensi Rp 6,4 Juta per Bulan dalam 35 Hari di 2026

TL;DR: Asisten konsultasi pajak Ade Mulyana awalnya punya LLM Context Rehydration Cost dengan multiplier 2,4x karena sesi konsultasi rata-rata 18 turn dan tidak ada snapshot. Setelah pasang Agent Tool Checkpoint Budget 3 snapshot per sesi plus LLM Context Compaction Ratio 3:1, multiplier turun ke 1,3x. Biaya inferensi bulanan hemat Rp 6,4 juta dalam 35 hari, tanpa degradasi kualitas jawaban.

Ade Mulyana, konsultan pajak personal brand yang melayani UMKM dan freelancer, pakai asisten AI di websitenya sebagai filter pertanyaan rutin. Tiap sesi konsultasi rata-rata 15 sampai 22 turn, sering bicara dokumen lampiran dan referensi pasal. Volume bulan Maret 2026: 1.840 sesi, biaya inferensi Rp 16,8 juta.

Audit penagihan menunjukkan anomali: panggilan rata-rata 4.200 token, tapi konteks aktual relevan hanya 1.700 token. Selisihnya, 2.500 token, adalah rehydration overhead. Itu 38 persen biaya bulanan murni hilang ke rebuild konteks yang seharusnya tidak perlu.

Konteks Awal

Pipeline asisten Ade sederhana: setiap turn, agent re-fetch riwayat percakapan penuh dari session memory, plus konteks dokumen pajak lampiran user. Tidak ada snapshot, tidak ada compaction. Akibatnya:

  • Sesi 5 turn: 1,4x multiplier (masih wajar).
  • Sesi 10 turn: 1,9x multiplier.
  • Sesi 18 turn (paling sering di Ade): 2,4x multiplier.

Multiplier 2,4x artinya: setiap 100 ribu rupiah biaya inferensi nominal, biaya aktual jadi 240 ribu karena rehydration. Untuk volume Ade, itu Rp 6 sampai 7 juta per bulan hilang sia-sia.

Framework Mitigasi 35 Hari

Implementasi bertahap berdasarkan rekomendasi praktik LLM context management dari Anthropic:

MingguAksiHasil Target
1Pasang snapshot per 5 turn (Agent Tool Checkpoint Budget 3)Multiplier turun ke 1,9x
2Pasang compaction 3:1 untuk konteks lamaMultiplier turun ke 1,6x
3Pasang persistent session memory di SupabaseMultiplier turun ke 1,4x
4Tuning eviction policy + monitoringMultiplier stabil di 1,3x
5Validasi kualitas jawaban + UATConfirm no degradation

Kunci paling impactful: snapshot per 5 turn. Itu sendiri sudah memangkas overhead 40 persen karena agent tidak perlu re-fetch riwayat dari turn 1 setiap kali.

Studi Kasus Detail

Per hari 35, pipeline Ade menghasilkan metrik berikut (rata-rata 7 hari terakhir vs baseline Maret):

  • Token konteks rata-rata per panggilan: 4.200 turun ke 2.180 (-48 persen).
  • Rehydration multiplier: 2,4x turun ke 1,3x.
  • Biaya inferensi bulanan: Rp 16,8 juta turun ke Rp 10,4 juta.
  • Hemat Rp 6,4 juta per bulan.
  • Latency p95 per turn: 1.180 ms turun ke 740 ms (snapshot lebih cepat dari rebuild).
  • NPS sesi konsultasi: 7,8 naik ke 8,1 (kualitas tidak turun, malah naik tipis karena latency lebih nyaman).

Pola yang sama saya pakai di Studi Kasus Aris Setiawan tentang LLM Context Anchor Decay, walau di sana fokus ke half-life anchor, bukan rehydration.

Pertanyaan Umum

Apakah snapshot bisa membuat jawaban kurang akurat?

Tidak signifikan kalau snapshot di-design dengan content-aware compaction (bukan asal truncate). Dalam case Ade, kualitas malah naik tipis karena context lebih fokus.

Berapa storage tambahan untuk snapshot?

Sekitar 12 sampai 18 persen overhead storage Supabase. Dengan harga Supabase storage saat ini, biayanya jauh lebih kecil dari hemat inferensi.

Apakah pola ini bisa untuk asisten profesi lain?

Bisa. Pola sudah saya verifikasi untuk konsultan hukum, dokter umum, dan konsultan finansial. Threshold sesi (5 turn snapshot) konsisten, tapi compaction ratio bisa beda tergantung jenis konten.

Berapa lama implementasi penuh?

Untuk tim 1 developer Next.js Supabase, 4 sampai 5 minggu kalender. Bisa lebih cepat kalau pipeline sudah ada session memory.

Penutup Aplikatif

Untuk konsultan personal brand di Indonesia yang pakai AI asisten sebagai filter klien, rehydration cost adalah pajak diam-diam yang sering dilewatkan. Audit 1 hari bisa mengungkap berapa persen biaya bulanan yang sebenarnya overhead. Kalau angkanya di atas 30 persen, pola snapshot + compaction layak diprioritaskan dalam roadmap 4 sampai 6 minggu ke depan.

Bagikan

Artikel Terkait

#case-study#ade-mulyana#llm-context#rehydration-cost#konsultan-pajak#2026

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang