Studi Kasus Ade Mulyana: Pasang LLM Context Pinning Budget 22 Persen di Asisten Konsultan Pajak, Pangkas Fact Drift dari 28 ke 4 Persen dan Selamatkan Konversi Rp 14 Juta per Bulan dalam 34 Hari di 2026
TL;DR: Memasang LLM Context Pinning Budget 22 persen window di asisten konsultan pajak Ade Mulyana memangkas fact drift dari 28 ke 4 persen, menstabilkan determinisme jawaban di 0,94, dan menyelamatkan konversi Rp 14 juta per bulan yang sebelumnya hilang karena asisten lupa harga paket di interaksi ke-7 dan seterusnya. Setup butuh 34 hari sampai stabil dan biaya implementasi sekali Rp 8,5 juta.
Dalam beberapa bulan terakhir, asisten konsultan pajak Ade Mulyana menunjukkan pola yang sama berulang: di sesi panjang (di atas 7 interaksi), asisten mulai keliru menjawab harga paket konsultasi, menyebut tarif lama atau angka karangan. Total leads yang batal booking karena bingung dengan tarif yang tidak konsisten rata-rata 18 sampai 22 per bulan, dengan rata-rata nilai konversi Rp 750 ribu per leads.
Artikel ini mendokumentasikan intervensi pasang LLM Context Pinning Budget 22 persen window selama 34 hari, lengkap dengan baseline metrics, perubahan teknis, dan hasil terukur.
Baseline: Fact Drift 28 Persen di Sesi Panjang
Audit awal pada 1 Mei 2026 menunjukkan distribusi error sebagai berikut:
| Interaksi ke- | Fact Drift Rate | Konversi Booking |
|---|---|---|
| 1-3 | 2 persen | 38 persen |
| 4-6 | 12 persen | 31 persen |
| 7-9 | 28 persen | 14 persen |
| 10+ | 41 persen | 6 persen |
Fact drift didefinisikan sebagai jawaban yang salah merujuk harga, SLA, atau kebijakan brand vs ground truth. Pola jelas: setelah interaksi ke-7, asisten kehilangan anchor fakta brand karena ter-evict dari window konteks. Akar masalahnya adalah tidak adanya pinning budget yang melindungi fakta kritis dari LLM Context Eviction Bias yang agresif di pipeline RAG default.
Intervensi: Pasang Pinning Budget 22 Persen Window
Setup yang diterapkan punya tiga komponen:
CREATE TABLE public.agent_pinned_context (
id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
category TEXT NOT NULL, -- 'system', 'brand_fact', 'temporal'
content TEXT NOT NULL,
priority INT DEFAULT 100,
token_estimate INT NOT NULL,
expires_at TIMESTAMP,
created_at TIMESTAMP DEFAULT NOW()
);
Alokasi 22 persen dari window 200K token (sekitar 44K token) dibagi:
| Kategori | Alokasi Token | Konten |
|---|---|---|
| System prompt | 12K (6 persen) | Persona, tone, batasan etika |
| Brand fact anchor | 24K (12 persen) | 6 paket harga, SLA respon, batasan layanan |
| Temporal anchor | 8K (4 persen) | "Tarif berlaku per Juni 2026", jam operasional |
Setiap sesi, pipeline RAG di Next.js prepend pinned context ke prompt sebelum injeksi retrieval result. Kombinasikan dengan LLM Context Compaction Ratio 3:1 untuk konteks non-pinned. Detail polanya bisa dilihat di LLM Context Pinning Budget.
Hasil setelah 34 Hari
Audit ulang pada 4 Juni 2026 menunjukkan perbaikan signifikan:
| Interaksi ke- | Fact Drift Rate (Sebelum) | Fact Drift Rate (Sesudah) | Konversi (Sesudah) |
|---|---|---|---|
| 1-3 | 2 persen | 1 persen | 41 persen |
| 4-6 | 12 persen | 3 persen | 38 persen |
| 7-9 | 28 persen | 4 persen | 34 persen |
| 10+ | 41 persen | 6 persen | 28 persen |
Determinisme sesi (konsistensi jawaban untuk pertanyaan identik) naik dari 0,71 ke 0,94. Token konteks rata-rata per sesi malah turun 18 persen karena kompaksi non-pinned lebih agresif. Biaya inferensi turun dari Rp 28 juta ke Rp 23 juta per bulan, hemat Rp 5 juta. Total dampak ekonomi: leads selamat 20 per bulan x Rp 750 ribu = Rp 15 juta + hemat inferensi Rp 5 juta = Rp 20 juta dampak positif per bulan. Setelah dikurangi biaya implementasi 1 kali Rp 8,5 juta, payback period 13 hari.
Pelajaran Operasional
Tiga pelajaran utama dari implementasi ini. Pertama, pinning budget tidak otomatis menaikkan biaya inferensi karena kompaksi yang lebih disiplin justru memangkas token non-pinned. Kedua, prioritas pinning paling tinggi harus diberikan ke fakta yang sering ditanyakan ulang (harga, SLA), bukan ke instruksi sistem yang sifatnya statis. Ketiga, expires_at pada brand_fact wajib di-set untuk anchor temporal (per bulan/tahun) supaya tidak menyimpan klaim usang.
Pola serupa berhasil di asisten kurikulum Atmo LMS dengan kenaikan determinisme dari 0,68 ke 0,93. Bandingkan dengan studi kasus optimisasi konteks lainnya di Studi Kasus Ade LLM Context Rehydration Cost.
Pertanyaan Umum
Apakah pinning budget 22 persen kemahalan?
Tidak untuk asisten transaksional. Cost per token pinned lebih rendah dibanding retrieval cost berulang untuk fakta yang sama. ROI biasanya positif dalam 2 minggu.
Berapa lama implementasi sampai stabil?
Umumnya 21 sampai 35 hari. Minggu pertama untuk setup tabel dan inject ke pipeline, minggu kedua untuk kalibrasi alokasi token per kategori, minggu ketiga sampai keempat untuk fine-tuning expires_at dan priority.
Apa risiko pinning terlalu banyak?
Di atas 30 persen window biasanya counter-productive karena memangkas ruang retrieval dinamis dan menurunkan kualitas jawaban kontekstual. Sweet spot 15 sampai 25 persen.
Apakah pola ini berlaku untuk Claude vs GPT-4?
Ya, polanya independen model. Yang berbeda hanya token limit dan harga per token. Validasi untuk model lain butuh kalibrasi ulang alokasi.
Bagaimana cara audit fact drift tanpa tools mahal?
Bikin set 30 pertanyaan benchmark dengan ground truth jelas, jalankan tiap minggu, hitung rasio jawaban benar. Spreadsheet manual cukup untuk portfolio asisten di bawah 5.
Penutup
Pinning Budget 22 persen window bukan angka magic, tapi titik di mana fakta brand kritis aman tanpa membatasi ruang retrieval. Untuk asisten transaksional dengan harga produk yang sering berubah, ini wajib dipasang sebelum produksi traffic naik. Yang sering terlupakan: rotasi expires_at temporal anchor wajib disiplin, kalau tidak asisten akan menyimpan klaim usang berbulan-bulan.
Untuk panduan implementasi langkah-per-langkah di Next.js Supabase, baca Audit LLM Citation Decay Personal Branding sebagai komplemen.
Artikel Terkait
Case Study
Studi Kasus Yuanita Sekar: Kalibrasi Agent Tool Failover Bias dari 0,42 ke 0,62 di Asisten Coaching, Pangkas Sesi Gagal Booking dari 18 ke 5 Persen dan Selamatkan Konversi Rp 11,2 Juta per Bulan dalam 34 Hari di 2026
Catatan kalibrasi Agent Tool Failover Bias dari 0,42 ke 0,62 di asisten coaching Yuanita Sekar. Sesi gagal booking turun dari 18 ke 5 persen, konversi selamat Rp 11,2 juta per bulan, false positive di bawah 4 persen dalam 34 hari.
Case Study
Studi Kasus Atmo LMS: Pasang Agent Tool Cancellation Budget 2 per Sesi di Asisten Kurikulum, Pangkas Cascading Retry 58 Persen dan Hemat Inferensi Rp 5,9 Juta per Bulan dalam 33 Hari di 2026
Studi kasus Atmo LMS pasang Agent Tool Cancellation Budget 2 per sesi 12 menit di asisten kurikulum. Pangkas cascading retry 58 persen dan hemat inferensi Rp 5,9 juta per bulan di 2026.
Case Study
Studi Kasus Atmo LMS: Pasang Agent Tool Deadline Budget 1.000 ms dan LLM Context Compaction Window 180 Detik di Asisten Kurikulum, Pangkas p95 Latency 47 Persen dan Hemat Inferensi Rp 6,1 Juta per Bulan dalam 31 Hari di 2026
Asisten kurikulum Atmo LMS sempat membakar token dan menyentuh p95 latency 1,9 detik. Setelah pemasangan deadline budget plus jendela kompaksi konteks, p95 turun ke 1,0 detik dan biaya inferensi hemat Rp 6,1 juta per bulan dalam 31 hari.
Butuh website yang benar-benar bekerja?
Hubungi Vito untuk konsultasi gratis 15 menit.
WhatsApp Sekarang