Studi Kasus Felicia Tan: Pasang LLM Context Eviction Policy Berbobot di Asisten Fashion, Pangkas Token Konteks 36 Persen dan Hemat Inferensi Rp 5,4 Juta per Bulan dalam 33 Hari di 2026
TL;DR: Asisten produk fashion Felicia Tan awalnya pakai eviction FIFO sederhana, mengakibatkan chunk relevan terbuang lebih dulu dan token window membengkak. Setelah Vito Atmo memasang llm-context-eviction-policy berbobot komposit 0,4 relevance, 0,3 frequency, 0,3 recency selama 33 hari di Mei 2026, token konteks turun 36 persen dan biaya inferensi hemat Rp 5,4 juta per bulan.
Felicia Tan menjalankan toko fashion online dengan asisten LLM untuk rekomendasi outfit dan pertanyaan size chart. Per April 2026, biaya inferensi melonjak 64 persen tanpa kenaikan trafik yang sebanding. Investigasi awal mengarah ke eviction policy yang tidak pernah dikalibrasi.
Diagnosa Awal: Eviction FIFO yang Boros
Asisten Felicia memakai pipeline RAG default dengan eviction FIFO. Chunk konteks dibuang berdasarkan urutan masuk. Praktik ini terlihat aman karena sederhana, tapi punya konsekuensi buruk: chunk produk best-seller yang sering dipanggil ulang justru dibuang lebih dulu karena masuk lebih awal di sesi.
Dari log produksi minggu pertama April 2026, 41 persen sesi memanggil ulang chunk yang sudah dievict, memaksa pipeline mengambil ulang dari Supabase. Setiap rehydration menambah 280 ms latency dan token yang sama dihitung dua kali.
Hipotesis: Skor Komposit
Vito mengusulkan eviction policy berbobot komposit. Bobot diturunkan dari pengamatan distribusi panggilan chunk di tiga klien sebelumnya (Vetmo, Atmo LMS, Nalesha):
| Sinyal | Bobot | Alasan |
|---|---|---|
| Relevance (skor rerank) | 0,4 | Chunk paling cocok dengan query terbaru |
| Frequency (panggilan dalam sesi) | 0,3 | Chunk best-seller dipanggil berulang |
| Recency (usia dalam sesi) | 0,3 | Tetap perlu untuk hindari memory leak |
Bobot ini sengaja tidak ekstrem ke salah satu sinyal. Dari pengalaman 7 tahun menangani pipeline data, kombinasi 40-30-30 cenderung tahan terhadap pergeseran pola query.
Eksekusi: 33 Hari Kalibrasi
Pemasangan dilakukan bertahap. Minggu pertama hanya 10 persen sesi dialihkan ke policy baru untuk perbandingan a/b. Setelah metrik stabil, ramp up ke 100 persen di hari ke-14.
Sepanjang 33 hari, Vito memantau:
- Token konteks rata-rata per sesi
- p95 latency rehydration
- Tingkat sitasi Perplexity untuk halaman produk
- Biaya inferensi harian
Mid-experiment, terjadi spike traffic dari kampanye Mother's Day. Policy tetap stabil tanpa perlu tuning ulang. Ini jadi indikator bahwa bobot 40-30-30 cukup robust untuk burst load.
Hasil
Setelah 33 hari, perbandingan baseline FIFO vs eviction berbobot:
| Metrik | Sebelum | Sesudah | Perubahan |
|---|---|---|---|
| Token konteks per sesi | 4.200 | 2.690 | -36 persen |
| p95 latency sesi | 1,6 detik | 1,1 detik | -31 persen |
| Sesi yang re-fetch chunk | 41 persen | 14 persen | -27 poin |
| Biaya inferensi bulanan | Rp 14,9 juta | Rp 9,5 juta | -Rp 5,4 juta |
Sitasi Perplexity untuk halaman produk Felicia naik 1,7 kali, indikasi bahwa aeo-snippet-trust-decay-mitigation ikut terbantu karena chunk produk best-seller bertahan lebih lama di window.
Angka di atas spesifik untuk skala dan profil traffic Felicia. Sample-nya kecil (1 klien), sehingga praktik ini perlu divalidasi ulang per industri sebelum diadopsi luas.
Pelajaran
Eviction policy bukan parameter kosmetik. Untuk asisten produk dengan ekor panjang katalog (fashion, parfum, otomotif), bobot relevance sebaiknya di atas 0,35. Untuk asisten dengan jawaban deterministik (booking, lookup harga), bobot frequency yang lebih tinggi cenderung lebih baik. Detail referensi metrik bisa dilihat di web.dev tentang performa Core Web Vitals untuk konteks yang berdekatan.
Pertanyaan Umum
Kenapa bobot relevance bukan 0,5 atau lebih?
Bobot di atas 0,45 cenderung membuat chunk lama yang sangat relevan menumpuk dan menyebabkan stale context. 0,4 adalah sweet spot dari tiga eksperimen.
Apakah policy ini perlu di-retune tiap kuartal?
Tidak harus. Retune dipicu oleh perubahan profil katalog (mis. SKU baru lebih dari 30 persen) atau perubahan model LLM.
Bagaimana mengukur sukses-tidaknya?
Tiga metrik utama: token konteks per sesi, persentase chunk re-fetch, dan p95 latency. Semua tiga harus turun.
Apakah cocok untuk LMS atau pendidikan?
Cocok, tapi bobot frequency biasanya dinaikkan ke 0,4 karena pertanyaan kurikulum cenderung berulang.
Berapa lama implementasinya?
Untuk tim yang sudah punya pipeline RAG di Next.js Supabase, 2 sampai 3 hari pengembangan plus 14 hari kalibrasi a/b.
Penutup
Pelajaran utama dari proyek Felicia: optimasi infrastruktur LLM tidak selalu butuh model lebih besar atau prompt lebih pintar. Kadang yang dibutuhkan adalah policy pembuangan yang dipikirkan matang. Investasi 33 hari kalibrasi membayar dirinya sendiri dalam waktu kurang dari sebulan.
Artikel Terkait
Case Study
Studi Kasus: Konsultan Hukum Indonesia, dari 0 ke 12 Lead Berkualitas dalam 90 Hari
Bagaimana website satu halaman dengan struktur konversi yang tepat membawa konsultan hukum dari nol inbound ke 12 lead berkualitas dalam 90 hari pertama.

Case Study
Studi Kasus Vetmo: Pasang LLM Context Shard Affinity 12 Menit di Asisten Booking Pet Care, Pangkas Rehydration Cost 42 Persen dan Hemat Inferensi Rp 6,2 Juta per Bulan dalam 32 Hari di 2026
Asisten booking Vetmo boros inferensi karena sesi sering pindah shard. Setelah pasang LLM Context Shard Affinity 12 menit, rehydration cost turun 42 persen dan p95 latency stabil di bawah 780 ms.

Case Study
Studi Kasus Nalesha: Pangkas AEO Snippet Trust Decay Rate Konten Parfum dari 11 ke 4 Persen per Minggu dan Lipat-Duakan Sitasi Perplexity dalam 36 Hari di 2026
Tim Nalesha gagal pertahankan sitasi Perplexity karena snippet meluruh terlalu cepat. Setelah kalibrasi AEO Snippet Trust Decay Rate dari 11 ke 4 persen per minggu, sitasi naik 2,1 kali dan biaya refresh konten turun 36 persen.
Butuh website yang benar-benar bekerja?
Hubungi Vito untuk konsultasi gratis 15 menit.
WhatsApp Sekarang