Case Study

Studi Kasus Felicia Tan: Pasang LLM Context Eviction Policy Berbobot di Asisten Fashion, Pangkas Token Konteks 36 Persen dan Hemat Inferensi Rp 5,4 Juta per Bulan dalam 33 Hari di 2026

Admin·31 Mei 2026·0 kali dibaca·4 min baca

TL;DR: Asisten produk fashion Felicia Tan awalnya pakai eviction FIFO sederhana, mengakibatkan chunk relevan terbuang lebih dulu dan token window membengkak. Setelah Vito Atmo memasang llm-context-eviction-policy berbobot komposit 0,4 relevance, 0,3 frequency, 0,3 recency selama 33 hari di Mei 2026, token konteks turun 36 persen dan biaya inferensi hemat Rp 5,4 juta per bulan.

Felicia Tan menjalankan toko fashion online dengan asisten LLM untuk rekomendasi outfit dan pertanyaan size chart. Per April 2026, biaya inferensi melonjak 64 persen tanpa kenaikan trafik yang sebanding. Investigasi awal mengarah ke eviction policy yang tidak pernah dikalibrasi.

Diagnosa Awal: Eviction FIFO yang Boros

Asisten Felicia memakai pipeline RAG default dengan eviction FIFO. Chunk konteks dibuang berdasarkan urutan masuk. Praktik ini terlihat aman karena sederhana, tapi punya konsekuensi buruk: chunk produk best-seller yang sering dipanggil ulang justru dibuang lebih dulu karena masuk lebih awal di sesi.

Dari log produksi minggu pertama April 2026, 41 persen sesi memanggil ulang chunk yang sudah dievict, memaksa pipeline mengambil ulang dari Supabase. Setiap rehydration menambah 280 ms latency dan token yang sama dihitung dua kali.

Hipotesis: Skor Komposit

Vito mengusulkan eviction policy berbobot komposit. Bobot diturunkan dari pengamatan distribusi panggilan chunk di tiga klien sebelumnya (Vetmo, Atmo LMS, Nalesha):

Sinyal	Bobot	Alasan
Relevance (skor rerank)	0,4	Chunk paling cocok dengan query terbaru
Frequency (panggilan dalam sesi)	0,3	Chunk best-seller dipanggil berulang
Recency (usia dalam sesi)	0,3	Tetap perlu untuk hindari memory leak

Bobot ini sengaja tidak ekstrem ke salah satu sinyal. Dari pengalaman 7 tahun menangani pipeline data, kombinasi 40-30-30 cenderung tahan terhadap pergeseran pola query.

Eksekusi: 33 Hari Kalibrasi

Pemasangan dilakukan bertahap. Minggu pertama hanya 10 persen sesi dialihkan ke policy baru untuk perbandingan a/b. Setelah metrik stabil, ramp up ke 100 persen di hari ke-14.

Sepanjang 33 hari, Vito memantau:

Token konteks rata-rata per sesi
p95 latency rehydration
Tingkat sitasi Perplexity untuk halaman produk
Biaya inferensi harian

Mid-experiment, terjadi spike traffic dari kampanye Mother's Day. Policy tetap stabil tanpa perlu tuning ulang. Ini jadi indikator bahwa bobot 40-30-30 cukup robust untuk burst load.

Hasil

Setelah 33 hari, perbandingan baseline FIFO vs eviction berbobot:

Metrik	Sebelum	Sesudah	Perubahan
Token konteks per sesi	4.200	2.690	-36 persen
p95 latency sesi	1,6 detik	1,1 detik	-31 persen
Sesi yang re-fetch chunk	41 persen	14 persen	-27 poin
Biaya inferensi bulanan	Rp 14,9 juta	Rp 9,5 juta	-Rp 5,4 juta

Sitasi Perplexity untuk halaman produk Felicia naik 1,7 kali, indikasi bahwa aeo-snippet-trust-decay-mitigation ikut terbantu karena chunk produk best-seller bertahan lebih lama di window.

Angka di atas spesifik untuk skala dan profil traffic Felicia. Sample-nya kecil (1 klien), sehingga praktik ini perlu divalidasi ulang per industri sebelum diadopsi luas.

Pelajaran

Eviction policy bukan parameter kosmetik. Untuk asisten produk dengan ekor panjang katalog (fashion, parfum, otomotif), bobot relevance sebaiknya di atas 0,35. Untuk asisten dengan jawaban deterministik (booking, lookup harga), bobot frequency yang lebih tinggi cenderung lebih baik. Detail referensi metrik bisa dilihat di web.dev tentang performa Core Web Vitals untuk konteks yang berdekatan.

Pertanyaan Umum

Kenapa bobot relevance bukan 0,5 atau lebih?

Bobot di atas 0,45 cenderung membuat chunk lama yang sangat relevan menumpuk dan menyebabkan stale context. 0,4 adalah sweet spot dari tiga eksperimen.

Apakah policy ini perlu di-retune tiap kuartal?

Tidak harus. Retune dipicu oleh perubahan profil katalog (mis. SKU baru lebih dari 30 persen) atau perubahan model LLM.

Bagaimana mengukur sukses-tidaknya?

Tiga metrik utama: token konteks per sesi, persentase chunk re-fetch, dan p95 latency. Semua tiga harus turun.

Apakah cocok untuk LMS atau pendidikan?

Cocok, tapi bobot frequency biasanya dinaikkan ke 0,4 karena pertanyaan kurikulum cenderung berulang.

Berapa lama implementasinya?

Untuk tim yang sudah punya pipeline RAG di Next.js Supabase, 2 sampai 3 hari pengembangan plus 14 hari kalibrasi a/b.

Penutup

Pelajaran utama dari proyek Felicia: optimasi infrastruktur LLM tidak selalu butuh model lebih besar atau prompt lebih pintar. Kadang yang dibutuhkan adalah policy pembuangan yang dipikirkan matang. Investasi 33 hari kalibrasi membayar dirinya sendiri dalam waktu kurang dari sebulan.

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang