Case Study

Studi Kasus Felicia Tan: Pasang LLM Context Eviction Policy Berbobot di Asisten Fashion, Pangkas Token Konteks 36 Persen dan Hemat Inferensi Rp 5,4 Juta per Bulan dalam 33 Hari di 2026

A
Admin·31 Mei 2026·0 kali dibaca·4 min baca
Studi Kasus Felicia Tan: Pasang LLM Context Eviction Policy Berbobot di Asisten Fashion, Pangkas Token Konteks 36 Persen dan Hemat Inferensi Rp 5,4 Juta per Bulan dalam 33 Hari di 2026

TL;DR: Asisten produk fashion Felicia Tan awalnya pakai eviction FIFO sederhana, mengakibatkan chunk relevan terbuang lebih dulu dan token window membengkak. Setelah Vito Atmo memasang llm-context-eviction-policy berbobot komposit 0,4 relevance, 0,3 frequency, 0,3 recency selama 33 hari di Mei 2026, token konteks turun 36 persen dan biaya inferensi hemat Rp 5,4 juta per bulan.

Felicia Tan menjalankan toko fashion online dengan asisten LLM untuk rekomendasi outfit dan pertanyaan size chart. Per April 2026, biaya inferensi melonjak 64 persen tanpa kenaikan trafik yang sebanding. Investigasi awal mengarah ke eviction policy yang tidak pernah dikalibrasi.

Diagnosa Awal: Eviction FIFO yang Boros

Asisten Felicia memakai pipeline RAG default dengan eviction FIFO. Chunk konteks dibuang berdasarkan urutan masuk. Praktik ini terlihat aman karena sederhana, tapi punya konsekuensi buruk: chunk produk best-seller yang sering dipanggil ulang justru dibuang lebih dulu karena masuk lebih awal di sesi.

Dari log produksi minggu pertama April 2026, 41 persen sesi memanggil ulang chunk yang sudah dievict, memaksa pipeline mengambil ulang dari Supabase. Setiap rehydration menambah 280 ms latency dan token yang sama dihitung dua kali.

Hipotesis: Skor Komposit

Vito mengusulkan eviction policy berbobot komposit. Bobot diturunkan dari pengamatan distribusi panggilan chunk di tiga klien sebelumnya (Vetmo, Atmo LMS, Nalesha):

SinyalBobotAlasan
Relevance (skor rerank)0,4Chunk paling cocok dengan query terbaru
Frequency (panggilan dalam sesi)0,3Chunk best-seller dipanggil berulang
Recency (usia dalam sesi)0,3Tetap perlu untuk hindari memory leak

Bobot ini sengaja tidak ekstrem ke salah satu sinyal. Dari pengalaman 7 tahun menangani pipeline data, kombinasi 40-30-30 cenderung tahan terhadap pergeseran pola query.

Eksekusi: 33 Hari Kalibrasi

Pemasangan dilakukan bertahap. Minggu pertama hanya 10 persen sesi dialihkan ke policy baru untuk perbandingan a/b. Setelah metrik stabil, ramp up ke 100 persen di hari ke-14.

Sepanjang 33 hari, Vito memantau:

  • Token konteks rata-rata per sesi
  • p95 latency rehydration
  • Tingkat sitasi Perplexity untuk halaman produk
  • Biaya inferensi harian

Mid-experiment, terjadi spike traffic dari kampanye Mother's Day. Policy tetap stabil tanpa perlu tuning ulang. Ini jadi indikator bahwa bobot 40-30-30 cukup robust untuk burst load.

Hasil

Setelah 33 hari, perbandingan baseline FIFO vs eviction berbobot:

MetrikSebelumSesudahPerubahan
Token konteks per sesi4.2002.690-36 persen
p95 latency sesi1,6 detik1,1 detik-31 persen
Sesi yang re-fetch chunk41 persen14 persen-27 poin
Biaya inferensi bulananRp 14,9 jutaRp 9,5 juta-Rp 5,4 juta

Sitasi Perplexity untuk halaman produk Felicia naik 1,7 kali, indikasi bahwa aeo-snippet-trust-decay-mitigation ikut terbantu karena chunk produk best-seller bertahan lebih lama di window.

Angka di atas spesifik untuk skala dan profil traffic Felicia. Sample-nya kecil (1 klien), sehingga praktik ini perlu divalidasi ulang per industri sebelum diadopsi luas.

Pelajaran

Eviction policy bukan parameter kosmetik. Untuk asisten produk dengan ekor panjang katalog (fashion, parfum, otomotif), bobot relevance sebaiknya di atas 0,35. Untuk asisten dengan jawaban deterministik (booking, lookup harga), bobot frequency yang lebih tinggi cenderung lebih baik. Detail referensi metrik bisa dilihat di web.dev tentang performa Core Web Vitals untuk konteks yang berdekatan.

Pertanyaan Umum

Kenapa bobot relevance bukan 0,5 atau lebih?

Bobot di atas 0,45 cenderung membuat chunk lama yang sangat relevan menumpuk dan menyebabkan stale context. 0,4 adalah sweet spot dari tiga eksperimen.

Apakah policy ini perlu di-retune tiap kuartal?

Tidak harus. Retune dipicu oleh perubahan profil katalog (mis. SKU baru lebih dari 30 persen) atau perubahan model LLM.

Bagaimana mengukur sukses-tidaknya?

Tiga metrik utama: token konteks per sesi, persentase chunk re-fetch, dan p95 latency. Semua tiga harus turun.

Apakah cocok untuk LMS atau pendidikan?

Cocok, tapi bobot frequency biasanya dinaikkan ke 0,4 karena pertanyaan kurikulum cenderung berulang.

Berapa lama implementasinya?

Untuk tim yang sudah punya pipeline RAG di Next.js Supabase, 2 sampai 3 hari pengembangan plus 14 hari kalibrasi a/b.

Penutup

Pelajaran utama dari proyek Felicia: optimasi infrastruktur LLM tidak selalu butuh model lebih besar atau prompt lebih pintar. Kadang yang dibutuhkan adalah policy pembuangan yang dipikirkan matang. Investasi 33 hari kalibrasi membayar dirinya sendiri dalam waktu kurang dari sebulan.

Bagikan

Artikel Terkait

#studi-kasus#felicia-tan#llm-context-eviction#fashion#nextjs-supabase#case-study

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang