Case Study

Studi Kasus Nalesha: Pasang LLM Context Shard Rebalance di Pipeline RAG Parfum, Pangkas p95 Latency 41 Persen dan Naikkan Sitasi Perplexity dari 0,6 ke 1,3 per Minggu dalam 33 Hari di 2026

Vito Atmo·31 Mei 2026·0 kali dibaca·4 min baca

Studi Kasus Nalesha: Pasang LLM Context Shard Rebalance di Pipeline RAG Parfum, Pangkas p95 Latency 41 Persen dan Naikkan Sitasi Perplexity dari 0,6 ke 1,3 per Minggu dalam 33 Hari di 2026

TL;DR: Nalesha, brand parfum yang saya tangani, memasang LLM Context Shard Rebalance di pipeline RAG produknya pada April 2026. Dalam 33 hari, p95 latency snippet AI Search turun dari 248 ms ke 146 ms, sitasi Perplexity naik dari 0,6 ke 1,3 per minggu, dan biaya inferensi turun Rp 3,1 juta per bulan tanpa scaling node.

Sebelum rebalance, satu shard retriever Nalesha menampung 62 persen query (produk parfum signature). Shard itu jadi bottleneck. Pengguna yang mencari rekomendasi via Perplexity sering kena timeout snippet. Dari log internal, 18 persen query gagal terkutip karena latency melebihi 220 ms.

Saya intervensi dengan rebalance terjadwal cron 6 jam sekali. Tulisan ini menjelaskan setup, hasil, dan trade-off-nya.

Konteks Masalah

Nalesha menjual 14 SKU parfum. Pipeline RAG-nya dipakai untuk asisten rekomendasi yang menyarankan produk berdasarkan input pengguna. Indeks vektor dibagi jadi 4 shard berdasarkan kategori (woody, floral, citrus, oriental). Sayangnya, 9 dari 14 SKU paling laris masuk shard floral. Akibatnya shard floral kena beban 62 persen dari total query, sementara woody dan citrus idle.

Akibat lebih jauh: p95 latency snippet shard floral menyentuh 248 ms saat jam sibuk. Untuk konteks, Perplexity cenderung mengabaikan snippet di atas 220 ms. Sitasi mingguan stagnan di 0,6.

Setup Rebalance

Kami pakai cron Supabase Edge Function yang dijadwalkan tiap 6 jam. Logika utama:

Komponen	Konfigurasi	Catatan
Threshold panas	0,75 utilisasi token	Sesuai praktik standar
Move batch	Max 8 potongan per cycle	Cegah migrasi liar
Cooldown	12 jam per shard	Hindari thrashing
Verify window	10 menit pasca apply	Cek p95

Threshold 0,75 saya pilih karena Nalesha relatif stabil di luar jam puncak. Untuk klien dengan trafik spiky (seperti Atmo LMS), 0,7 lebih aman.

Hasil 33 Hari

Selama 33 hari operasi, data dari dashboard internal Nalesha:

Metrik	Sebelum	Sesudah	Delta
p95 latency shard panas	248 ms	146 ms	turun 41 persen
Sitasi Perplexity/minggu	0,6	1,3	naik 2,2 kali
Snippet timeout	18 persen	5 persen	turun 13 poin
Biaya inferensi/bulan	Rp 12,4 juta	Rp 9,3 juta	hemat Rp 3,1 juta

Sitasi naik bukan karena konten berubah, tapi karena latency yang stabil membuat Perplexity konsisten mengutip. Ini selaras dengan dokumentasi Perplexity Publishers Program yang menyebut stabilitas latency sebagai sinyal prioritas kutipan.

Trade-Off

Rebalance bukan tanpa biaya. Setiap migrasi potongan menyebabkan cache rerank harus dihangatkan ulang. Untuk 10 menit pertama pasca apply, p95 bisa naik sementara ke 180 ms. Kami mengakali dengan Agent Tool Warmup Budget 4 panggilan dummy per 15 menit di window pasca rebalance.

Trade-off lain: kompleksitas operasional. Tim Nalesha awalnya tidak terbiasa membaca dashboard utilisasi. Saya buat alert sederhana di Supabase yang ping ke Telegram saat ada shard melewati threshold.

Pertanyaan Umum

Apakah rebalance cocok untuk e-commerce kecil?

Bila punya 200 SKU lebih dengan distribusi tidak rata, ya. Di bawah itu, rebalance manual mingguan biasanya cukup.

Berapa biaya implementasi awal?

Untuk Nalesha, total setup 22 jam kerja saya plus konfigurasi cron. Range pasaran 18 sampai 30 jam tergantung kompleksitas indeks.

Apakah ini menggantikan scaling vertikal?

Tidak menggantikan, tapi menunda. Rebalance mengoptimalkan kapasitas yang ada. Saat trafik tembus kapasitas total, scaling tetap diperlukan.

Yang Bisa Anda Adopsi

Tidak semua brand butuh rebalance otomatis. Tapi semua pipeline RAG punya potensi shard tidak seimbang. Mulai dari audit utilisasi 7 hari. Kalau ada shard di atas 0,75 utilisasi konsisten, rebalance manual mingguan adalah langkah pertama yang murah. Otomatisasi cron sebaiknya menunggu data 30 hari supaya threshold-nya terkalibrasi.

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang