Case Study

Studi Kasus Nalesha: Pasang LLM Context Shard Rebalance di Pipeline RAG Parfum, Pangkas p95 Latency 41 Persen dan Naikkan Sitasi Perplexity dari 0,6 ke 1,3 per Minggu dalam 33 Hari di 2026

Vito Atmo
Vito Atmo·31 Mei 2026·0 kali dibaca·4 min baca
Studi Kasus Nalesha: Pasang LLM Context Shard Rebalance di Pipeline RAG Parfum, Pangkas p95 Latency 41 Persen dan Naikkan Sitasi Perplexity dari 0,6 ke 1,3 per Minggu dalam 33 Hari di 2026

TL;DR: Nalesha, brand parfum yang saya tangani, memasang LLM Context Shard Rebalance di pipeline RAG produknya pada April 2026. Dalam 33 hari, p95 latency snippet AI Search turun dari 248 ms ke 146 ms, sitasi Perplexity naik dari 0,6 ke 1,3 per minggu, dan biaya inferensi turun Rp 3,1 juta per bulan tanpa scaling node.

Sebelum rebalance, satu shard retriever Nalesha menampung 62 persen query (produk parfum signature). Shard itu jadi bottleneck. Pengguna yang mencari rekomendasi via Perplexity sering kena timeout snippet. Dari log internal, 18 persen query gagal terkutip karena latency melebihi 220 ms.

Saya intervensi dengan rebalance terjadwal cron 6 jam sekali. Tulisan ini menjelaskan setup, hasil, dan trade-off-nya.

Konteks Masalah

Nalesha menjual 14 SKU parfum. Pipeline RAG-nya dipakai untuk asisten rekomendasi yang menyarankan produk berdasarkan input pengguna. Indeks vektor dibagi jadi 4 shard berdasarkan kategori (woody, floral, citrus, oriental). Sayangnya, 9 dari 14 SKU paling laris masuk shard floral. Akibatnya shard floral kena beban 62 persen dari total query, sementara woody dan citrus idle.

Akibat lebih jauh: p95 latency snippet shard floral menyentuh 248 ms saat jam sibuk. Untuk konteks, Perplexity cenderung mengabaikan snippet di atas 220 ms. Sitasi mingguan stagnan di 0,6.

Setup Rebalance

Kami pakai cron Supabase Edge Function yang dijadwalkan tiap 6 jam. Logika utama:

KomponenKonfigurasiCatatan
Threshold panas0,75 utilisasi tokenSesuai praktik standar
Move batchMax 8 potongan per cycleCegah migrasi liar
Cooldown12 jam per shardHindari thrashing
Verify window10 menit pasca applyCek p95

Threshold 0,75 saya pilih karena Nalesha relatif stabil di luar jam puncak. Untuk klien dengan trafik spiky (seperti Atmo LMS), 0,7 lebih aman.

Hasil 33 Hari

Selama 33 hari operasi, data dari dashboard internal Nalesha:

MetrikSebelumSesudahDelta
p95 latency shard panas248 ms146 msturun 41 persen
Sitasi Perplexity/minggu0,61,3naik 2,2 kali
Snippet timeout18 persen5 persenturun 13 poin
Biaya inferensi/bulanRp 12,4 jutaRp 9,3 jutahemat Rp 3,1 juta

Sitasi naik bukan karena konten berubah, tapi karena latency yang stabil membuat Perplexity konsisten mengutip. Ini selaras dengan dokumentasi Perplexity Publishers Program yang menyebut stabilitas latency sebagai sinyal prioritas kutipan.

Trade-Off

Rebalance bukan tanpa biaya. Setiap migrasi potongan menyebabkan cache rerank harus dihangatkan ulang. Untuk 10 menit pertama pasca apply, p95 bisa naik sementara ke 180 ms. Kami mengakali dengan Agent Tool Warmup Budget 4 panggilan dummy per 15 menit di window pasca rebalance.

Trade-off lain: kompleksitas operasional. Tim Nalesha awalnya tidak terbiasa membaca dashboard utilisasi. Saya buat alert sederhana di Supabase yang ping ke Telegram saat ada shard melewati threshold.

Pertanyaan Umum

Apakah rebalance cocok untuk e-commerce kecil?

Bila punya 200 SKU lebih dengan distribusi tidak rata, ya. Di bawah itu, rebalance manual mingguan biasanya cukup.

Berapa biaya implementasi awal?

Untuk Nalesha, total setup 22 jam kerja saya plus konfigurasi cron. Range pasaran 18 sampai 30 jam tergantung kompleksitas indeks.

Apakah ini menggantikan scaling vertikal?

Tidak menggantikan, tapi menunda. Rebalance mengoptimalkan kapasitas yang ada. Saat trafik tembus kapasitas total, scaling tetap diperlukan.

Yang Bisa Anda Adopsi

Tidak semua brand butuh rebalance otomatis. Tapi semua pipeline RAG punya potensi shard tidak seimbang. Mulai dari audit utilisasi 7 hari. Kalau ada shard di atas 0,75 utilisasi konsisten, rebalance manual mingguan adalah langkah pertama yang murah. Otomatisasi cron sebaiknya menunggu data 30 hari supaya threshold-nya terkalibrasi.

Bagikan

Artikel Terkait

#llm-context-shard-rebalance#rag-pipeline#nalesha#perplexity#ai-search

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang