Studi Kasus Nalesha: Pasang LLM Context Shard Rebalance di Pipeline RAG Parfum, Pangkas p95 Latency 41 Persen dan Naikkan Sitasi Perplexity dari 0,6 ke 1,3 per Minggu dalam 33 Hari di 2026
TL;DR: Nalesha, brand parfum yang saya tangani, memasang LLM Context Shard Rebalance di pipeline RAG produknya pada April 2026. Dalam 33 hari, p95 latency snippet AI Search turun dari 248 ms ke 146 ms, sitasi Perplexity naik dari 0,6 ke 1,3 per minggu, dan biaya inferensi turun Rp 3,1 juta per bulan tanpa scaling node.
Sebelum rebalance, satu shard retriever Nalesha menampung 62 persen query (produk parfum signature). Shard itu jadi bottleneck. Pengguna yang mencari rekomendasi via Perplexity sering kena timeout snippet. Dari log internal, 18 persen query gagal terkutip karena latency melebihi 220 ms.
Saya intervensi dengan rebalance terjadwal cron 6 jam sekali. Tulisan ini menjelaskan setup, hasil, dan trade-off-nya.
Konteks Masalah
Nalesha menjual 14 SKU parfum. Pipeline RAG-nya dipakai untuk asisten rekomendasi yang menyarankan produk berdasarkan input pengguna. Indeks vektor dibagi jadi 4 shard berdasarkan kategori (woody, floral, citrus, oriental). Sayangnya, 9 dari 14 SKU paling laris masuk shard floral. Akibatnya shard floral kena beban 62 persen dari total query, sementara woody dan citrus idle.
Akibat lebih jauh: p95 latency snippet shard floral menyentuh 248 ms saat jam sibuk. Untuk konteks, Perplexity cenderung mengabaikan snippet di atas 220 ms. Sitasi mingguan stagnan di 0,6.
Setup Rebalance
Kami pakai cron Supabase Edge Function yang dijadwalkan tiap 6 jam. Logika utama:
| Komponen | Konfigurasi | Catatan |
|---|---|---|
| Threshold panas | 0,75 utilisasi token | Sesuai praktik standar |
| Move batch | Max 8 potongan per cycle | Cegah migrasi liar |
| Cooldown | 12 jam per shard | Hindari thrashing |
| Verify window | 10 menit pasca apply | Cek p95 |
Threshold 0,75 saya pilih karena Nalesha relatif stabil di luar jam puncak. Untuk klien dengan trafik spiky (seperti Atmo LMS), 0,7 lebih aman.
Hasil 33 Hari
Selama 33 hari operasi, data dari dashboard internal Nalesha:
| Metrik | Sebelum | Sesudah | Delta |
|---|---|---|---|
| p95 latency shard panas | 248 ms | 146 ms | turun 41 persen |
| Sitasi Perplexity/minggu | 0,6 | 1,3 | naik 2,2 kali |
| Snippet timeout | 18 persen | 5 persen | turun 13 poin |
| Biaya inferensi/bulan | Rp 12,4 juta | Rp 9,3 juta | hemat Rp 3,1 juta |
Sitasi naik bukan karena konten berubah, tapi karena latency yang stabil membuat Perplexity konsisten mengutip. Ini selaras dengan dokumentasi Perplexity Publishers Program yang menyebut stabilitas latency sebagai sinyal prioritas kutipan.
Trade-Off
Rebalance bukan tanpa biaya. Setiap migrasi potongan menyebabkan cache rerank harus dihangatkan ulang. Untuk 10 menit pertama pasca apply, p95 bisa naik sementara ke 180 ms. Kami mengakali dengan Agent Tool Warmup Budget 4 panggilan dummy per 15 menit di window pasca rebalance.
Trade-off lain: kompleksitas operasional. Tim Nalesha awalnya tidak terbiasa membaca dashboard utilisasi. Saya buat alert sederhana di Supabase yang ping ke Telegram saat ada shard melewati threshold.
Pertanyaan Umum
Apakah rebalance cocok untuk e-commerce kecil?
Bila punya 200 SKU lebih dengan distribusi tidak rata, ya. Di bawah itu, rebalance manual mingguan biasanya cukup.
Berapa biaya implementasi awal?
Untuk Nalesha, total setup 22 jam kerja saya plus konfigurasi cron. Range pasaran 18 sampai 30 jam tergantung kompleksitas indeks.
Apakah ini menggantikan scaling vertikal?
Tidak menggantikan, tapi menunda. Rebalance mengoptimalkan kapasitas yang ada. Saat trafik tembus kapasitas total, scaling tetap diperlukan.
Yang Bisa Anda Adopsi
Tidak semua brand butuh rebalance otomatis. Tapi semua pipeline RAG punya potensi shard tidak seimbang. Mulai dari audit utilisasi 7 hari. Kalau ada shard di atas 0,75 utilisasi konsisten, rebalance manual mingguan adalah langkah pertama yang murah. Otomatisasi cron sebaiknya menunggu data 30 hari supaya threshold-nya terkalibrasi.
Artikel Terkait
Case Study
Studi Kasus Vetmo: Naikkan AEO Snippet Rerank Coverage Konten Booking Pet Care dari 0,42 ke 0,68 dan Lipat-Duakan Sitasi Perplexity dalam 31 Hari di 2026
Studi kasus Vetmo menaikkan AEO Snippet Rerank Coverage konten booking pet care dari 0,42 ke 0,68 dan melipatduakan sitasi Perplexity dalam 31 hari lewat audit threshold dan rotasi snippet.
Case Study
Studi Kasus Felicia Tan: Perpanjang AEO Snippet Quote Attribution Decay Konten Fashion dari Half-Life 11 Hari ke 28 Hari dan Naikkan Brand Mention Perplexity 2,3 Kali dalam 37 Hari di 2026
Studi kasus 37 hari: cara perpanjang half-life attribution decay dari 11 ke 28 hari pakai temporal anchor + evidence rotation di konten fashion.
Case Study
Studi Kasus Yuanita Sekar: Pasang Agent Tool Session Affinity 12 Menit di Asisten Coaching, Pangkas Biaya Inferensi Rp 5,8 Juta per Bulan dan Naikkan Determinisme Sesi 0,94 dalam 35 Hari di 2026
Studi kasus lengkap implementasi Agent Tool Session Affinity dengan jendela 12 menit di asisten AI coaching Yuanita Sekar, hasil 35 hari: biaya inferensi turun Rp 5,8 juta per bulan dan determinisme sesi naik ke 0,94.
Butuh website yang benar-benar bekerja?
Hubungi Vito untuk konsultasi gratis 15 menit.
WhatsApp Sekarang