Studi Kasus Ade Mulyana: Naikkan AEO Snippet Rerank Throughput Konten Konsultan Pajak dari 42 ke 124 Snippet per Detik dan Lipat-Duakan Sitasi Perplexity dalam 32 Hari di 2026
TL;DR: Pipeline retrieval reranker konten konsultan pajak Ade Mulyana sebelumnya hanya sanggup memproses 42 snippet per detik per worker, jauh di bawah sweet spot 80 hingga 180. Akibatnya, kandidat snippet dengan otoritas tinggi sering gugur sebelum dinilai reranker, dan sitasi di Perplexity stagnan 4 hingga 6 per minggu. Setelah 32 hari penyesuaian sharding kandidat dan reranker dua tahap, throughput naik ke 124 per detik dan sitasi Perplexity konsisten di 9 hingga 13 per minggu.
Ketika Ade Mulyana, konsultan pajak independen yang sedang membangun otoritas online, datang dengan keluhan kontennya kalah dari kompetitor di Perplexity, sinyal pertama yang saya cek bukan jumlah konten atau backlink. Yang saya cek adalah AEO snippet rerank throughput di pipeline retrieval yang dia gunakan untuk auto-submission ke index AI Search internal kami.
Hasil baseline: 42 snippet per detik per worker. Angka ini setengah dari batas bawah sweet spot 80. Konsekuensinya jelas: dari 380 kandidat yang ambil di tahap retrieval, hanya sekitar 130 yang sempat masuk ke reranker tahap dua sebelum latency budget terlewat.
Diagnosa: Reranker Tahap Tunggal yang Kewalahan
Pipeline lama Ade memakai reranker satu tahap dengan model cross-encoder berukuran besar. Bagus untuk akurasi, tapi throughput-nya rendah karena setiap pasangan kandidat dievaluasi penuh. Praktik standar di industri menyarankan reranker dua tahap: bi-encoder ringan untuk filter awal, lalu cross-encoder presisi untuk top-k final. Pendekatan ini didukung riset retrieval-augmented generation di arXiv.
Konteks tambahan: pipeline juga tidak menerapkan AEO snippet rerank saturation sebagai cutoff dini, sehingga kandidat dengan skor jauh di bawah threshold tetap dievaluasi penuh.
Eksekusi 32 Hari: Pipeline 2 Tahap + Sharding Cerdas
Yang kami lakukan, urut tahap:
| Hari | Intervensi | Throughput Setelah |
|---|---|---|
| 1 hingga 7 | Pasang bi-encoder tahap awal, kandidat dipangkas 380 ke 110 | 78 per detik |
| 8 hingga 18 | Sharding kandidat ke 3 worker paralel, lock per shard | 102 per detik |
| 19 hingga 28 | Tambah saturation cutoff di skor 0,72 ke bawah | 118 per detik |
| 29 hingga 32 | Tuning batch size dari 8 ke 16 | 124 per detik |
Setiap intervensi diuji 4 hingga 5 hari untuk pastikan tidak ada regresi kualitas sitasi. Hubungkan dengan AEO snippet rerank coverage untuk lihat dampak pada keluasan jangkauan snippet.
Hasil per 32 Hari
- AEO snippet rerank throughput: 42 naik ke 124 per detik (2,9 kali lipat)
- Sitasi Perplexity per minggu: 4 hingga 6 naik ke 9 hingga 13 (rerata 2,1 kali)
- Klik referer dari Perplexity ke domain Ade: 38 per bulan naik ke 84 per bulan
- p95 latency rerank: 1,9 detik turun ke 940 ms
- Biaya inferensi reranker per bulan: Rp 3,1 juta naik ke Rp 3,8 juta (kenaikan 22 persen, masih wajar untuk hasil 2,1x sitasi)
Ade kini punya playbook reranker yang reproducible untuk konten kategori pajak orang pribadi, pajak UMKM, dan PPh badan. Strategi serupa bisa dipakai untuk konten profesi lain dengan profil kompetisi serupa.
Pertanyaan Umum
Kenapa tidak langsung pakai reranker terbesar saja?
Reranker besar memberi akurasi tinggi tapi throughput rendah. Trade-off ini fatal untuk konten yang harus bertarung di banyak query. Dua tahap memberi keseimbangan akurasi + throughput.
Bagaimana cara monitoring throughput secara live?
Catat timestamp masuk dan keluar dari setiap worker reranker, hitung rolling average per 5 menit. Simpan di tabel aeo_rerank_metrics di Supabase untuk dashboard.
Apakah hasil ini bisa direplikasi di niche lain?
Ya, dengan catatan profil kompetisi mirip (5 hingga 12 kompetitor aktif submit konten AI Search). Untuk niche dengan kompetisi sangat sedikit atau sangat banyak, sweet spot throughput bisa berbeda.
Apakah perlu mengganti vector database?
Tidak. Perubahan terjadi di lapisan reranker, vector search tetap pakai pipeline existing.
Berapa lama sampai sitasi naik konsisten?
Umumnya 3 hingga 5 minggu untuk sinyal awal, 6 hingga 10 minggu untuk hasil yang stabil.
Insight Aplikatif
Pelajaran utama dari kasus Ade: throughput rerank adalah leverage point yang jarang dibicarakan tapi sangat menentukan. Banyak marketer fokus naikkan jumlah konten atau anchor density, padahal pipeline reranker yang lambat membuat banyak konten otoritatif gugur sebelum dinilai. Audit throughput setiap kuartal, jaga di range 80 hingga 180 per detik per worker, dan kombinasikan dengan saturation cutoff supaya biaya tetap terkendali.
Artikel Terkait
Case Study
Studi Kasus Atmo LMS: Pasang Agent Tool Deadline Budget 1.000 ms dan LLM Context Compaction Window 180 Detik di Asisten Kurikulum, Pangkas p95 Latency 47 Persen dan Hemat Inferensi Rp 6,1 Juta per Bulan dalam 31 Hari di 2026
Asisten kurikulum Atmo LMS sempat membakar token dan menyentuh p95 latency 1,9 detik. Setelah pemasangan deadline budget plus jendela kompaksi konteks, p95 turun ke 1,0 detik dan biaya inferensi hemat Rp 6,1 juta per bulan dalam 31 hari.

Case Study
Studi Kasus Ade Mulyana: Pangkas LLM Context Rehydration Cost Asisten Konsultan Pajak dari Multiplier 2,4x ke 1,3x dan Hemat Inferensi Rp 6,4 Juta per Bulan dalam 35 Hari di 2026
Asisten pajak Ade sering rehydrate konteks panjang berkali-kali per sesi. Audit menunjukkan 38 persen biaya inferensi bulanan adalah overhead rehydration murni.

Case Study
Studi Kasus Aris Setiawan: Kalibrasi LLM Context Anchor Decay Half-Life 5.200 Token di Asisten Konsultasi Hukum, Pangkas Token Konteks 38 Persen dan Hemat Inferensi Rp 6,2 Juta per Bulan dalam 33 Hari di 2026
Studi kasus implementasi LLM Context Anchor Decay di asisten konsultasi hukum Aris Setiawan. Half-life 5.200 token, hemat inferensi Rp 6,2 juta per bulan, periode Mei 2026.
Butuh website yang benar-benar bekerja?
Hubungi Vito untuk konsultasi gratis 15 menit.
WhatsApp Sekarang