Cara Marketer Indonesia Pasang Rerank Model di Pipeline RAG Supabase Next.js, Naikkan Akurasi Jawaban Asisten dari 0,62 ke 0,84 dan Pangkas Token Konteks 38 Persen di 2026
TL;DR: Rerank model adalah lapisan kedua di pipeline Retrieval-Augmented Generation yang menyaring 50 sampai 100 kandidat awal jadi 5 sampai 10 dokumen paling relevan. Pasang di antara Supabase vector search dan LLM utama di Next.js Route Handler. Dari proyek asisten kurikulum Atmo LMS, langkah ini menaikkan akurasi jawaban dari 0,62 ke 0,84 dan memangkas token konteks 38 persen tanpa ganti embedding model.
Pipeline RAG yang asal pakai cosine similarity hampir selalu mengembalikan dokumen yang temanya mirip tapi konteksnya melenceng. Saat saya membantu tim Atmo LMS membangun asisten kurikulum di Maret 2026, top-5 dokumen dari Supabase pgvector hanya akurat 62 persen menurut evaluasi manual 200 query. Jawaban LLM jadi terdengar percaya diri tapi menyitir bagian yang salah.
Solusi yang paling cepat dan murah adalah menyisipkan rerank model setelah retrieval awal, sebelum konteks dikirim ke LLM utama. Tulisan ini menjelaskan implementasinya untuk marketer Indonesia yang sudah punya stack Next.js dan Supabase tapi belum pernah memasang lapisan rerank.
Kenapa Vector Search Saja Tidak Cukup
Pencarian vektor mengukur kemiripan embedding dua teks tanpa membaca pasangan query dan dokumen secara bersamaan. Akibatnya, dokumen yang punya term overlap tinggi sering menang melawan dokumen yang sebenarnya menjawab pertanyaan. Penjelasan lebih dalam soal beda semantic search dan reranking ada di glosarium.
Rerank model adalah cross-encoder ringan yang membaca query dan dokumen dalam satu pass, lalu memberi skor 0 sampai 1. Bahkan rerank gratis seperti BGE Reranker v2 sudah cukup untuk use case marketing dan dokumentasi internal.
Stack Eksperimen
| Komponen | Pilihan | Catatan |
|---|---|---|
| Vector DB | Supabase pgvector | Sudah ada di project Atmo |
| Embedding model | OpenAI text-embedding-3-small | 1536 dim |
| Rerank model | Cohere Rerank v3 (atau BGE Reranker v2) | API key terpisah |
| LLM utama | Claude Sonnet 4.5 lewat Vercel AI SDK | streaming |
| Framework | Next.js 15 Route Handler | Edge runtime |
Saya pakai Cohere Rerank v3 karena latensinya stabil di kisaran 180 ms untuk batch 50 dokumen, sesuai pengalaman lima proyek terakhir. BGE Reranker v2 (open-source) jadi alternatif kalau tidak mau bayar.
Implementasi Tiga Tahap
Langkah 1, retrieval awal pakai pgvector dengan limit 50. Langkah 2, kirim 50 dokumen plus query ke endpoint rerank. Langkah 3, ambil top-5 hasil rerank dan susun konteks final.
Sebelum pasang rerank, pastikan retry policy sudah dikonfigurasi untuk panggilan ke API rerank. Latensi 300 sampai 500 ms wajar, tapi timeout di atas 2 detik harus jatuh ke fallback (skip rerank, pakai top-5 vector langsung).
Studi Kasus Atmo LMS
Asisten kurikulum Atmo LMS melayani 1.400 tutor yang bertanya soal modul, jadwal, dan kebijakan rilis. Sebelum rerank, akurasi jawaban manual evaluation di 0,62 dengan token konteks rata-rata 4.200. Setelah rerank dipasang akhir Maret 2026, akurasi naik ke 0,84 dan token konteks turun ke 2.600. Hemat biaya inferensi Claude sekitar 31 persen per bulan. Hasil ini di-cross-check dengan eval set 200 query.
Catatan jujur: rerank menambah latensi 180 sampai 250 ms ke total respons. Buat asisten percakapan, ini terasa. Saya solusi-kan dengan streaming dan placeholder UI supaya pengguna tidak merasa nge-hang.
Pertanyaan Umum
Apakah saya harus ganti embedding model dulu sebelum pasang rerank?
Tidak. Rerank bekerja di atas embedding apa pun. Ganti embedding hanya jika cosine similarity di bawah 0,2 untuk kueri yang seharusnya relevan.
Berapa biaya tambahan rerank per 1.000 query?
Cohere Rerank v3 per April 2026 sekitar 2 USD per 1.000 search. BGE Reranker self-hosted gratis tapi butuh GPU minimal T4.
Bisa pakai rerank tanpa Supabase?
Bisa. Rerank tidak terikat vector DB. Pinecone, Weaviate, Qdrant, semua bisa.
Apakah rerank menggantikan hybrid search?
Tidak. Hybrid search (BM25 + vector) ada di lapisan retrieval. Rerank ada di lapisan setelah retrieval. Stack ideal: hybrid retrieval, lalu rerank, lalu LLM.
Penutup
Rerank model adalah upgrade RAG dengan rasio impact-to-effort terbaik di 2026. Marketer Indonesia yang sudah punya pgvector di Supabase bisa pasang lapisan ini dalam 4 sampai 6 jam dan langsung melihat selisih akurasi dua digit. Mulai dari evaluasi 50 query lebih dulu, ukur akurasi sebelum dan sesudah, baru perluas ke produksi.
Artikel Terkait
Digital Transformation
Cara Marketer Indonesia Pasang Agent Tool Canary Rollout di Next.js Supabase, Pangkas Insiden Rilis 71 Persen dan Hemat Biaya Rollback Rp 4,2 Juta per Bulan di 2026
Panduan praktis memasang canary rollout untuk tool agent di Next.js Supabase memakai feature flag berbasis hash session id, batasi eksposur ke 5 persen trafik, dan rollback otomatis bila p95 latency naik.
Digital Transformation
Cara Marketer Indonesia Pasang Agent Tool Bulkhead Isolation di Next.js Supabase, Pisahkan 4 Lapis Resource per Tool dan Hindari Cascading Failure Total di 2026
Pasang Bulkhead Isolation di sistem agent Next.js Supabase, pisahkan connection pool, token budget, thread, dan timeout per tool. Cegah cascading failure.
Digital Transformation
Retrieval Grounding Rate untuk Website Personal Brand: Cara Menaikkan Skor dari 48 ke 82 Persen di 2026
Skor RGR menentukan apakah AI Search mengutip nama Anda atau menebak. Ini langkah konkret untuk menaikkan Retrieval Grounding Rate website personal brand dari 48 ke 82 persen.
Butuh website yang benar-benar bekerja?
Hubungi Vito untuk konsultasi gratis 15 menit.
WhatsApp Sekarang