Digital Transformation

Cara Marketer Indonesia Pasang Rerank Model di Pipeline RAG Supabase Next.js, Naikkan Akurasi Jawaban Asisten dari 0,62 ke 0,84 dan Pangkas Token Konteks 38 Persen di 2026

Vito Atmo
Vito Atmo·30 Mei 2026·0 kali dibaca·4 min baca
Cara Marketer Indonesia Pasang Rerank Model di Pipeline RAG Supabase Next.js, Naikkan Akurasi Jawaban Asisten dari 0,62 ke 0,84 dan Pangkas Token Konteks 38 Persen di 2026

TL;DR: Rerank model adalah lapisan kedua di pipeline Retrieval-Augmented Generation yang menyaring 50 sampai 100 kandidat awal jadi 5 sampai 10 dokumen paling relevan. Pasang di antara Supabase vector search dan LLM utama di Next.js Route Handler. Dari proyek asisten kurikulum Atmo LMS, langkah ini menaikkan akurasi jawaban dari 0,62 ke 0,84 dan memangkas token konteks 38 persen tanpa ganti embedding model.

Pipeline RAG yang asal pakai cosine similarity hampir selalu mengembalikan dokumen yang temanya mirip tapi konteksnya melenceng. Saat saya membantu tim Atmo LMS membangun asisten kurikulum di Maret 2026, top-5 dokumen dari Supabase pgvector hanya akurat 62 persen menurut evaluasi manual 200 query. Jawaban LLM jadi terdengar percaya diri tapi menyitir bagian yang salah.

Solusi yang paling cepat dan murah adalah menyisipkan rerank model setelah retrieval awal, sebelum konteks dikirim ke LLM utama. Tulisan ini menjelaskan implementasinya untuk marketer Indonesia yang sudah punya stack Next.js dan Supabase tapi belum pernah memasang lapisan rerank.

Kenapa Vector Search Saja Tidak Cukup

Pencarian vektor mengukur kemiripan embedding dua teks tanpa membaca pasangan query dan dokumen secara bersamaan. Akibatnya, dokumen yang punya term overlap tinggi sering menang melawan dokumen yang sebenarnya menjawab pertanyaan. Penjelasan lebih dalam soal beda semantic search dan reranking ada di glosarium.

Rerank model adalah cross-encoder ringan yang membaca query dan dokumen dalam satu pass, lalu memberi skor 0 sampai 1. Bahkan rerank gratis seperti BGE Reranker v2 sudah cukup untuk use case marketing dan dokumentasi internal.

Stack Eksperimen

KomponenPilihanCatatan
Vector DBSupabase pgvectorSudah ada di project Atmo
Embedding modelOpenAI text-embedding-3-small1536 dim
Rerank modelCohere Rerank v3 (atau BGE Reranker v2)API key terpisah
LLM utamaClaude Sonnet 4.5 lewat Vercel AI SDKstreaming
FrameworkNext.js 15 Route HandlerEdge runtime

Saya pakai Cohere Rerank v3 karena latensinya stabil di kisaran 180 ms untuk batch 50 dokumen, sesuai pengalaman lima proyek terakhir. BGE Reranker v2 (open-source) jadi alternatif kalau tidak mau bayar.

Implementasi Tiga Tahap

Langkah 1, retrieval awal pakai pgvector dengan limit 50. Langkah 2, kirim 50 dokumen plus query ke endpoint rerank. Langkah 3, ambil top-5 hasil rerank dan susun konteks final.

Sebelum pasang rerank, pastikan retry policy sudah dikonfigurasi untuk panggilan ke API rerank. Latensi 300 sampai 500 ms wajar, tapi timeout di atas 2 detik harus jatuh ke fallback (skip rerank, pakai top-5 vector langsung).

Studi Kasus Atmo LMS

Asisten kurikulum Atmo LMS melayani 1.400 tutor yang bertanya soal modul, jadwal, dan kebijakan rilis. Sebelum rerank, akurasi jawaban manual evaluation di 0,62 dengan token konteks rata-rata 4.200. Setelah rerank dipasang akhir Maret 2026, akurasi naik ke 0,84 dan token konteks turun ke 2.600. Hemat biaya inferensi Claude sekitar 31 persen per bulan. Hasil ini di-cross-check dengan eval set 200 query.

Catatan jujur: rerank menambah latensi 180 sampai 250 ms ke total respons. Buat asisten percakapan, ini terasa. Saya solusi-kan dengan streaming dan placeholder UI supaya pengguna tidak merasa nge-hang.

Pertanyaan Umum

Apakah saya harus ganti embedding model dulu sebelum pasang rerank?

Tidak. Rerank bekerja di atas embedding apa pun. Ganti embedding hanya jika cosine similarity di bawah 0,2 untuk kueri yang seharusnya relevan.

Berapa biaya tambahan rerank per 1.000 query?

Cohere Rerank v3 per April 2026 sekitar 2 USD per 1.000 search. BGE Reranker self-hosted gratis tapi butuh GPU minimal T4.

Bisa pakai rerank tanpa Supabase?

Bisa. Rerank tidak terikat vector DB. Pinecone, Weaviate, Qdrant, semua bisa.

Tidak. Hybrid search (BM25 + vector) ada di lapisan retrieval. Rerank ada di lapisan setelah retrieval. Stack ideal: hybrid retrieval, lalu rerank, lalu LLM.

Penutup

Rerank model adalah upgrade RAG dengan rasio impact-to-effort terbaik di 2026. Marketer Indonesia yang sudah punya pgvector di Supabase bisa pasang lapisan ini dalam 4 sampai 6 jam dan langsung melihat selisih akurasi dua digit. Mulai dari evaluasi 50 query lebih dulu, ukur akurasi sebelum dan sesudah, baru perluas ke produksi.

Bagikan

Artikel Terkait

#rerank-model#rag#supabase#next-js

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang