Digital Transformation
Reranker (Cross-Encoder Reranker)
Model machine learning yang mengurutkan ulang hasil pencarian dari retrieval awal supaya dokumen paling relevan naik ke atas, biasanya dipakai di sistem RAG dan pencarian semantik.
Apa itu Reranker?
Reranker adalah model second-stage yang menerima top-N hasil dari retrieval awal (misalnya 50 dokumen dari vector database), lalu menilai ulang relevansinya satu per satu terhadap query asli. Output: ranking baru yang biasanya jauh lebih akurat daripada urutan dari hybrid search atau semantic search saja. Reranker umumnya berbasis cross-encoder, yang melihat query dan dokumen bersamaan, berbeda dengan bi-encoder yang menghitung embedding terpisah.
Cara Kerja vs Retrieval
| Aspek | Retrieval (Bi-Encoder) | Reranker (Cross-Encoder) |
|---|---|---|
| Input | Query, semua dokumen pre-indexed | Query + 1 dokumen kandidat |
| Output | Top-N kandidat (cepat) | Skor relevansi per pasangan |
| Kecepatan | Sangat cepat (jutaan dokumen) | Lambat (puluhan dokumen) |
| Akurasi | Cukup | Tinggi |
Pola standar: retrieval ambil top 50, reranker pilih top 5 untuk dimasukkan ke konteks LLM dalam pipeline RAG.
Kenapa Penting?
Untuk tim engineering Indonesia yang membangun fitur AI Search atau chatbot internal, reranker sering menjadi penentu antara jawaban yang berguna dan jawaban yang halusinasi. Dalam beberapa eksperimen RAG yang saya pantau, menambahkan reranker (misal Cohere Rerank atau bge-reranker) memperbaiki akurasi top-1 sebesar 15-30% dibandingkan vector search murni. Trade-off: latency naik 100-300 ms, tergantung jumlah kandidat. Untuk bacaan teknis lebih dalam, lihat dokumentasi resmi reranker dari Cohere.
Pertanyaan Umum
Apakah reranker selalu dibutuhkan?
Tidak. Untuk corpus kecil (di bawah 10.000 dokumen) dengan kueri yang spesifik, hybrid search saja sering sudah cukup. Reranker mulai berdampak signifikan saat corpus besar dan query ambigu.
Apa bedanya reranker dengan LLM-as-judge?
Reranker fokus mengurutkan kandidat sebelum jawaban dibuat. LLM-as-judge mengevaluasi kualitas output yang sudah dihasilkan. Keduanya bisa dipakai bersamaan di pipeline berbeda.
Istilah Terkait