Digital Transformation
RAG Pipeline (Pipeline Retrieval-Augmented Generation)
RAG pipeline adalah alur kerja yang menggabungkan retrieval dokumen dari basis pengetahuan internal dengan generasi LLM, supaya jawaban AI berbasis fakta perusahaan, bukan hanya pengetahuan umum model.
TL;DR: RAG (Retrieval-Augmented Generation) pipeline adalah alur yang membuat LLM menjawab pertanyaan dengan terlebih dulu mengambil dokumen relevan dari basis pengetahuan internal, lalu mengarang jawaban berbasis dokumen tersebut. Pendekatan ini menghilangkan halusinasi pada konteks bisnis spesifik dan jadi tulang punggung produk AI seperti customer support bot atau internal search.
Apa itu RAG Pipeline?
RAG memecah masalah besar LLM, yaitu pengetahuan yang berhenti di tanggal training, dengan menambahkan langkah pencarian sebelum generasi. Saat pengguna bertanya, sistem mengubah pertanyaan menjadi embedding numerik, lalu mencari dokumen serupa di vector database. Dokumen yang ketemu disisipkan ke prompt sebagai konteks, dan LLM menjawab berdasarkan konteks tersebut alih-alih menebak dari memori.
Pipeline standar terdiri dari empat tahap: ingestion (memecah dokumen jadi potongan kecil dan membuat embedding), retrieval (mencari potongan paling relevan saat ada query), augmentation (menyisipkan potongan ke prompt), dan generation (LLM menjawab). Kualitas hasil ditentukan bukan oleh kecanggihan model, melainkan oleh seberapa baik dokumen disiapkan dan seberapa relevan retrieval. Konsep ini erat kaitannya dengan LLM grounding dan semantic search.
Empat Tahap RAG
| Tahap | Apa yang Terjadi | Tantangan |
|---|---|---|
| Ingestion | Dokumen dipecah jadi chunk, dibuat embedding | Pemilihan chunk size yang pas |
| Retrieval | Query dicari di vector DB | Query rewriting untuk pertanyaan ambigu |
| Augmentation | Top-K hasil disisipkan ke prompt | Token limit dan urutan konteks |
| Generation | LLM menjawab berbasis konteks | Mencegah jawaban di luar konteks |
Kenapa Penting?
Bagi tim produk Indonesia yang membangun AI di atas dokumen internal (manual produk, FAQ, kebijakan), RAG pipeline adalah pondasi yang membedakan produk AI yang berguna dari demo yang halusinasi. Dalam beberapa proyek terakhir, saya melihat bot customer support berbasis RAG bisa menjawab 60-75 persen pertanyaan pelanggan secara akurat, asal dokumen sumbernya rapi dan ada evaluasi rutin terhadap prompt rot. Tanpa RAG, LLM akan jawab dengan percaya diri tapi sering salah saat menyangkut detail produk yang spesifik.
Pertanyaan Umum
Apakah RAG menghilangkan halusinasi sepenuhnya?
Tidak. RAG mengurangi halusinasi karena jawaban dipaksa berbasis dokumen, tapi LLM tetap bisa salah menafsirkan konteks. Evaluasi rutin dengan dataset pertanyaan-jawaban tetap perlu.
Apa beda RAG dengan fine-tuning?
Fine-tuning mengubah bobot model agar paham gaya atau domain tertentu. RAG tidak mengubah model, hanya menyuplai konteks segar saat query. Untuk fakta yang sering berubah, RAG biasanya lebih praktis.