Digital Transformation
Chunk (RAG)
Chunk adalah potongan dokumen berukuran tetap atau semantik yang dijadikan unit retrieval di pipeline RAG. Ukuran dan strategi chunking menentukan akurasi pencarian dan kualitas jawaban AI.
TL;DR: Chunk adalah unit potongan dokumen yang disimpan dan diambil oleh sistem RAG. Strategi pemotongan (chunking) sangat memengaruhi kualitas jawaban: chunk terlalu kecil kehilangan konteks, terlalu besar membuat retrieval kabur. Ukuran umum 200-800 token dengan overlap 10-20 persen.
Apa itu Chunk?
Chunk adalah potongan teks yang menjadi unit dasar retrieval di sistem RAG. Saat dokumen panjang masuk pipeline, sistem memotongnya menjadi banyak chunk, lalu mengubah tiap chunk menjadi vektor lewat embedding dan menyimpannya di vector database. Saat user bertanya, sistem mengambil beberapa chunk paling relevan dan menyusun konteks untuk model.
Tanpa chunking yang baik, sistem akan mengambil potongan yang tidak nyambung atau memotong kalimat di tengah, yang menurunkan kualitas jawaban.
Strategi Chunking Umum
| Strategi | Cara Kerja | Cocok untuk |
|---|---|---|
| Fixed-size | Potong tiap N token, overlap kecil | Dokumen homogen, blog |
| Sentence-based | Pecah per kalimat lalu gabung | FAQ, dokumentasi pendek |
| Semantic | Pecah saat topik berubah | Artikel panjang, paper |
| Recursive | Hierarki paragraf-kalimat-kata | Markdown, kode |
| Document-aware | Hormati heading, tabel, list | Knowledge base terstruktur |
Library populer seperti LangChain dan LlamaIndex menyediakan helper untuk strategi ini, termasuk recursive character splitter milik LangChain.
Kenapa Chunking Penting?
Praktik di proyek RAG yang saya kerjakan menunjukkan: 60-70 persen kualitas akhir RAG ditentukan oleh kualitas data preparation, dan chunking adalah inti darinya. Saat membangun embedding model RAG untuk marketer, saya melihat bahwa pergantian strategi dari fixed-size ke semantic chunking sering memberi peningkatan akurasi yang terasa, walau angka pastinya bergantung pada domain dan kompleksitas dokumen.
Implikasi untuk tim produk Indonesia: jangan terburu memilih embedding model paling canggih sebelum strategi chunking-nya solid. Audit dulu cara dokumen dipotong, lalu uji coba retrieval secara manual.
Pertanyaan Umum
Berapa ukuran chunk ideal?
Tidak ada satu ukuran. Range umum 200-800 token dengan overlap 10-20 persen. Untuk konten teknis padat ambil yang lebih kecil, untuk narasi panjang ambil yang lebih besar.
Apakah chunking selalu pakai LLM?
Tidak. Strategi sederhana seperti fixed-size dan recursive splitter berjalan tanpa LLM. LLM dipakai pada strategi semantic chunking yang lebih lanjut.
Istilah Terkait