Digital Transformation
Chunk Overlap (Tumpang Tindih Potongan)
Chunk overlap adalah teknik membagi dokumen menjadi potongan kecil yang sebagian isinya tumpang tindih, agar konteks tidak terputus saat dipakai sistem AI Search atau RAG.
TL;DR: Chunk overlap adalah teknik di pipeline RAG yang membuat tiap potongan dokumen berbagi sebagian teks dengan potongan sebelumnya. Tujuannya menjaga konteks kalimat agar tidak terputus saat di-embed dan di-retrieve. Ukuran umum yang dipakai di industri adalah 10-20% dari panjang chunk utama.
Apa itu Chunk Overlap?
Chunk overlap muncul saat kita memecah dokumen panjang menjadi potongan kecil supaya bisa di-embed ke vector database. Tanpa overlap, sebuah kalimat penting bisa terbelah di antara dua chunk dan kehilangan makna. Dengan overlap, beberapa kalimat di akhir chunk diulang di awal chunk berikutnya. Konsep ini erat kaitannya dengan chunking strategy dan retrieval-augmented-generation.
Analogi sederhananya seperti memotong film menjadi klip pendek. Kalau setiap klip dipotong tepat di akhir kalimat, penonton kebingungan. Kalau setiap klip menyisakan beberapa detik dari klip sebelumnya, alur cerita tetap terjaga.
Cara Kerja dan Ukuran yang Lazim
| Parameter | Nilai umum di industri | Catatan |
|---|---|---|
| Chunk size | 256-1024 token | Tergantung model embedding |
| Overlap | 10-20% dari chunk size | Misal chunk 800 token, overlap 80-160 token |
| Pemisah | Paragraf atau kalimat | Hindari memotong di tengah kalimat |
Pendekatan paling stabil adalah recursive splitting yang mempertimbangkan struktur dokumen, lalu menambahkan overlap di akhir setiap chunk. Pipeline modern juga menambahkan metadata seperti judul bagian agar relevansi tetap tinggi.
Kenapa Penting?
Untuk marketer dan pemilik konten Indonesia, chunk overlap menentukan apakah artikel kita dipanggil utuh oleh AI Search atau hanya sebagian. Kalau definisi penting jatuh persis di batas chunk tanpa overlap, kemungkinan dipakai oleh model menurun. Praktik standar di industri RAG, termasuk panduan dari LangChain documentation, menyebut overlap 10-20% sebagai titik aman untuk konten berbahasa natural.
Pertanyaan Umum
Apakah overlap besar selalu lebih baik?
Tidak. Overlap di atas 30% justru menambah biaya embedding dan menurunkan presisi karena banyak duplikasi. Sweet spot ada di 10-20%.
Apa hubungannya dengan SEO?
Tidak langsung berdampak pada Google ranking, tapi sangat berpengaruh pada [AI overview citation rate](/glosarium/ai-overview-citation-rate) dan retrieval di sistem berbasis vector.
Istilah Terkait