Digital Transformation
Chunk Cohesion (Keutuhan Potongan Konten untuk Retrieval AI)
Chunk Cohesion adalah tingkat keutuhan makna sebuah potongan konten saat dipecah dan diambil oleh sistem retrieval mesin AI, sehingga paragraf tetap masuk akal walau dikutip terpisah dari konteks halaman.
TL;DR: Chunk Cohesion adalah ukuran seberapa utuh makna setiap paragraf saat dipotong dan diambil oleh sistem retrieval mesin AI. Paragraf dengan kohesi tinggi tetap masuk akal walau dikutip terpisah, membuat konten Anda lebih sering dipilih sebagai jawaban.
Apa itu Chunk Cohesion?
Chunk Cohesion menjelaskan kualitas potongan konten saat sistem retrieval, baik RAG atau pipeline AI Search lain, memecah halaman Anda menjadi unit kecil (chunk) dan menyimpannya di Vector Database. Setiap chunk biasanya berukuran 200-500 token. Jika paragraf bergantung pada paragraf sebelumnya untuk dipahami, chunk itu akan kehilangan makna saat ditarik berdiri sendiri.
Ciri Paragraf dengan Kohesi Tinggi
| Ciri | Penjelasan |
|---|---|
| Subjek eksplisit | Tidak pakai "ini", "tersebut" tanpa nama benda |
| Konteks ulang singkat | Sebut topik utama di kalimat pertama |
| Satu ide dominan | Hindari menggabung dua argumen yang berbeda |
| Tidak ada referensi internal | Hindari "seperti dibahas di atas" atau "lihat tabel berikut" |
Kenapa Penting?
Mesin AI memilih chunk yang paling relevan dengan pertanyaan pengguna, bukan halaman utuh. Saat paragraf Anda kohesif, peluang dipilih sebagai sumber AI Snippet menjadi lebih tinggi. Dalam praktik penulisan untuk klien personal branding Yuanita Sekar dan Aris Setiawan, kami konsisten menulis paragraf yang self-contained dan melihat peningkatan kutipan AI dalam 60-90 hari pertama, walaupun angkanya bervariasi tergantung niche.
Pertanyaan Umum
Berapa panjang chunk yang ideal?
Umumnya 200-500 token per chunk untuk mayoritas sistem retrieval. Tetapi yang lebih penting adalah satu chunk berisi satu ide utuh, bukan panjangnya per se.
Apakah pakai bullet list mengurangi kohesi?
Tidak otomatis. Bullet list justru bisa membantu jika setiap poin berdiri sendiri. Hindari bullet yang merujuk ke bullet sebelumnya tanpa konteks ulang. Lihat juga LLM-Friendly Markdown.
Istilah Terkait