Digital Transformation
Chunk Size (Ukuran Potongan Konten RAG)
Chunk size adalah jumlah token atau karakter per potongan dokumen yang disimpan ke vector database, faktor penentu kualitas konteks yang diambil saat menjawab kueri pengguna.
TL;DR: Chunk size mengatur seberapa besar tiap potongan dokumen disimpan ke vector database RAG. Ukuran terlalu kecil membuat konteks terpotong, terlalu besar membuat retrieval tumpul. Praktik umum berkisar 256 sampai 1024 token, dipasangkan dengan chunk overlap 10 sampai 20 persen.
Apa itu Chunk Size?
Chunk size adalah parameter yang menentukan panjang setiap potongan dokumen sebelum di-embed ke vector database. Karena LLM punya batas context window dan kueri pengguna jarang membutuhkan seluruh dokumen, dokumen panjang dipecah menjadi chunk yang lebih kecil. Setiap chunk ini lalu disimpan sebagai vektor, diambil saat retrieval, dan dikirim ke LLM sebagai konteks.
Pilihan ukuran chunk berkaitan langsung dengan retrieval precision dan LLM faithfulness. Chunk yang terlalu kecil menghilangkan konteks penting, chunk yang terlalu besar mencampur banyak topik dalam satu vektor sehingga retrieval kehilangan fokus.
Rentang Ukuran dan Kasus Pakai
| Ukuran chunk | Karakter perkiraan | Cocok untuk |
|---|---|---|
| 128 sampai 256 token | 500 sampai 1.000 char | FAQ pendek, glosarium, definisi |
| 256 sampai 512 token | 1.000 sampai 2.000 char | Artikel blog, dokumentasi produk |
| 512 sampai 1024 token | 2.000 sampai 4.000 char | Whitepaper, knowledge base teknis |
| 1024 sampai 2048 token | 4.000 sampai 8.000 char | Laporan riset, regulasi panjang |
Token bukan karakter. Untuk Bahasa Indonesia, 1 token kira-kira 3 sampai 4 karakter, sedikit lebih boros dibanding Bahasa Inggris.
Kenapa Penting?
Untuk brand Indonesia yang membangun chatbot dukungan atau search internal, chunk size yang salah sering jadi sumber jawaban dangkal atau halusinasi. Ukuran ideal ditemukan via eksperimen, bukan rumus tunggal. Mulai dari 512 token dengan overlap 64, lalu ukur lewat retrieval precision dan tingkat kepuasan pengguna.
Pertanyaan Umum
Apakah chunk lebih besar selalu lebih baik?
Tidak. Chunk besar menyatukan banyak topik dalam satu vektor sehingga embedding kehilangan ketajaman. Hasilnya, retrieval lebih sering mengambil chunk yang setengah relevan.
Bagaimana memilih chunk size yang tepat?
Mulai dari pertengahan 512 token, jalankan evaluasi pada 30 sampai 50 kueri tipikal, lalu ukur akurasi jawaban. Sesuaikan ukuran sambil mengukur dampak pada retrieval precision.
Istilah Terkait