Digital Transformation

Chunk Size (Ukuran Potongan Konten RAG)

Chunk size adalah jumlah token atau karakter per potongan dokumen yang disimpan ke vector database, faktor penentu kualitas konteks yang diambil saat menjawab kueri pengguna.

Vito Atmo
Vito Atmo·9 Mei 2026·0 kali dibaca·2 min baca

TL;DR: Chunk size mengatur seberapa besar tiap potongan dokumen disimpan ke vector database RAG. Ukuran terlalu kecil membuat konteks terpotong, terlalu besar membuat retrieval tumpul. Praktik umum berkisar 256 sampai 1024 token, dipasangkan dengan chunk overlap 10 sampai 20 persen.

Apa itu Chunk Size?

Chunk size adalah parameter yang menentukan panjang setiap potongan dokumen sebelum di-embed ke vector database. Karena LLM punya batas context window dan kueri pengguna jarang membutuhkan seluruh dokumen, dokumen panjang dipecah menjadi chunk yang lebih kecil. Setiap chunk ini lalu disimpan sebagai vektor, diambil saat retrieval, dan dikirim ke LLM sebagai konteks.

Pilihan ukuran chunk berkaitan langsung dengan retrieval precision dan LLM faithfulness. Chunk yang terlalu kecil menghilangkan konteks penting, chunk yang terlalu besar mencampur banyak topik dalam satu vektor sehingga retrieval kehilangan fokus.

Rentang Ukuran dan Kasus Pakai

Ukuran chunkKarakter perkiraanCocok untuk
128 sampai 256 token500 sampai 1.000 charFAQ pendek, glosarium, definisi
256 sampai 512 token1.000 sampai 2.000 charArtikel blog, dokumentasi produk
512 sampai 1024 token2.000 sampai 4.000 charWhitepaper, knowledge base teknis
1024 sampai 2048 token4.000 sampai 8.000 charLaporan riset, regulasi panjang

Token bukan karakter. Untuk Bahasa Indonesia, 1 token kira-kira 3 sampai 4 karakter, sedikit lebih boros dibanding Bahasa Inggris.

Kenapa Penting?

Untuk brand Indonesia yang membangun chatbot dukungan atau search internal, chunk size yang salah sering jadi sumber jawaban dangkal atau halusinasi. Ukuran ideal ditemukan via eksperimen, bukan rumus tunggal. Mulai dari 512 token dengan overlap 64, lalu ukur lewat retrieval precision dan tingkat kepuasan pengguna.

Pertanyaan Umum

Apakah chunk lebih besar selalu lebih baik?

Tidak. Chunk besar menyatukan banyak topik dalam satu vektor sehingga embedding kehilangan ketajaman. Hasilnya, retrieval lebih sering mengambil chunk yang setengah relevan.

Bagaimana memilih chunk size yang tepat?

Mulai dari pertengahan 512 token, jalankan evaluasi pada 30 sampai 50 kueri tipikal, lalu ukur akurasi jawaban. Sesuaikan ukuran sambil mengukur dampak pada retrieval precision.

Bagikan