Website Bisnis

Crawl Budget: Kenapa Website Besar Harus Peduli Cara Googlebot Menjelajah

Halaman yang tidak di-crawl tidak akan terindeks. Untuk website dengan ribuan URL, crawl budget bukan hal opsional. Ini panduan praktis untuk marketer dan developer.

Admin·24 April 2026·0 kali dibaca·4 min baca

Crawl Budget: Kenapa Website Besar Harus Peduli Cara Googlebot Menjelajah

TL;DR: Crawl budget adalah kuota efektif yang dipakai Googlebot untuk menjelajahi URL di sebuah website. Situs kecil biasanya aman, tapi e-commerce dan portal dengan ribuan halaman rawan kehabisan kuota pada URL low-value sehingga halaman penting lambat terindeks. Solusinya adalah disiplin di sitemap, robots.txt, canonical, dan struktur URL.

Dalam beberapa proyek e-commerce yang saya tangani belakangan, pola yang sering muncul sama, yaitu katalog produk baru butuh 2 sampai 3 minggu untuk muncul di Google, sementara halaman filter kombinasi warna-ukuran-stok justru terindeks dalam hitungan hari. Log Googlebot menunjukkan alasannya, crawl budget habis di URL yang tidak seharusnya diprioritaskan.

Ini bukan masalah kecil. Untuk katalog dengan ribuan SKU, keterlambatan indeksasi berarti kehilangan momentum organik saat produk baru paling dicari.

Apa itu Crawl Budget dan Komponennya

Crawl budget adalah perkiraan jumlah URL yang Googlebot bersedia dan mampu jelajahi di domain tertentu pada rentang waktu tertentu. Dokumentasi resmi Google Search Central tentang pengelolaan crawl budget situs besar membagi konsep ini menjadi dua komponen.

Pertama, crawl rate limit, yaitu batas request per detik agar server tidak overload. Kedua, crawl demand, yaitu seberapa besar minat Google terhadap URL berdasarkan popularitas, kebaruan, dan kualitas. Gabungan keduanya menentukan berapa banyak URL yang benar-benar di-crawl setiap hari.

Situs di bawah sekitar 10.000 URL umumnya tidak perlu khawatir. Di atas angka itu, pengelolaan crawl budget menjadi prioritas operasional, bukan lagi sekadar pekerjaan SEO teknis.

Sumber Pemborosan yang Paling Sering Saya Temukan

Sumber	Dampak	Mitigasi
Faceted navigation tanpa kontrol	Ribuan URL duplikat per kombinasi filter	Canonical URL ke kategori utama, robots.txt untuk parameter non-penting
Parameter tracking (UTM, session)	Variasi URL nyaris tak terbatas	Gunakan UTM Parameters hanya di outbound, bukan internal link
Infinite scroll murni	Halaman di bawah scroll tidak terindeks	Sediakan pagination standar sebagai fallback
Redirect chain panjang	Request berulang untuk satu URL	Flatten redirect maksimal 1 hop
Halaman thin atau duplikat	Kuota habis untuk konten sepi	Noindex atau konsolidasi

Studi Kasus Singkat: Konsolidasi Sitemap Katalog

Saat membantu migrasi SEO sebuah e-commerce fashion dengan sekitar 18.000 SKU, kami membagi XML Sitemap menjadi beberapa file per-kategori dengan maksimal 5.000 URL per file, lalu memasang sitemap index. Paralel dengan itu, kami noindex halaman filter dengan kurang dari 10 produk dan merapikan canonical.

Tiga puluh hari setelah deploy, laporan Crawl Stats di Google Search Console menunjukkan waktu indeks produk baru turun dari rata-rata 16 hari menjadi 4 hari. Angka ini bervariasi tergantung otoritas domain dan kategori produk, tapi arah perubahannya konsisten di beberapa project sejenis.

Checklist untuk Situs di Atas 10.000 URL

Pastikan sitemap bersih, hanya berisi URL 200 dan kanonikal. Robots.txt jelas memblokir parameter tracking. Halaman low-value diberi noindex eksplisit. Response time server konsisten di bawah 600 ms untuk menjaga crawl rate limit tidak otomatis diturunkan. Internal linking mengutamakan halaman revenue-driving, bukan halaman arsip yang jarang dikunjungi.

Pertanyaan Umum

Kapan website kecil perlu peduli crawl budget?

Jika jumlah URL di bawah 10.000 dan konten baru umumnya terindeks dalam seminggu, crawl budget bukan prioritas. Fokus dulu pada kualitas konten dan Core Web Vitals.

Apakah robots.txt memblokir indeksasi?

Tidak sepenuhnya. Robots.txt mencegah crawling, bukan indeksasi. Jika URL diblok robots.txt tapi punya backlink eksternal, URL tetap bisa muncul di SERP tanpa snippet. Untuk mencegah indeksasi, gunakan meta noindex.

Apakah Google Search Console menampilkan crawl budget?

Tidak secara eksplisit. Laporan Crawl Stats menampilkan total request per hari, average response time, dan breakdown response code. Angka-angka ini menjadi proxy untuk memperkirakan crawl budget efektif.

Apakah CDN membantu crawl budget?

Ya, secara tidak langsung. CDN menurunkan response time yang memungkinkan Googlebot menaikkan crawl rate limit. Tapi CDN saja tidak menyelesaikan masalah URL duplikat atau parameter yang tidak terkontrol.

Yang Bisa Dikerjakan Minggu Ini

Buka Crawl Stats di Search Console, cek distribusi response code, cari pola URL yang paling banyak di-crawl. Jika daftar teratas didominasi URL filter atau parameter, itu sinyal kuat bahwa crawl budget tidak efisien. Dari situ prioritaskan perbaikan canonical dan sitemap sebelum menambah konten baru.

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang →