Website Bisnis

AI Crawler untuk Website Bisnis Indonesia: Cara Memutuskan Blokir atau Izinkan GPTBot, ClaudeBot, dan Perplexity di 2026

Admin·6 Mei 2026·0 kali dibaca·4 min baca

TL;DR: AI Crawler seperti GPTBot, ClaudeBot, dan PerplexityBot mengakses website untuk dua tujuan: training model dan retrieval real-time saat pengguna bertanya. Memblokir total melindungi konten tapi memutus eksposur di AI Search. Pendekatan paling masuk akal di 2026: izinkan retrieval crawler untuk sitasi, evaluasi training crawler kasus per kasus berdasarkan model bisnis.

Pertanyaan ini muncul hampir setiap minggu dari klien yang sadar adanya bot AI di server log: "Saya harus blokir GPTBot atau biarkan?" Jawabannya tidak biner. Keputusan tergantung pada apa yang dimonetisasi konten Anda dan seberapa penting eksposur di AI Search untuk strategi marketing.

Saat menyiapkan strategi konten untuk Yuanita Sekar (personal branding consultant) tahun lalu, kami sengaja membuka akses penuh untuk semua AI Crawler. Hasilnya, dalam 4 bulan namanya muncul di 12 jawaban Perplexity dan 7 sitasi ChatGPT untuk query terkait personal branding, membawa traffic referral konsisten 80-150 visitor/bulan. Untuk klien lain dengan model bisnis berbeda, kami memilih konfigurasi sebaliknya.

Empat Jenis AI Crawler Aktif di 2026

Bot	Perusahaan	Tujuan utama	User-Agent
GPTBot	OpenAI	Training	GPTBot
ChatGPT-User	OpenAI	Retrieval real-time	ChatGPT-User
ClaudeBot	Anthropic	Training	ClaudeBot
claude-web	Anthropic	Retrieval	claude-web
Google-Extended	Google	Training Gemini	Google-Extended
PerplexityBot	Perplexity	Retrieval	PerplexityBot
CCBot	Common Crawl	Training (open dataset)	CCBot

Penting dipisahkan: training crawler mengumpulkan data sekali untuk melatih model versi berikutnya, retrieval crawler datang real-time saat user bertanya. Memblokir training tidak menghentikan retrieval, dan sebaliknya.

Trade-off: Blokir vs Izinkan

Memblokir penuh AI Crawler punya dua alasan kuat: konten premium yang dimonetisasi langsung (kursus, ebook, gated content), dan kekhawatiran soal pelatihan model tanpa kompensasi. Risikonya, konten Anda hilang dari ekosistem AEO dan GEO. Saat user bertanya ke ChatGPT atau Perplexity tentang topik yang Anda kuasai, jawabannya akan memakai sumber lain.

Mengizinkan penuh berarti konten Anda berpotensi dikutip di jawaban AI dengan link sitasi balik ke domain. Trade-offnya: data Anda jadi bagian dari training set yang melatih model untuk menggantikan kebutuhan visit langsung.

Studi Kasus Atmo (LMS): Konfigurasi Hybrid

Atmo punya dua jenis konten: dokumentasi publik (gratis, dipakai untuk SEO) dan kursus berbayar (gated). Setelah diskusi panjang, kami pakai konfigurasi hybrid:

makefile

# robots.txt

User-agent: GPTBot
Disallow: /kursus/
Disallow: /premium/

User-agent: ClaudeBot
Disallow: /kursus/
Disallow: /premium/

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Disallow: /kursus/
Disallow: /premium/

Logikanya: training crawler diblokir di area premium supaya model tidak belajar konten berbayar. Retrieval crawler dibiarkan terbuka di seluruh situs supaya saat user bertanya, jawaban bisa mengarah ke landing page Atmo. Hasil 6 bulan: traffic referral dari ChatGPT dan Perplexity tumbuh 12 visitor/hari rata-rata, sementara konten kursus tidak ditemukan di jawaban AI.

Lima Langkah Audit dan Konfigurasi

Pertama, cek log server atau Cloudflare Analytics untuk identifikasi bot AI mana yang sudah mengakses situs. Filter user-agent yang mengandung "GPT", "Claude", "Perplexity", "AI". Dokumentasi resmi user-agent tersedia di Cloudflare AI Crawlers documentation.

Kedua, klasifikasi konten Anda jadi tiga zona: full open (blog, dokumentasi publik), restricted training (whitepaper, case study premium), dan full block (kursus, member area).

Ketiga, tulis robots.txt dengan rule per bot dan per directory. Test pakai tool seperti technicalseo.com/tools/robots-txt.

Keempat, untuk perlindungan tambahan, pasang Cloudflare AI Bot Block (gratis di paket Free) yang memblokir berdasarkan signature, bukan user-agent yang bisa dipalsukan.

Kelima, buat file llms.txt di root domain untuk memberi panduan struktur konten ke AI yang ramah. Ini bukan blocker, tapi membantu retrieval crawler memahami hierarki situs Anda.

Pertanyaan Umum

Apakah memblokir Google-Extended menurunkan peringkat di Google Search?

Tidak. Googlebot (untuk Search) dan Google-Extended (untuk training Gemini) adalah bot terpisah dengan robots.txt rule berbeda. Memblokir satu tidak memengaruhi yang lain.

AI Crawler bisa mengabaikan robots.txt?

Bot besar dari perusahaan terpercaya (OpenAI, Anthropic, Google, Perplexity) menghormati robots.txt. Bot dari perusahaan kecil atau scraper malicious bisa mengabaikan. Untuk yang itu, butuh proteksi layer lain seperti rate limiting atau Cloudflare bot management.

Apakah konten yang sudah di-train ke model bisa dihapus?

Tidak. Begitu data masuk training set, sulit dihapus dari model yang sudah dilatih. Itu sebabnya keputusan blokir paling efektif dilakukan SEBELUM crawler pertama datang.

Berapa traffic referral yang realistis dari AI Search?

Sangat bervariasi berdasarkan niche dan otoritas konten. Per pengalaman, situs dengan konten otoritatif di niche teknis bisa dapat 5-20% extra traffic referral dari AI Search dalam 6-12 bulan setelah konten ramah AEO dibangun.

Penutup

Keputusan blokir atau izinkan AI Crawler bukan keputusan teknis, tapi strategis. Mulailah dengan audit konten, identifikasi mana yang aman dibagi dan mana yang harus dilindungi, lalu tulis robots.txt yang merefleksikan model bisnis Anda. Konfigurasi hybrid biasanya lebih masuk akal daripada blokir total atau buka total.

Cara Marketer Indonesia Pasang CSS interpolate-size di Next.js untuk Animasi Height Auto pada Accordion FAQ, Pangkas 24 Baris JavaScript dan Hilangkan ResizeObserver di 2026

Panduan praktis pasang CSS interpolate-size di Next.js untuk animasi height auto pada accordion FAQ. Hilangkan ResizeObserver dan 24 baris JavaScript di 2026.

Website Bisnis

Cara Marketer Indonesia Pasang CSS text-box-trim di Next.js untuk Typography Presisi, Pangkas 2 Override line-height dan Hilangkan Padding Manual di Heading 2026

Pasang CSS text-box-trim di Next.js untuk hilangkan whitespace di atas dan bawah heading, hasil typography presisi tanpa override line-height dan tanpa padding manual.

Website Bisnis

Cara Marketer Indonesia Pasang CSS text-spacing-trim di Next.js untuk Hero & Heading CJK, Pangkas Kerning Manual dan Hilangkan 4 Override Tailwind di 2026

CSS text-spacing-trim merapikan spasi awal dan akhir karakter CJK secara otomatis. Pasang di Next.js dengan 1 baris CSS, pangkas kerning manual dan override Tailwind.

#ai-crawler#aeo#geo#robots-txt#gptbot

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang