Website Bisnis

AI Crawler untuk Website Bisnis Indonesia: Cara Memutuskan Blokir atau Izinkan GPTBot, ClaudeBot, dan Perplexity di 2026

Memblokir AI Crawler melindungi konten dari training, mengizinkan membuka peluang sitasi di AI Search. Pelajari trade-off dan konfigurasi robots.txt yang tepat.

A
Admin·6 Mei 2026·0 kali dibaca·4 min baca
AI Crawler untuk Website Bisnis Indonesia: Cara Memutuskan Blokir atau Izinkan GPTBot, ClaudeBot, dan Perplexity di 2026

TL;DR: AI Crawler seperti GPTBot, ClaudeBot, dan PerplexityBot mengakses website untuk dua tujuan: training model dan retrieval real-time saat pengguna bertanya. Memblokir total melindungi konten tapi memutus eksposur di AI Search. Pendekatan paling masuk akal di 2026: izinkan retrieval crawler untuk sitasi, evaluasi training crawler kasus per kasus berdasarkan model bisnis.

Pertanyaan ini muncul hampir setiap minggu dari klien yang sadar adanya bot AI di server log: "Saya harus blokir GPTBot atau biarkan?" Jawabannya tidak biner. Keputusan tergantung pada apa yang dimonetisasi konten Anda dan seberapa penting eksposur di AI Search untuk strategi marketing.

Saat menyiapkan strategi konten untuk Yuanita Sekar (personal branding consultant) tahun lalu, kami sengaja membuka akses penuh untuk semua AI Crawler. Hasilnya, dalam 4 bulan namanya muncul di 12 jawaban Perplexity dan 7 sitasi ChatGPT untuk query terkait personal branding, membawa traffic referral konsisten 80-150 visitor/bulan. Untuk klien lain dengan model bisnis berbeda, kami memilih konfigurasi sebaliknya.

Empat Jenis AI Crawler Aktif di 2026

BotPerusahaanTujuan utamaUser-Agent
GPTBotOpenAITrainingGPTBot
ChatGPT-UserOpenAIRetrieval real-timeChatGPT-User
ClaudeBotAnthropicTrainingClaudeBot
claude-webAnthropicRetrievalclaude-web
Google-ExtendedGoogleTraining GeminiGoogle-Extended
PerplexityBotPerplexityRetrievalPerplexityBot
CCBotCommon CrawlTraining (open dataset)CCBot

Penting dipisahkan: training crawler mengumpulkan data sekali untuk melatih model versi berikutnya, retrieval crawler datang real-time saat user bertanya. Memblokir training tidak menghentikan retrieval, dan sebaliknya.

Trade-off: Blokir vs Izinkan

Memblokir penuh AI Crawler punya dua alasan kuat: konten premium yang dimonetisasi langsung (kursus, ebook, gated content), dan kekhawatiran soal pelatihan model tanpa kompensasi. Risikonya, konten Anda hilang dari ekosistem AEO dan GEO. Saat user bertanya ke ChatGPT atau Perplexity tentang topik yang Anda kuasai, jawabannya akan memakai sumber lain.

Mengizinkan penuh berarti konten Anda berpotensi dikutip di jawaban AI dengan link sitasi balik ke domain. Trade-offnya: data Anda jadi bagian dari training set yang melatih model untuk menggantikan kebutuhan visit langsung.

Studi Kasus Atmo (LMS): Konfigurasi Hybrid

Atmo punya dua jenis konten: dokumentasi publik (gratis, dipakai untuk SEO) dan kursus berbayar (gated). Setelah diskusi panjang, kami pakai konfigurasi hybrid:

makefile
# robots.txt

User-agent: GPTBot
Disallow: /kursus/
Disallow: /premium/

User-agent: ClaudeBot
Disallow: /kursus/
Disallow: /premium/

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Disallow: /kursus/
Disallow: /premium/

Logikanya: training crawler diblokir di area premium supaya model tidak belajar konten berbayar. Retrieval crawler dibiarkan terbuka di seluruh situs supaya saat user bertanya, jawaban bisa mengarah ke landing page Atmo. Hasil 6 bulan: traffic referral dari ChatGPT dan Perplexity tumbuh 12 visitor/hari rata-rata, sementara konten kursus tidak ditemukan di jawaban AI.

Lima Langkah Audit dan Konfigurasi

Pertama, cek log server atau Cloudflare Analytics untuk identifikasi bot AI mana yang sudah mengakses situs. Filter user-agent yang mengandung "GPT", "Claude", "Perplexity", "AI". Dokumentasi resmi user-agent tersedia di Cloudflare AI Crawlers documentation.

Kedua, klasifikasi konten Anda jadi tiga zona: full open (blog, dokumentasi publik), restricted training (whitepaper, case study premium), dan full block (kursus, member area).

Ketiga, tulis robots.txt dengan rule per bot dan per directory. Test pakai tool seperti technicalseo.com/tools/robots-txt.

Keempat, untuk perlindungan tambahan, pasang Cloudflare AI Bot Block (gratis di paket Free) yang memblokir berdasarkan signature, bukan user-agent yang bisa dipalsukan.

Kelima, buat file llms.txt di root domain untuk memberi panduan struktur konten ke AI yang ramah. Ini bukan blocker, tapi membantu retrieval crawler memahami hierarki situs Anda.

Pertanyaan Umum

Apakah memblokir Google-Extended menurunkan peringkat di Google Search?

Tidak. Googlebot (untuk Search) dan Google-Extended (untuk training Gemini) adalah bot terpisah dengan robots.txt rule berbeda. Memblokir satu tidak memengaruhi yang lain.

AI Crawler bisa mengabaikan robots.txt?

Bot besar dari perusahaan terpercaya (OpenAI, Anthropic, Google, Perplexity) menghormati robots.txt. Bot dari perusahaan kecil atau scraper malicious bisa mengabaikan. Untuk yang itu, butuh proteksi layer lain seperti rate limiting atau Cloudflare bot management.

Apakah konten yang sudah di-train ke model bisa dihapus?

Tidak. Begitu data masuk training set, sulit dihapus dari model yang sudah dilatih. Itu sebabnya keputusan blokir paling efektif dilakukan SEBELUM crawler pertama datang.

Sangat bervariasi berdasarkan niche dan otoritas konten. Per pengalaman, situs dengan konten otoritatif di niche teknis bisa dapat 5-20% extra traffic referral dari AI Search dalam 6-12 bulan setelah konten ramah AEO dibangun.

Penutup

Keputusan blokir atau izinkan AI Crawler bukan keputusan teknis, tapi strategis. Mulailah dengan audit konten, identifikasi mana yang aman dibagi dan mana yang harus dilindungi, lalu tulis robots.txt yang merefleksikan model bisnis Anda. Konfigurasi hybrid biasanya lebih masuk akal daripada blokir total atau buka total.

Bagikan

Artikel Terkait

#ai-crawler#aeo#geo#robots-txt#gptbot

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang