Website Bisnis

Multimodal Search: Cara Website Bisnis Indonesia Siap Dicari Lewat Teks, Foto, dan Suara 2026

Vito Atmo
Vito Atmo·21 Mei 2026·0 kali dibaca·5 min baca
Multimodal Search: Cara Website Bisnis Indonesia Siap Dicari Lewat Teks, Foto, dan Suara 2026

TL;DR: Multimodal Search adalah cara baru pengguna mencari di Google AI Mode, ChatGPT Vision, dan Perplexity, menggabungkan teks, foto, dan suara dalam satu kueri. Website bisnis Indonesia yang ingin tetap ditemukan perlu menyiapkan tiga lapis sinyal: alt text deskriptif, schema markup konsisten, dan transkrip untuk konten video atau podcast. Saat membangun Vetmo, kami melihat pencarian via Google Lens menyumbang 14% traffic baru hanya dalam dua bulan.

Saya pernah ditanya seorang klien retail di Bandung, "kenapa pelanggan saya jarang ketemu produk lewat Google padahal foto produknya bagus?" Jawabannya sederhana: foto itu cantik untuk manusia, tapi tidak terbaca mesin AI. Tahun 2026 mengubah aturan main. Pelanggan tidak lagi hanya mengetik kata kunci. Mereka memotret rak parfum, merekam pertanyaan suara, lalu menggabungkannya jadi satu kueri di AI Search.

Tulisan ini merangkum tiga lapis kerja yang saya pakai untuk menyiapkan website bisnis menghadapi era multimodal, lengkap dengan contoh dari proyek Vetmo dan Nalesha.

Apa yang Berubah di Pencarian 2026

Google AI Mode dan ChatGPT Vision sudah memproses gambar, suara, dan teks sebelum memilih sumber yang dikutip. Praktik standar di industri menunjukkan kueri visual tumbuh 25-30% setiap kuartal sejak Q3 2025. Konsep ini secara teknis dirangkum dalam Multimodal Search Optimization, tapi implementasinya untuk bisnis Indonesia masih jarang dibahas.

Yang berubah bukan hanya pintu masuk, tapi cara AI menimbang otoritas. Halaman dengan alt text, schema, dan transkrip yang konsisten dianggap punya konteks lebih kaya dan lebih sering jadi sumber utama dibanding halaman teks-only.

Tiga Lapis Optimasi yang Wajib Disiapkan

LapisAset utamaFormat sinyalDampak terukur
VisualFoto produk, diagram, infografisAlt text natural, ImageObject schemaTraffic Google Lens, Pinterest Lens
TeksBody, FAQ, deskripsi produkSelf-contained paragraph, entity-based SEOSitasi AI Overview
Audio/VideoDemo, walkthrough, podcastTranskrip lengkap, VideoObject schemaSnippet dari kueri suara

Ketiga lapis ini harus ada dalam satu halaman, bukan tersebar di subdomain. Konsistensi entitas antar lapis adalah yang dinilai AI saat menentukan kelayakan sitasi.

Studi Kasus Vetmo: Naikkan Traffic Visual Lewat Alt Text dan ImageObject

Saat membangun Vetmo (platform pet care berbasis di Indonesia), kami melakukan audit ringkas pada 240 halaman produk pet food dan layanan grooming. Temuan awal: 78% alt text-nya generik (image1.jpg, foto-final.png) dan tidak ada satupun ImageObject schema terpasang.

Tindakan yang kami ambil dalam 14 hari kerja:

  1. Tulis ulang alt text dengan format entitas + atribut. Contoh: "Konsultasi dokter hewan online Vetmo untuk kucing Persia di Jakarta".
  2. Pasang ImageObject schema otomatis via komponen Next.js terhubung ke tabel produk Supabase.
  3. Hubungkan setiap foto dengan brand mention via Person/Organization schema.

Hasil setelah 60 hari: traffic dari Google Lens naik dari 1,2% ke 14,3% dari total traffic. Conversion rate dari traffic visual lebih tinggi 22% dibanding traffic teks karena pelanggan datang sudah dengan niat spesifik. Angka ini bervariasi tergantung kategori produk dan kualitas foto awal.

Untuk konteks lebih dalam tentang bagaimana schema mempengaruhi visibility AI, lihat studi kasus Vetmo Schema LocalBusiness.

Cara Menerapkan untuk Bisnis Anda dalam 30 Hari

Pendekatan yang saya rekomendasikan untuk website bisnis Indonesia dengan tim kecil:

Minggu 1: audit alt text seluruh halaman penting. Prioritaskan 20 halaman dengan trafik tertinggi.

Minggu 2: pasang ImageObject schema pada foto utama. Gunakan generator schema seperti Schema.org atau plugin di CMS Anda.

Minggu 3: tambah transkrip pada video produk. Whisper API atau YouTube auto-caption bisa jadi titik mulai, lalu edit manual.

Minggu 4: ukur perubahan via AI Overview Stability Score dan Google Search Console (kolom Image dan Video).

Pendekatan bertahap ini menghindari rework dan memudahkan tim non-teknis ikut berkontribusi.

Pertanyaan Umum

Apakah Multimodal Search hanya relevan untuk e-commerce?

Tidak. Bisnis jasa juga relevan, terutama yang punya portofolio visual seperti arsitek, fotografer, konsultan branding. Yuanita Sekar misalnya, konsultan personal branding, melihat traffic dari Google Lens ke portofolio kasusnya naik 18% setelah alt text dan ImageObject dipasang.

Berapa biaya implementasi rata-rata?

Untuk website skala UMKM (di bawah 200 halaman), biaya implementasi berkisar 5-15 juta tergantung kompleksitas CMS. Bisnis yang memakai Next.js atau WordPress modern bisa menerapkan sebagian besar perubahan tanpa biaya tambahan.

Apakah perlu mengganti CMS?

Belum tentu. WordPress dengan plugin SEO modern, Webflow, dan Next.js semuanya mendukung schema multimodal. Ganti CMS hanya jika sistem saat ini tidak mendukung custom schema sama sekali.

Bagaimana mengukur ROI investasi multimodal?

Bandingkan AI Overview Stability Score dan share of voice di Google Lens sebelum dan sesudah implementasi, lalu kaitkan dengan conversion data. Minimum 90 hari pengukuran untuk hasil yang valid. Referensi tambahan: Google Search Central tentang structured data multimedia.

Penutup

Multimodal Search bukan tren sementara, melainkan cara baru pelanggan menemukan bisnis. Bisnis Indonesia yang siap dengan tiga lapis sinyal akan punya keunggulan satu sampai dua tahun di depan kompetitor yang masih mengandalkan teks-only. Investasi awalnya kecil, tapi compound effect-nya signifikan terutama bagi UMKM yang ingin tumbuh organik tanpa membakar iklan.

Bagikan

Artikel Terkait

#multimodal-search#website-bisnis#ai-search#schema-markup#vetmo#seo-2026

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang