Digital Marketing

Multimodal Search

Vito Atmo·26 April 2026·0 kali dibaca·2 min baca

TL;DR: Multimodal search adalah teknologi pencarian yang menerima input lebih dari satu format, misalnya gambar plus teks, untuk memberi hasil yang lebih akurat. Google Lens, Circle to Search, dan ChatGPT vision adalah contoh paling umum. Per April 2026, sekitar 12-18 persen pencarian Google sudah melibatkan komponen visual menurut data eksternal yang dirilis Google ke developer.

Apa itu Multimodal Search?

Multimodal search adalah pencarian yang memproses dua atau lebih jenis input secara bersamaan, lalu mengembalikan jawaban tunggal yang relevan. Bedanya dengan pencarian klasik yang hanya menerima teks, multimodal bisa membaca foto produk, frame video, atau audio dan menggabungkannya dengan kata kunci pengguna. Konsep ini dimungkinkan oleh model embedding yang menerjemahkan setiap modalitas ke dalam ruang vektor yang sama, sehingga kemiripan antar format dapat diukur.

Contoh Multimodal Search di Lapangan

Platform	Input	Output
Google Lens	Foto sepatu + teks "dengan harga di bawah 500rb"	Daftar produk mirip plus filter harga
Circle to Search	Lingkaran pada objek di screenshot	Hasil belanja dan informasi
ChatGPT (vision)	Foto label nutrisi + pertanyaan	Ringkasan kandungan dan saran
Pinterest Lens	Foto interior	Ide dekorasi serupa

Kenapa Penting untuk Marketer Indonesia?

Marketer e-commerce dan UMKM lokal perlu memikirkan bagaimana produk ditemukan tanpa nama brand. Foto produk yang tidak punya alt text deskriptif, structured data, atau konteks halaman akan tertinggal di hasil multimodal. Dari pengalaman menangani Nalesha (e-commerce parfum), penambahan deskripsi visual pada metadata gambar dan schema markup membantu produk muncul di Google Lens untuk query "parfum kemasan kayu". Praktik ini adalah perpanjangan dari prinsip SEO klasik, bukan penggantinya.

Pertanyaan Umum

Apakah multimodal search sama dengan voice search?

Tidak persis. Voice search hanya mengubah suara menjadi teks. Multimodal search menggabungkan suara, gambar, atau video sekaligus dengan teks untuk satu jawaban.

Bagaimana mempersiapkan website agar siap multimodal?

Pastikan setiap gambar punya alt text deskriptif, file name yang relevan, dan halaman induk yang punya konteks teks lengkap. Tambahkan structured data Product atau ImageObject jika relevan.

Istilah Terkait

AI Search (Pencarian Berbasis AI)Alt Text (Teks Alternatif)Embedding Kata Kunci (Keyword)Schema Markup SEO (Search Engine Optimization)Structured Data Voice Search

Semua Istilah Ada pertanyaan? →