Digital Marketing
Multimodal Search
Multimodal search adalah pencarian yang menggabungkan input teks, gambar, suara, atau video sekaligus untuk menghasilkan jawaban yang lebih kontekstual dari mesin pencari atau AI.
TL;DR: Multimodal search adalah teknologi pencarian yang menerima input lebih dari satu format, misalnya gambar plus teks, untuk memberi hasil yang lebih akurat. Google Lens, Circle to Search, dan ChatGPT vision adalah contoh paling umum. Per April 2026, sekitar 12-18 persen pencarian Google sudah melibatkan komponen visual menurut data eksternal yang dirilis Google ke developer.
Apa itu Multimodal Search?
Multimodal search adalah pencarian yang memproses dua atau lebih jenis input secara bersamaan, lalu mengembalikan jawaban tunggal yang relevan. Bedanya dengan pencarian klasik yang hanya menerima teks, multimodal bisa membaca foto produk, frame video, atau audio dan menggabungkannya dengan kata kunci pengguna. Konsep ini dimungkinkan oleh model embedding yang menerjemahkan setiap modalitas ke dalam ruang vektor yang sama, sehingga kemiripan antar format dapat diukur.
Contoh Multimodal Search di Lapangan
| Platform | Input | Output |
|---|---|---|
| Google Lens | Foto sepatu + teks "dengan harga di bawah 500rb" | Daftar produk mirip plus filter harga |
| Circle to Search | Lingkaran pada objek di screenshot | Hasil belanja dan informasi |
| ChatGPT (vision) | Foto label nutrisi + pertanyaan | Ringkasan kandungan dan saran |
| Pinterest Lens | Foto interior | Ide dekorasi serupa |
Kenapa Penting untuk Marketer Indonesia?
Marketer e-commerce dan UMKM lokal perlu memikirkan bagaimana produk ditemukan tanpa nama brand. Foto produk yang tidak punya alt text deskriptif, structured data, atau konteks halaman akan tertinggal di hasil multimodal. Dari pengalaman menangani Nalesha (e-commerce parfum), penambahan deskripsi visual pada metadata gambar dan schema markup membantu produk muncul di Google Lens untuk query "parfum kemasan kayu". Praktik ini adalah perpanjangan dari prinsip SEO klasik, bukan penggantinya.
Pertanyaan Umum
Apakah multimodal search sama dengan voice search?
Tidak persis. Voice search hanya mengubah suara menjadi teks. Multimodal search menggabungkan suara, gambar, atau video sekaligus dengan teks untuk satu jawaban.
Bagaimana mempersiapkan website agar siap multimodal?
Pastikan setiap gambar punya alt text deskriptif, file name yang relevan, dan halaman induk yang punya konteks teks lengkap. Tambahkan structured data Product atau ImageObject jika relevan.
Istilah Terkait