Digital Transformation

HyDE (Hypothetical Document Embedding)

Vito Atmo
Vito Atmo·9 Mei 2026·0 kali dibaca·2 min baca

TL;DR: HyDE atau Hypothetical Document Embedding adalah teknik di mana sistem AI menyusun jawaban hipotetis dari sebuah kueri, menghitung embedding jawaban itu, lalu mencari konten nyata yang vektornya paling mirip. Pendekatan ini mengatasi celah kosakata antara kueri pengguna dan konten penulis.

Apa itu HyDE?

HyDE adalah singkatan dari Hypothetical Document Embedding, diperkenalkan dalam paper akademis Gao et al. tahun 2022. Idenya sederhana: alih-alih membandingkan vektor kueri pengguna dengan vektor konten secara langsung, sistem meminta LLM membuat dulu sebuah jawaban hipotetis seolah-olah konten yang dicari sudah ditemukan. Vektor jawaban hipotetis itulah yang dipakai untuk mencari konten nyata. HyDE bekerja baik ketika kueri pengguna pendek atau memakai bahasa yang berbeda dengan konten penulis. Konsep ini berkaitan erat dengan lexical gap dan biasanya jadi bagian dari RAG pipeline modern.

Kapan HyDE Membantu?

KondisiApakah HyDE membantu?
Kueri panjang dan deskriptifTidak terlalu, retrieval biasa cukup
Kueri pendek atau ambiguYa, signifikan
Bahasa kueri beda dengan kontenYa, signifikan
Domain teknis dengan istilah khususYa, asalkan LLM paham domain

Dalam beberapa proyek konten klien yang kami audit, banyak kueri Indonesia datang dalam bentuk percakapan sehari-hari sementara kontennya formal-akademis. HyDE menjembatani gap ini dengan menyusun jawaban hipotetis yang lebih dekat ke gaya konten asli.

Kenapa Penting untuk Marketer?

HyDE menambah satu layer abstraksi di mana konten dinilai bukan dari kemiripan kueri, tapi dari kemiripan dengan jawaban hipotetis. Konsekuensinya, konten yang ditulis dalam format jawaban langsung lebih sering dipanggil. Praktik yang kami terapkan adalah memformat paragraf sebagai jawaban definitif satu pertanyaan, mirip cara kerja answer card.

Referensi teknis lengkap tersedia di paper HyDE asli oleh Gao et al. untuk tim yang ingin mendalami matematikanya.

Pertanyaan Umum

Apakah HyDE menggantikan retrieval biasa?

Tidak. HyDE biasanya dipakai bersama retrieval biasa, lalu hasilnya digabung sebelum tahap rerank. Dua sumber kandidat menghasilkan recall yang lebih tinggi.

Apakah HyDE bisa salah?

Ya. Kalau LLM membuat jawaban hipotetis yang ngawur, embedding-nya akan menarik konten yang juga tidak relevan. Karena itu HyDE biasanya dikombinasikan dengan validasi cross-encoder.

Bagikan