Digital Transformation
HyDE (Hypothetical Document Embedding)
TL;DR: HyDE atau Hypothetical Document Embedding adalah teknik di mana sistem AI menyusun jawaban hipotetis dari sebuah kueri, menghitung embedding jawaban itu, lalu mencari konten nyata yang vektornya paling mirip. Pendekatan ini mengatasi celah kosakata antara kueri pengguna dan konten penulis.
Apa itu HyDE?
HyDE adalah singkatan dari Hypothetical Document Embedding, diperkenalkan dalam paper akademis Gao et al. tahun 2022. Idenya sederhana: alih-alih membandingkan vektor kueri pengguna dengan vektor konten secara langsung, sistem meminta LLM membuat dulu sebuah jawaban hipotetis seolah-olah konten yang dicari sudah ditemukan. Vektor jawaban hipotetis itulah yang dipakai untuk mencari konten nyata. HyDE bekerja baik ketika kueri pengguna pendek atau memakai bahasa yang berbeda dengan konten penulis. Konsep ini berkaitan erat dengan lexical gap dan biasanya jadi bagian dari RAG pipeline modern.
Kapan HyDE Membantu?
| Kondisi | Apakah HyDE membantu? |
|---|---|
| Kueri panjang dan deskriptif | Tidak terlalu, retrieval biasa cukup |
| Kueri pendek atau ambigu | Ya, signifikan |
| Bahasa kueri beda dengan konten | Ya, signifikan |
| Domain teknis dengan istilah khusus | Ya, asalkan LLM paham domain |
Dalam beberapa proyek konten klien yang kami audit, banyak kueri Indonesia datang dalam bentuk percakapan sehari-hari sementara kontennya formal-akademis. HyDE menjembatani gap ini dengan menyusun jawaban hipotetis yang lebih dekat ke gaya konten asli.
Kenapa Penting untuk Marketer?
HyDE menambah satu layer abstraksi di mana konten dinilai bukan dari kemiripan kueri, tapi dari kemiripan dengan jawaban hipotetis. Konsekuensinya, konten yang ditulis dalam format jawaban langsung lebih sering dipanggil. Praktik yang kami terapkan adalah memformat paragraf sebagai jawaban definitif satu pertanyaan, mirip cara kerja answer card.
Referensi teknis lengkap tersedia di paper HyDE asli oleh Gao et al. untuk tim yang ingin mendalami matematikanya.
Pertanyaan Umum
Apakah HyDE menggantikan retrieval biasa?
Tidak. HyDE biasanya dipakai bersama retrieval biasa, lalu hasilnya digabung sebelum tahap rerank. Dua sumber kandidat menghasilkan recall yang lebih tinggi.
Apakah HyDE bisa salah?
Ya. Kalau LLM membuat jawaban hipotetis yang ngawur, embedding-nya akan menarik konten yang juga tidak relevan. Karena itu HyDE biasanya dikombinasikan dengan validasi cross-encoder.
Istilah Terkait