Karir

Golden Dataset: Cara Tim Produk Indonesia Bangun Patokan Evaluasi Fitur AI yang Tahan Update Model 2026

Setiap kali model AI di-update, output bisa berubah. Tanpa golden dataset, tim produk Indonesia tidak tahu apakah perubahan itu lebih baik atau lebih buruk untuk pengguna.

Admin·10 Mei 2026·0 kali dibaca·4 min baca

Golden Dataset: Cara Tim Produk Indonesia Bangun Patokan Evaluasi Fitur AI yang Tahan Update Model 2026

TL;DR: Golden Dataset adalah kumpulan input-output referensi yang sudah diverifikasi manusia, dipakai sebagai patokan tetap saat tim produk mengevaluasi fitur AI. Tanpa golden dataset, setiap update model atau perubahan prompt jadi judi. Dengan dataset ini, tim Indonesia bisa membuat keputusan rilis berdasarkan angka, bukan firasat.

Saat membantu klien SaaS Indonesia migrasi chatbot mereka dari GPT-4 ke Claude pada April 2026, kami sempat hampir lepas migrasi tanpa golden dataset. Untungnya tim memutuskan menyiapkan 200 pasangan pertanyaan-jawaban referensi terlebih dahulu. Hasilnya, kami menemukan akurasi turun 8% di kategori "kebijakan refund" meski naik 12% di kategori "fitur produk". Tanpa dataset itu, kami akan rilis dan kena keluhan setelahnya.

Apa Itu Golden Dataset

Golden dataset adalah file (biasanya CSV atau JSONL) berisi pasangan input dan output yang dianggap benar berdasarkan review manusia ahli. Kategori, tingkat kesulitan, dan tag bisnis di-attach ke setiap baris supaya bisa diukur per segmen. Dataset ini dibekukan setelah validasi, hanya boleh berubah lewat proses formal.

Berbeda dari training data, golden dataset tidak dipakai untuk fine-tuning. Tujuannya murni evaluasi, sehingga harus tetap netral dari proses pelatihan model agar bisa dipakai membandingkan model A vs B atau prompt v1 vs v2.

Cara Bangun Golden Dataset

Tahap	Aktivitas
Sampling	Ambil 100-500 contoh dari log produksi yang representatif
Stratifikasi	Pisahkan per kategori, intent, dan tingkat kesulitan
Anotasi	Manusia ahli menuliskan jawaban referensi
Review	Cross-check oleh anotator kedua, hapus yang ambigu
Freeze	Versioning dataset, simpan di repo dengan checksum

Untuk produk berbahasa Indonesia, anotator harus paham nuansa lokal. Saya pernah lihat dataset yang dianotasi vendor luar negeri menerjemahkan "transfer bank" jadi "wire transfer", padahal konteks Indonesia mengacu ke transfer antar-bank lokal.

Kapan Dipakai

Dataset dipakai di tiga momen kritis. Pertama, saat memilih model baru, jalankan dataset ke kandidat model dan ukur metrik per kategori. Kedua, saat mengubah prompt template, regress test dataset untuk pastikan tidak ada kategori yang turun. Ketiga, saat audit rutin (bulanan), jalankan dataset untuk deteksi prompt rot atau drift kualitas.

Hubungkan ini dengan eval harness supaya jadi bagian pipeline CI/CD, bukan kerja manual. Praktik ini direkomendasikan dalam OpenAI evals best practice dan Anthropic evaluation guide.

Studi Kasus: Atmo LMS

Saat membangun fitur Q&A otomatis di Atmo LMS pada Januari 2026, kami buat golden dataset 150 pertanyaan dari pertanyaan murid asli. Dataset ini dipakai untuk membandingkan tiga setup: prompt sederhana, prompt + RAG, dan prompt + RAG + reranking. Hasilnya, setup ketiga memberi akurasi 87% vs 71% setup pertama, tapi latency naik 2,3x. Berdasarkan trade-off ini, tim memutuskan setup kedua sebagai default dan setup ketiga sebagai opt-in untuk pertanyaan kompleks.

Tanpa dataset, kami akan memilih berdasarkan demo live yang biasanya bias ke contoh yang sudah dilatih. Dengan dataset, keputusan jadi data-driven dan bisa dijelaskan ke stakeholder non-teknis.

Pertanyaan Umum

Berapa ukuran dataset yang ideal?

Untuk awal, 100-200 contoh sudah cukup memberi sinyal. Idealnya tumbuh ke 500-1000 contoh seiring produk matang, terutama untuk kategori edge case yang langka.

Berapa sering dataset perlu di-update?

Versi mayor setiap 6 bulan atau saat ada kategori baru muncul di produk. Hindari update terlalu sering karena akan menghilangkan kemampuan membandingkan kinerja antar waktu.

Apakah cukup pakai dataset publik?

Tidak. Dataset publik membantu untuk benchmark umum, tapi tidak menangkap konteks bisnis Anda. Golden dataset internal wajib dibuat sendiri.

Penutup

Golden dataset adalah fondasi disiplin engineering untuk fitur AI. Tim produk Indonesia yang melompat ke produksi tanpa dataset sedang mempertaruhkan reputasi pada perubahan model di luar kendali mereka. Investasi 2-4 minggu untuk membangun dataset awal akan menyelamatkan berbulan-bulan firefighting di kemudian hari.