Digital Transformation
Prompt Router
Prompt Router adalah komponen middleware di aplikasi LLM yang mengarahkan setiap permintaan ke model paling tepat berdasarkan kompleksitas, biaya, dan latensi, sehingga aplikasi tetap cepat dan hemat tanpa mengorbankan kualitas jawaban.
TL;DR: Prompt Router adalah lapisan middleware yang otomatis memilih model LLM mana yang menangani setiap permintaan, berdasarkan jenis prompt, kebutuhan kualitas, dan budget. Pola ini memungkinkan tim mengirim 70-80% permintaan sederhana ke model murah, dan menyisakan model premium untuk kasus yang benar-benar membutuhkan reasoning kuat.
Apa itu Prompt Router?
Prompt Router adalah pola arsitektur di aplikasi berbasis LLM yang berfungsi seperti load balancer, tapi berbasis isi permintaan. Saat user mengirim prompt, router mengevaluasi sinyal seperti panjang token input, jenis tugas (klasifikasi, ringkasan, reasoning, kode), bahasa, atau metadata user, lalu meneruskannya ke model yang paling efisien.
Dalam praktik, banyak tim Indonesia yang membangun produk AI menemukan bahwa lebih dari setengah trafik prompt sebenarnya bisa ditangani model kelas Haiku, Mini, atau Flash dengan kualitas setara, tanpa perlu memanggil model flagship setiap kali.
Cara Kerja & Pola Umum
| Pola | Cara Memilih Model | Contoh Kasus |
|---|---|---|
| Static rules | Berdasarkan endpoint atau tag prompt | Klasifikasi tiket support pakai model kecil |
| Classifier-based | Model klasifier ringan menentukan label | Routing pertanyaan ke domain expert |
| Cascading | Mulai dari model murah, eskalasi jika confidence rendah | Q&A internal dengan fallback ke flagship |
| Cost-aware | Optimasi berdasarkan budget per user atau tier | Aplikasi freemium dengan SLA berbeda |
Cascading adalah pola yang paling populer karena mudah diimplementasi dan langsung memberi penghematan biaya.
Kenapa Penting?
Bagi developer di Indonesia, biaya API LLM seringkali jadi penghambat utama scaling produk berbasis AI. Tanpa router, semua trafik dikirim ke model termahal "demi aman", padahal sebagian besar prompt sebenarnya tugas remeh. Dengan router yang tepat, biaya API bisa turun 40-70% tanpa kehilangan kualitas user-facing. Pola ini juga relevan untuk strategi Prompt Caching dan optimasi RAG, karena layer routing bisa juga memilih embedding model dan strategi retrieval.
Untuk tim kecil, mulai dari static rules dulu sebelum membangun classifier khusus. Belajar dari data trafik nyata jauh lebih bernilai dibanding optimasi prematur.
Pertanyaan Umum
Apakah prompt router perlu untuk aplikasi LLM kecil?
Tidak wajib. Untuk MVP atau produk dengan trafik di bawah 1000 request per hari, satu model sudah cukup. Router mulai relevan saat biaya bulanan API LLM melebihi 10 juta rupiah atau saat ada variasi tugas yang signifikan.
Apa risiko utama prompt router?
Risiko terbesar adalah salah routing yang menurunkan kualitas user experience. Selalu pasang fallback otomatis ke model flagship saat confidence model murah rendah, dan monitor metrik kualitas per arm router secara terpisah.
Istilah Terkait