Digital Transformation
Model Routing (Perutean Permintaan ke Model AI yang Tepat)
Model routing adalah teknik mengarahkan setiap permintaan ke model AI yang paling sesuai berdasarkan kompleksitas tugas, sehingga biaya turun tanpa mengorbankan kualitas jawaban.
TL;DR: Model routing adalah pola arsitektur yang memilih model AI berbeda untuk setiap jenis permintaan, misalnya model kecil untuk klasifikasi sederhana dan model frontier untuk reasoning kompleks. Untuk brand Indonesia yang menjalankan AI di banyak fitur, model routing menurunkan biaya inferensi 40-70% sambil menjaga akurasi yang relevan.
Apa itu Model Routing?
Model routing memperlakukan portofolio model sebagai tim, bukan satu pekerja serbabisa. Setiap permintaan dianalisis dulu (oleh router yang biasanya berbasis aturan, klasifikasi cepat, atau model kecil), lalu dikirim ke model yang paling cocok untuk tugas tersebut. Hasilnya, biaya rata-rata turun karena tidak semua permintaan butuh model paling mahal.
Pola ini erat kaitannya dengan disiplin inference cost dan jadi bagian dari strategi yang lebih luas tentang agentic workflow.
Pola Routing yang Lazim Dipakai
| Pola | Cara Kerja | Cocok Untuk |
|---|---|---|
| Rule-based | Ifelse berdasarkan jenis intent | Chatbot dengan menu intent jelas |
| Classifier | Model kecil klasifikasi tier permintaan | Volume tinggi, intent beragam |
| Cascade | Model murah dulu, eskalasi jika confidence rendah | Q&A dengan distribusi sulit |
| Cost-aware | Optimasi berdasarkan latency + biaya + akurasi | Produksi matang dengan SLO |
Kenapa Penting?
Dari pengalaman menangani brand client di sektor e-commerce dan edtech, satu pola yang konsisten muncul: 60-80% permintaan ke chatbot sebenarnya tugas ringan (FAQ, pencarian produk, status pesanan) yang tidak butuh model frontier. Tanpa routing, semua permintaan dikirim ke model termahal dan brand membayar premium untuk pekerjaan murah. Dengan model routing yang disiplin, brand seperti Atmo (LMS) dan Vetmo bisa naik volume penggunaan AI tanpa lonjakan biaya yang sebanding.
Pertanyaan Umum
Apakah model routing menambah latency?
Sedikit, biasanya 50-150 ms untuk klasifikasi awal. Tapi karena sebagian besar permintaan diarahkan ke model kecil yang lebih cepat, latency total justru sering turun.
Apa risiko utama model routing?
Salah klasifikasi yang membuat permintaan kompleks dikirim ke model kecil dan menghasilkan jawaban dangkal. Mitigasi: pasang fallback berbasis confidence dan audit sample bulanan. Lihat juga agent evaluation.
Istilah Terkait