Digital Transformation

Model Routing (Perutean Permintaan ke Model AI yang Tepat)

Model routing adalah teknik mengarahkan setiap permintaan ke model AI yang paling sesuai berdasarkan kompleksitas tugas, sehingga biaya turun tanpa mengorbankan kualitas jawaban.

Vito Atmo
Vito Atmo·9 Mei 2026·0 kali dibaca·2 min baca

TL;DR: Model routing adalah pola arsitektur yang memilih model AI berbeda untuk setiap jenis permintaan, misalnya model kecil untuk klasifikasi sederhana dan model frontier untuk reasoning kompleks. Untuk brand Indonesia yang menjalankan AI di banyak fitur, model routing menurunkan biaya inferensi 40-70% sambil menjaga akurasi yang relevan.

Apa itu Model Routing?

Model routing memperlakukan portofolio model sebagai tim, bukan satu pekerja serbabisa. Setiap permintaan dianalisis dulu (oleh router yang biasanya berbasis aturan, klasifikasi cepat, atau model kecil), lalu dikirim ke model yang paling cocok untuk tugas tersebut. Hasilnya, biaya rata-rata turun karena tidak semua permintaan butuh model paling mahal.

Pola ini erat kaitannya dengan disiplin inference cost dan jadi bagian dari strategi yang lebih luas tentang agentic workflow.

Pola Routing yang Lazim Dipakai

PolaCara KerjaCocok Untuk
Rule-basedIfelse berdasarkan jenis intentChatbot dengan menu intent jelas
ClassifierModel kecil klasifikasi tier permintaanVolume tinggi, intent beragam
CascadeModel murah dulu, eskalasi jika confidence rendahQ&A dengan distribusi sulit
Cost-awareOptimasi berdasarkan latency + biaya + akurasiProduksi matang dengan SLO

Kenapa Penting?

Dari pengalaman menangani brand client di sektor e-commerce dan edtech, satu pola yang konsisten muncul: 60-80% permintaan ke chatbot sebenarnya tugas ringan (FAQ, pencarian produk, status pesanan) yang tidak butuh model frontier. Tanpa routing, semua permintaan dikirim ke model termahal dan brand membayar premium untuk pekerjaan murah. Dengan model routing yang disiplin, brand seperti Atmo (LMS) dan Vetmo bisa naik volume penggunaan AI tanpa lonjakan biaya yang sebanding.

Pertanyaan Umum

Apakah model routing menambah latency?

Sedikit, biasanya 50-150 ms untuk klasifikasi awal. Tapi karena sebagian besar permintaan diarahkan ke model kecil yang lebih cepat, latency total justru sering turun.

Apa risiko utama model routing?

Salah klasifikasi yang membuat permintaan kompleks dikirim ke model kecil dan menghasilkan jawaban dangkal. Mitigasi: pasang fallback berbasis confidence dan audit sample bulanan. Lihat juga agent evaluation.

Bagikan