Studi Kasus Atmo LMS: Pasang Agent Tool Deadline Budget 1.000 ms dan LLM Context Compaction Window 180 Detik di Asisten Kurikulum, Pangkas p95 Latency 47 Persen dan Hemat Inferensi Rp 6,1 Juta per Bulan dalam 31 Hari di 2026
TL;DR: Asisten kurikulum Atmo LMS sebelumnya menyentuh p95 latency 1,9 detik dan biaya inferensi Rp 14,2 juta per bulan. Setelah Vito Atmo memasang Agent Tool Deadline Budget 1.000 ms dan LLM Context Compaction Window 180 detik, p95 turun ke 1,0 detik dan biaya inferensi hemat Rp 6,1 juta per bulan dalam 31 hari.
Dalam beberapa proyek terakhir, saya melihat pola berulang di asisten edukasi: konteks menumpuk karena siswa membuka banyak modul dalam satu sesi, lalu tool agent ikut melambat karena retry chain tidak punya pagar waktu absolut. Atmo LMS menghadapi keduanya pada April 2026.
Per April 2026, dashboard internal Atmo menunjukkan p95 latency tool kurikulum di 1,9 detik dan token konteks rata-rata 12.400 per sesi. Dua angka ini ikut menaikkan biaya OpenAI bulanan ke Rp 14,2 juta. Praktik standar di industri menunjukkan bahwa pipeline RAG produktif idealnya menjaga p95 di bawah 1,2 detik dan token konteks di bawah 8.000.
Masalah yang Dihadapi
Asisten kurikulum Atmo LMS dipakai pelajar SMA untuk merangkum materi, menjawab soal latihan, dan menavigasi modul. Pola pemakaian sesi panjang membuat dua hal terjadi: pertama, LLM Context Window Utilization Rate menyentuh 94 persen pada menit ke-12. Kedua, tool kurikulum yang lambat memicu retry kaskade tanpa pagar waktu.
Pengukuran awal di pipeline produksi mencatat:
- p95 latency tool kurikulum: 1.940 ms
- Token konteks rata-rata per sesi: 12.400
- Biaya inferensi bulanan: Rp 14,2 juta
- Sesi gagal total karena retry budget habis: 9,4 persen
Framework Dua Pagar
Saya memilih dua intervensi yang saling melengkapi karena akar masalah berbeda. Deadline budget mengatasi cascade timeout di sisi tool. Compaction window mengatasi token bloat di sisi konteks.
| Intervensi | Target | Setup |
|---|---|---|
| Deadline Budget | Hard 1.000 ms, Soft 700 ms | Per tool kurikulum, retry reserve 25 persen |
| Compaction Window | 180 detik, ratio 3:1 | Trigger di 72 persen utilisasi konteks |
| Fallback | Skip non-kritis | Aktif setelah hard deadline lewat |
| Telemetry | Per sesi | Log ke Supabase, dashboard harian |
Pola ini sejalan dengan rekomendasi Google SRE Workbook tentang non-abstract large system design yang menekankan deadline propagation di seluruh pipeline.
Implementasi di Atmo LMS
Saat membangun Atmo LMS, kami sudah memakai Next.js 15 dan Supabase Edge Functions. Penambahan dua kontrol ini dilakukan tanpa migrasi besar. Edge Function untuk tool kurikulum dibungkus middleware yang menandai deadline awal sesi. Setiap retry membaca sisa budget, bukan reset hitungan.
Untuk compaction, pipeline RAG ditambah job ringan yang berjalan setiap 180 detik. Job ini meringkas potongan konteks lama menjadi blok 3:1, mirip prinsip LLM Context Compaction Ratio tapi dipicu oleh waktu, bukan utilisasi murni.
Rollout dilakukan canary 10 persen selama 5 hari, lalu 50 persen selama 7 hari, kemudian 100 persen. Tidak ada perubahan UI, sehingga pelajar tidak menyadari ada intervensi.
Hasil Setelah 31 Hari
Pengukuran setelah window 31 hari berjalan menunjukkan:
- p95 latency tool kurikulum: 1.020 ms, turun 47 persen
- Token konteks rata-rata per sesi: 7.100, turun 43 persen
- Biaya inferensi bulanan: Rp 8,1 juta, hemat Rp 6,1 juta
- Sesi gagal total: 2,1 persen, turun dari 9,4 persen
Sesi pelajar yang tadinya frustrasi karena loading panjang tetap hidup. NPS internal asisten kurikulum naik dari 32 ke 51 dalam window yang sama.
Pertanyaan Umum
Apakah pendekatan ini bisa diterapkan untuk niche selain edukasi?
Iya, pola dua pagar (deadline plus compaction) cocok untuk asisten yang sesi panjangnya tidak bisa dihindari. Saya pakai pola sejajar di asisten konsultan pajak Ade Mulyana dan asisten coaching Yuanita Sekar.
Berapa lama sampai melihat dampak?
Hard latency turun di minggu pertama. Penghematan biaya inferensi baru terlihat utuh setelah 2 sampai 4 minggu karena pola sesi pengguna butuh waktu untuk stabil.
Apakah ada risiko false positive deadline?
Ada. Saat traffic spike, soft deadline 700 ms bisa terlalu agresif. Solusinya naikkan retry reserve sementara dari 25 persen ke 35 persen selama event.
Bagaimana mengukur efektivitas compaction window?
Pantau token sebelum dan sesudah compaction, plus tingkat jawaban gagal. Angka ini bervariasi tergantung industri dan ukuran sample.
Penutup
Dua pagar sederhana, satu di sisi tool dan satu di sisi konteks, cukup memangkas hampir separuh latency dan sepertiga biaya inferensi Atmo LMS. Bagi marketer dan developer yang mengelola asisten dengan sesi panjang, kombinasi ini lebih murah dibanding upgrade model atau menambah hardware.
Artikel Terkait
Case Study
Studi Kasus Atmo LMS: Pasang Agent Tool Cancellation Budget 2 per Sesi di Asisten Kurikulum, Pangkas Cascading Retry 58 Persen dan Hemat Inferensi Rp 5,9 Juta per Bulan dalam 33 Hari di 2026
Studi kasus Atmo LMS pasang Agent Tool Cancellation Budget 2 per sesi 12 menit di asisten kurikulum. Pangkas cascading retry 58 persen dan hemat inferensi Rp 5,9 juta per bulan di 2026.
Case Study
Studi Kasus Ade Mulyana: Pasang LLM Context Pinning Budget 22 Persen di Asisten Konsultan Pajak, Pangkas Fact Drift dari 28 ke 4 Persen dan Selamatkan Konversi Rp 14 Juta per Bulan dalam 34 Hari di 2026
Studi kasus pasang LLM Context Pinning Budget 22 persen window di asisten konsultan pajak Ade Mulyana, pangkas fact drift 24 poin dan selamatkan konversi Rp 14 juta per bulan.

Case Study
Studi Kasus Ade Mulyana: Pangkas LLM Context Rehydration Cost Asisten Konsultan Pajak dari Multiplier 2,4x ke 1,3x dan Hemat Inferensi Rp 6,4 Juta per Bulan dalam 35 Hari di 2026
Asisten pajak Ade sering rehydrate konteks panjang berkali-kali per sesi. Audit menunjukkan 38 persen biaya inferensi bulanan adalah overhead rehydration murni.
Butuh website yang benar-benar bekerja?
Hubungi Vito untuk konsultasi gratis 15 menit.
WhatsApp Sekarang