Digital Transformation
Agent Tool Backpressure Window
TL;DR: Agent Tool Backpressure Window adalah durasi waktu (biasanya 50 sampai 400 ms) di mana asisten AI menahan pemanggilan tool tambahan saat antrian downstream mendekati saturasi. Mekanisme ini mencegah pipeline runtuh dan menjaga p95 latency tetap dalam budget saat traffic spike.
Apa itu Agent Tool Backpressure Window?
Backpressure Window bekerja seperti throttle adaptif. Saat queue depth atau latency tool tertentu melewati ambang batas (misalnya 80 persen kapasitas), agent menunda pemanggilan baru selama window tersebut, lalu mengevaluasi ulang. Konsep ini berdampingan dengan Agent Tool Throttle Bias dan Agent Tool Bulkhead Isolation, tetapi backpressure bersifat reaktif terhadap kondisi runtime, bukan alokasi statis.
Dalam pengalaman saya menjaga asisten produksi, window 120 sampai 240 ms cukup untuk membiarkan antrian terurai tanpa membuat pengguna merasakan stall. Window di atas 500 ms biasanya menandakan pipeline butuh penambahan kapasitas, bukan sekadar tuning backpressure.
Cara Kerja
| Sinyal | Aksi agent |
|---|---|
| Queue depth di bawah 60% | Pemanggilan normal |
| Queue depth 60-80% | Aktifkan jitter ringan |
| Queue depth di atas 80% | Aktifkan backpressure window 120-240 ms |
| Queue depth di atas 95% | Reject pemanggilan, fallback graceful |
Sinyal queue depth biasanya diambil dari Supabase queue metrics atau Redis BLPOP latency.
Kenapa Penting?
Tanpa backpressure window, satu spike traffic bisa membuat tool pipeline antri panjang dan menciptakan timeout berantai. Marketer Indonesia yang menjalankan asisten booking, asisten konsultasi, atau asisten e-commerce sering mengalami cascading failure saat flash sale karena tidak ada lapisan ini.
Backpressure juga membantu menjaga Agent Tool Prefetch Stall Rate tetap rendah, karena agent tahu kapan harus berhenti memanggil tool prefetch yang sudah jenuh.
Pertanyaan Umum
Apakah backpressure window sama dengan retry policy?
Tidak. Retry policy menangani kegagalan setelah pemanggilan, sementara backpressure menahan pemanggilan sebelum dikirim.
Berapa window optimal untuk asisten produksi?
Umumnya 120 sampai 240 ms untuk asisten konsumen, dan 80 sampai 160 ms untuk asisten internal dengan SLA latency ketat.
Istilah Terkait