Digital Transformation

Agent Tool Streaming Buffer

Vito Atmo
Vito Atmo·30 Mei 2026·0 kali dibaca·2 min baca

TL;DR: Agent Tool Streaming Buffer adalah lapisan antrian sementara yang menampung token dari output tool-call sebelum diteruskan ke LLM agent. Buffer mencegah retry penuh saat tool-call gagal di tengah jalan dan menstabilkan latency p95 di rentang 380 hingga 620 ms untuk asisten yang memanggil 3-5 tool per turn.

Apa itu Agent Tool Streaming Buffer?

Agent Tool Streaming Buffer adalah komponen middleware di pipeline agent yang menampung sebagian output tool-call sebelum LLM membaca hasilnya secara streaming. Tanpa buffer, kegagalan jaringan di tengah streaming biasanya memaksa agent melakukan retry penuh, yang membakar token dan menaikkan latency. Dengan buffer, agent dapat melanjutkan dari titik terakhir yang tersimpan tanpa memanggil ulang tool dari awal.

Konsep ini melengkapi Agent Tool Retry Policy dan Agent Tool Circuit Budget, tetapi bekerja di lapisan transport, bukan di lapisan keputusan retry.

Cara Kerja

KomponenFungsi
Buffer windowJendela 4-16 KB yang menampung partial output sebelum di-flush ke LLM
Resume tokenID kursor yang memungkinkan tool melanjutkan stream dari titik terakhir
Flush triggerThreshold byte atau interval ms yang memaksa buffer dikirim ke agent
Timeout fallbackJika resume gagal, agent jatuh ke jawaban parsial, bukan retry penuh

Dalam praktik proyek Atmo LMS, buffer 8 KB dengan flush interval 120 ms berhasil menstabilkan p95 latency tool-call asisten kurikulum dari 1,4 detik ke 540 ms tanpa menaikkan biaya inferensi.

Kenapa Penting?

Bagi marketer Indonesia yang membangun asisten AI di atas Next.js dan Supabase, streaming buffer adalah pertahanan praktis terhadap koneksi mobile yang tidak stabil. Per April 2026, Indonesia masih memiliki rata-rata packet loss 1,8 persen di jaringan 4G di luar Jakarta dan Surabaya, sehingga buffer menjadi pembeda antara asisten yang terasa responsif dan asisten yang sering "loading lama". Buffer juga menghemat biaya inferensi karena retry penuh adalah penyebab utama tagihan tak terduga.

Pertanyaan Umum

Apakah buffer ini sama dengan caching?

Tidak. Cache menyimpan hasil tool-call lama untuk dipakai ulang di sesi berikutnya. Buffer menyimpan sebagian hasil yang sedang berjalan untuk menahan kegagalan parsial dalam satu sesi.

Ukuran buffer ideal berapa?

Mulai dari 4 KB untuk asisten ringan dan naikkan ke 16 KB untuk asisten yang sering memanggil tool retrieval besar. Ukuran terlalu besar menaikkan time-to-first-token, terlalu kecil tidak menahan kegagalan.

Bagikan