Digital Transformation

Time to First Token (TTFT)

Vito Atmo
Vito Atmo·29 April 2026·0 kali dibaca·2 min baca

TL;DR: Time to First Token (TTFT) mengukur waktu antara pengiriman prompt dan munculnya token pertama dari respons LLM. Berbeda dari latensi total, TTFT menentukan persepsi kecepatan, karena pengguna sudah merasa "AI sudah merespons" begitu teks pertama muncul. Untuk produk konsumen, target TTFT yang sehat berada di kisaran 300-800 milidetik.

Apa itu TTFT?

TTFT adalah metrik latensi spesifik untuk produk yang memakai streaming, di mana token dikirim ke client begitu dihasilkan. Metrik ini jadi saudara dekat Time to First Byte (TTFB) di dunia web, tapi konteksnya bergeser ke generative AI. Nilai TTFT dipengaruhi oleh ukuran prompt, panjang context window, jenis model, dan apakah ada langkah tambahan seperti retrieval atau reranking di pipeline.

Cara Mengukur dan Menurunkan TTFT

Faktor PenaikCara Menekan
Prompt sangat panjangRingkas atau pakai chunking selektif
Pipeline RAG kompleksPakai LLM Cache untuk pertanyaan berulang
Model terlalu besar untuk tugas ringanRouting ke model lebih kecil via Prompt Router
Cold start serverlessPakai warm pool atau provisioned concurrency

Pengukuran umumnya dilakukan dengan instrumentasi di sisi server, mencatat timestamp request masuk dan timestamp token pertama keluar.

Kenapa Penting?

Dalam beberapa proyek AI yang saya bantu, menurunkan TTFT dari 2,1 detik ke 600 milidetik berdampak lebih besar pada kepuasan pengguna dibanding menaikkan akurasi 5%. Pengguna toleran terhadap jawaban yang sedang mengalir, tapi kehilangan kesabaran melihat layar kosong. Untuk produk Indonesia yang berkompetisi dengan tools global, TTFT sering jadi pembeda persepsi yang lebih murah dari adu model.

Pertanyaan Umum

Apa beda TTFT dengan latensi total?

TTFT mengukur sampai token pertama. Latensi total mengukur sampai jawaban selesai. Keduanya penting, tapi TTFT lebih mempengaruhi persepsi.

TTFT yang bagus berapa?

Untuk chatbot konsumen, di bawah 800 ms terasa sigap. Untuk fitur agentic dengan tool calling, di bawah 1,5 detik masih wajar.

Bagikan