Digital Transformation
Token (AI)
TL;DR: Token adalah unit dasar yang dipakai model AI seperti ChatGPT atau Gemini untuk membaca dan menghasilkan teks. Satu token kira-kira 0,75 kata bahasa Inggris, atau sekitar 0,5 kata bahasa Indonesia. Penting karena setiap API call berbayar dihitung per token, dan setiap model punya batas token maksimum per percakapan.
Apa itu Token?
Token bukan kata utuh. Model AI memecah teks menjadi potongan yang lebih kecil dari sebuah kata, kadang berupa suku kata atau bahkan satu karakter tanda baca. Kata "marketing" bisa jadi 1 token, tapi "menggemakan" bisa jadi 3-4 token karena bahasa Indonesia kurang terwakili di tokenizer model populer. Konsep ini relevan dengan Retrieval Augmented Generation dan Prompt Engineering karena keduanya beroperasi dalam anggaran token yang terbatas.
Estimasi Token Kasar
| Jenis Teks | Rasio Kata:Token |
|---|---|
| Bahasa Inggris | 1 kata ≈ 1,3 token |
| Bahasa Indonesia | 1 kata ≈ 1,8-2 token |
| Kode (Python/JS) | 1 baris ≈ 8-15 token |
| URL panjang | 1 URL ≈ 10-30 token |
Implikasinya: konten bahasa Indonesia di model AI memakan lebih banyak anggaran dibanding bahasa Inggris untuk informasi yang sama. Sumber resmi untuk eksperimen sendiri: OpenAI Tokenizer.
Kenapa Penting?
Bagi marketer yang membangun chatbot atau workflow AI, token menentukan biaya operasional. Bagi yang mengoptimalkan konten untuk AI Search, token menentukan apakah halaman muat dipanggil ulang oleh model. Konten yang terlalu panjang dan tidak di-chunk berisiko dipotong di Agent Context Window Budget.
Pertanyaan Umum
Bagaimana cara hitung token cepat?
Untuk teks Bahasa Indonesia, kalikan jumlah kata dengan 1,8 sebagai perkiraan kasar. Lebih akurat lewat tokenizer resmi penyedia model.
Apakah semua model AI hitung token sama?
Tidak. GPT-4, Claude, dan Gemini punya tokenizer berbeda. Estimasi yang sama bisa berbeda 10-30%.
Istilah Terkait