Digital Transformation
Tokenization (AI)
TL;DR: Tokenization adalah proses memecah teks menjadi potongan kecil bernama token sebelum diumpankan ke model AI. Untuk Bahasa Indonesia, satu kata bisa menjadi 1-3 token tergantung tokenizer, sehingga prompt yang terlihat pendek bisa menelan biaya lebih besar dari perkiraan.
Apa itu Tokenization?
Tokenization adalah lapisan paling awal di pipeline LLM. Sebelum model seperti GPT, Claude, atau Gemini memahami teks, teks tersebut dipecah menjadi token. Token bisa berupa kata utuh, sub-kata, atau bahkan karakter individual, tergantung algoritma yang dipakai (BPE, WordPiece, SentencePiece). Konsep ini krusial karena setiap layanan AI berbayar menghitung biaya per token, baik input maupun output. Untuk konteks lebih luas, lihat LLM dan context window.
Cara Kerja Tokenization
| Tokenizer | Dipakai oleh | Karakteristik |
|---|---|---|
| BPE (Byte Pair Encoding) | GPT-4, GPT-3.5 | Efisien untuk Bahasa Inggris, kurang untuk Bahasa Indonesia |
| Tiktoken cl100k | Model OpenAI lama | 1 kata Bahasa Indonesia ~ 2 token |
| Tiktoken o200k | GPT-4o, GPT-5 | Lebih efisien multibahasa |
| Claude tokenizer | Anthropic | Mirip BPE, optimal untuk teks panjang |
Sebagai patokan praktis, 1.000 token Bahasa Inggris setara dengan sekitar 750 kata, sementara 1.000 token Bahasa Indonesia hanya sekitar 500-600 kata.
Kenapa Penting?
Untuk marketer yang menjalankan kampanye AI dengan budget terbatas, memahami Tokenization berarti bisa menghemat 30-50% biaya inference. Dalam beberapa proyek tim Atmo, optimasi prompt yang lebih ringkas berhasil menurunkan tagihan bulanan dari 2 juta rupiah ke 800 ribu tanpa kehilangan kualitas output. Lihat prompt caching untuk strategi tambahan menekan biaya.
Pertanyaan Umum
Bagaimana cara menghitung jumlah token sebelum kirim ke API?
Pakai tokenizer resmi seperti tiktoken (OpenAI) atau @anthropic-ai/tokenizer (Claude). Untuk perkiraan kasar, kalikan jumlah kata Bahasa Indonesia dengan 1,8.
Apakah Bahasa Indonesia lebih boros token daripada Bahasa Inggris?
Ya, pada model lama. Model generasi 2024-2026 seperti GPT-4o dan Claude 3.5 sudah jauh lebih efisien untuk multibahasa, tapi gap masih ada sekitar 20-30%.
Istilah Terkait