Gli LLM non leggono le parole come gli umani. Spezzano il testo in blocchi chiamati token.
Un token può essere una parola, parte di una parola o anche uno spazio.
Parole: 0
Token: 0
Media: 0 token/parola
Mostra/Nascondi ID numerici
Italiano standard
Parola complessa
Matematica e numeri
Snippet di codice
Perché la tokenizzazione è importante?
Costo: si paga per token, non per parola.
Errori di matematica: gli LLM faticano con la matematica (es. "1000" vs "100") perché i numeri vengono spesso spezzati in blocchi non logici.
Ortografia: gli LLM sbagliano il conteggio delle lettere (es. "strawberry") perché vedono l'ID del token, non i singoli caratteri.
⚠️ Disclaimer tecnico:
Per mantenere questa pagina leggera, la tokenizzazione è stata simulata. Per sperimentare un tokenizer reale, sono disponibili dei tool online dedicati.