Tokenizer – Token Counter für GPT, Claude & Co.
Zähle Tokens für jedes Sprachmodell direkt im Browser. Keine API, kein Login — dein Text verlässt deinen Computer nicht. Exakte Tokenization für alle OpenAI-Modelle (GPT-5.x, o1, o3, GPT-4o, GPT-4, GPT-3.5) und präzise Schätzungen für Claude, Gemini, Llama, Mistral, DeepSeek und Grok.
Was ist ein Tokenizer?
Ein Tokenizer zerlegt Text in Tokens — die kleinsten Einheiten, die ein Sprachmodell versteht. Ein Token kann ein ganzes Wort, eine Silbe, ein Satzzeichen oder ein einzelnes Byte sein. GPT-4, Claude, Gemini & Co. arbeiten nicht mit Zeichen oder Wörtern, sondern mit Tokens. Als Faustregel: 100 Tokens ≈ 75 englische Wörter ≈ 400 Zeichen. Im Deutschen liegt das Verhältnis wegen langer Komposita etwas niedriger.
Wofür brauche ich einen Token Counter?
Ein Token Counter ist bei der Arbeit mit LLMs unverzichtbar:
- API-Kosten berechnen — OpenAI, Anthropic und Google rechnen pro Input- und Output-Token ab.
- Context-Fenster einhalten — GPT-4o: 128K, Claude 3.5: 200K, Gemini 2.5: 1M Tokens.
- Prompts optimieren — Wer seinen Prompt von 5.000 auf 3.000 Tokens kürzt, spart 40 % Kosten.
- Fine-Tuning-Daten vorbereiten — beim Training zählt jeder Token.
Wie funktioniert Tokenization?
Moderne LLMs nutzen Subword-Tokenization auf Basis von Byte Pair Encoding (BPE). Häufige Zeichenfolgen werden zu einem Token zusammengefasst, seltene in kleinere Teile zerlegt.
Beispiele (GPT-4o):
Hallo Welt→ 2 Tokensindivisible→ 1 TokenDonauschifffahrt→ 4 Tokens🙏🏾→ mehrere Tokens (Emoji + Hautton-Modifier)
Unterstützte Modelle
Exakte Tokenization (OpenAI)
- GPT-5.x, o1, o3 (o200k_base)
- GPT-4o, GPT-4o-mini
- GPT-4, GPT-4 Turbo, GPT-3.5-turbo (cl100k_base)
- GPT-3 Legacy (p50k_base, r50k_base)
Schätzung (proprietäre Tokenizer)
- Claude 3.5 / 3.7 / 4 (Sonnet, Opus, Haiku)
- Gemini 1.5 / 2.0 / 2.5
- Llama 3, 3.1, 3.3
- Mistral, Mixtral
- DeepSeek v3, R1
- Qwen 2.5, 3
- Grok 2, 3
Warum ein Tokenizer online im Browser?
- Datenschutz — kein Upload, keine Server-Requests, alles läuft lokal
- Kostenlos — kein Login, kein API-Key, kein Rate-Limit
- Live — Tokens werden beim Tippen gezählt
FAQ
Was ist der Unterschied zwischen Zeichen und Tokens?
Zeichen sind einzelne Buchstaben. Tokens sind Wortbausteine, die das Modell intern verarbeitet — im Schnitt ~3,5 Zeichen pro Token im Deutschen, ~4 im Englischen.
Wie zähle ich Tokens für GPT-4?
Modell „GPT-4" im Dropdown wählen, Text einfügen — der Token Counter zeigt die exakte Anzahl sofort.
Kann ich Tokens für Claude zählen?
Anthropic veröffentlicht den Claude-Tokenizer nicht. Wir zeigen eine Schätzung (~3,5 Zeichen/Token) mit ±10–20 % Genauigkeit.
Wie viele Tokens sind 1.000 Wörter?
Englisch: ~1.300–1.400 Tokens. Deutsch: ~1.400–1.700 Tokens.
Was kostet 1.000 Tokens bei GPT-4o?
Aktuell ca. 0,0025 $ Input / 0,01 $ Output.