Tokenizer – Token Counter für GPT, Claude & Co.

Zähle Tokens für jedes Sprachmodell direkt im Browser. Keine API, kein Login — dein Text verlässt deinen Computer nicht. Exakte Tokenization für alle OpenAI-Modelle (GPT-5.x, o1, o3, GPT-4o, GPT-4, GPT-3.5) und präzise Schätzungen für Claude, Gemini, Llama, Mistral, DeepSeek und Grok.

Modell

Tokens

Zeichen

Was ist ein Tokenizer?

Ein Tokenizer zerlegt Text in Tokens — die kleinsten Einheiten, die ein Sprachmodell versteht. Ein Token kann ein ganzes Wort, eine Silbe, ein Satzzeichen oder ein einzelnes Byte sein. GPT-4, Claude, Gemini & Co. arbeiten nicht mit Zeichen oder Wörtern, sondern mit Tokens. Als Faustregel: 100 Tokens ≈ 75 englische Wörter ≈ 400 Zeichen. Im Deutschen liegt das Verhältnis wegen langer Komposita etwas niedriger.
‍

Wofür brauche ich einen Token Counter?

Ein Token Counter ist bei der Arbeit mit LLMs unverzichtbar:

API-Kosten berechnen — OpenAI, Anthropic und Google rechnen pro Input- und Output-Token ab.
Context-Fenster einhalten — GPT-4o: 128K, Claude 3.5: 200K, Gemini 2.5: 1M Tokens.
Prompts optimieren — Wer seinen Prompt von 5.000 auf 3.000 Tokens kürzt, spart 40 % Kosten.
Fine-Tuning-Daten vorbereiten — beim Training zählt jeder Token.

Wie funktioniert Tokenization?

Moderne LLMs nutzen Subword-Tokenization auf Basis von Byte Pair Encoding (BPE). Häufige Zeichenfolgen werden zu einem Token zusammengefasst, seltene in kleinere Teile zerlegt.

Beispiele (GPT-4o):

Hallo Welt → 2 Tokens
indivisible → 1 Token
Donauschifffahrt → 4 Tokens
🙏🏾 → mehrere Tokens (Emoji + Hautton-Modifier)

Unterstützte Modelle

Exakte Tokenization (OpenAI)

GPT-5.x, o1, o3 (o200k_base)
GPT-4o, GPT-4o-mini
GPT-4, GPT-4 Turbo, GPT-3.5-turbo (cl100k_base)
GPT-3 Legacy (p50k_base, r50k_base)

Schätzung (proprietäre Tokenizer)

Claude 3.5 / 3.7 / 4 (Sonnet, Opus, Haiku)
Gemini 1.5 / 2.0 / 2.5
Llama 3, 3.1, 3.3
Mistral, Mixtral
DeepSeek v3, R1
Qwen 2.5, 3
Grok 2, 3

Warum ein Tokenizer online im Browser?

Datenschutz — kein Upload, keine Server-Requests, alles läuft lokal
Kostenlos — kein Login, kein API-Key, kein Rate-Limit
Live — Tokens werden beim Tippen gezählt

FAQ

Was ist der Unterschied zwischen Zeichen und Tokens?
Zeichen sind einzelne Buchstaben. Tokens sind Wortbausteine, die das Modell intern verarbeitet — im Schnitt ~3,5 Zeichen pro Token im Deutschen, ~4 im Englischen.

Wie zähle ich Tokens für GPT-4?
Modell „GPT-4" im Dropdown wählen, Text einfügen — der Token Counter zeigt die exakte Anzahl sofort.

Kann ich Tokens für Claude zählen?
Anthropic veröffentlicht den Claude-Tokenizer nicht. Wir zeigen eine Schätzung (~3,5 Zeichen/Token) mit ±10–20 % Genauigkeit.

Wie viele Tokens sind 1.000 Wörter?
Englisch: ~1.300–1.400 Tokens. Deutsch: ~1.400–1.700 Tokens.

Was kostet 1.000 Tokens bei GPT-4o?
Aktuell ca. 0,0025 $ Input / 0,01 $ Output.

‍