Tokenizer – Token Counter für GPT, Claude & Co.

Zähle Tokens für jedes Sprachmodell direkt im Browser. Keine API, kein Login — dein Text verlässt deinen Computer nicht. Exakte Tokenization für alle OpenAI-Modelle (GPT-5.x, o1, o3, GPT-4o, GPT-4, GPT-3.5) und präzise Schätzungen für Claude, Gemini, Llama, Mistral, DeepSeek und Grok.

Tokens
0
Zeichen
0

Was ist ein Tokenizer?

Ein Tokenizer zerlegt Text in Tokens — die kleinsten Einheiten, die ein Sprachmodell versteht. Ein Token kann ein ganzes Wort, eine Silbe, ein Satzzeichen oder ein einzelnes Byte sein. GPT-4, Claude, Gemini & Co. arbeiten nicht mit Zeichen oder Wörtern, sondern mit Tokens. Als Faustregel: 100 Tokens ≈ 75 englische Wörter ≈ 400 Zeichen. Im Deutschen liegt das Verhältnis wegen langer Komposita etwas niedriger.

Wofür brauche ich einen Token Counter?

Ein Token Counter ist bei der Arbeit mit LLMs unverzichtbar:

  • API-Kosten berechnen — OpenAI, Anthropic und Google rechnen pro Input- und Output-Token ab.
  • Context-Fenster einhalten — GPT-4o: 128K, Claude 3.5: 200K, Gemini 2.5: 1M Tokens.
  • Prompts optimieren — Wer seinen Prompt von 5.000 auf 3.000 Tokens kürzt, spart 40 % Kosten.
  • Fine-Tuning-Daten vorbereiten — beim Training zählt jeder Token.


Wie funktioniert Tokenization?

Moderne LLMs nutzen Subword-Tokenization auf Basis von Byte Pair Encoding (BPE). Häufige Zeichenfolgen werden zu einem Token zusammengefasst, seltene in kleinere Teile zerlegt.

Beispiele (GPT-4o):

  • Hallo Welt → 2 Tokens
  • indivisible → 1 Token
  • Donauschifffahrt → 4 Tokens
  • 🙏🏾 → mehrere Tokens (Emoji + Hautton-Modifier)


Unterstützte Modelle

Exakte Tokenization (OpenAI)

  • GPT-5.x, o1, o3 (o200k_base)
  • GPT-4o, GPT-4o-mini
  • GPT-4, GPT-4 Turbo, GPT-3.5-turbo (cl100k_base)
  • GPT-3 Legacy (p50k_base, r50k_base)


Schätzung (proprietäre Tokenizer)

  • Claude 3.5 / 3.7 / 4 (Sonnet, Opus, Haiku)
  • Gemini 1.5 / 2.0 / 2.5
  • Llama 3, 3.1, 3.3
  • Mistral, Mixtral
  • DeepSeek v3, R1
  • Qwen 2.5, 3
  • Grok 2, 3


Warum ein Tokenizer online im Browser?

  • Datenschutz — kein Upload, keine Server-Requests, alles läuft lokal
  • Kostenlos — kein Login, kein API-Key, kein Rate-Limit
  • Live — Tokens werden beim Tippen gezählt


FAQ

Was ist der Unterschied zwischen Zeichen und Tokens?
Zeichen sind einzelne Buchstaben. Tokens sind Wortbausteine, die das Modell intern verarbeitet — im Schnitt ~3,5 Zeichen pro Token im Deutschen, ~4 im Englischen.

Wie zähle ich Tokens für GPT-4?
Modell „GPT-4" im Dropdown wählen, Text einfügen — der Token Counter zeigt die exakte Anzahl sofort.

Kann ich Tokens für Claude zählen?
Anthropic veröffentlicht den Claude-Tokenizer nicht. Wir zeigen eine Schätzung (~3,5 Zeichen/Token) mit ±10–20 % Genauigkeit.

Wie viele Tokens sind 1.000 Wörter?
Englisch: ~1.300–1.400 Tokens. Deutsch: ~1.400–1.700 Tokens.

Was kostet 1.000 Tokens bei GPT-4o?
Aktuell ca. 0,0025 $ Input / 0,01 $ Output.