Tokenizer – Token Counter für GPT, Claude & Co.

The EU Commission provides a user-friendly platform for the online resolution of consumer disputes arising from the online sale of goods or the online provision of services (ODR platform). The ODR platform can be accessed at the following link: https://ec.europa.eu/consumers/odr.

Tokens
0
Zeichen
0

Was ist ein Tokenizer?

Ein Tokenizer zerlegt Text in Tokens — die kleinsten Einheiten, die ein Sprachmodell versteht. Ein Token kann ein ganzes Wort, eine Silbe, ein Satzzeichen oder ein einzelnes Byte sein. GPT-4, Claude, Gemini & Co. arbeiten nicht mit Zeichen oder Wörtern, sondern mit Tokens. Als Faustregel: 100 Tokens ≈ 75 englische Wörter ≈ 400 Zeichen. Im Deutschen liegt das Verhältnis wegen langer Komposita etwas niedriger.

Wofür brauche ich einen Token Counter?

Ein Token Counter ist bei der Arbeit mit LLMs unverzichtbar:

  • API-Kosten berechnen — OpenAI, Anthropic und Google rechnen pro Input- und Output-Token ab.
  • Context-Fenster einhalten — GPT-4o: 128K, Claude 3.5: 200K, Gemini 2.5: 1M Tokens.
  • Prompts optimieren — Wer seinen Prompt von 5.000 auf 3.000 Tokens kürzt, spart 40 % Kosten.
  • Fine-Tuning-Daten vorbereiten — beim Training zählt jeder Token.


Wie funktioniert Tokenization?

Moderne LLMs nutzen Subword-Tokenization auf Basis von Byte Pair Encoding (BPE). Häufige Zeichenfolgen werden zu einem Token zusammengefasst, seltene in kleinere Teile zerlegt.

Beispiele (GPT-4o):

  • Hallo Welt → 2 Tokens
  • indivisible → 1 Token
  • Donauschifffahrt → 4 Tokens
  • 🙏🏾 → mehrere Tokens (Emoji + Hautton-Modifier)


Unterstützte Modelle

Exakte Tokenization (OpenAI)

  • GPT-5.x, o1, o3 (o200k_base)
  • GPT-4o, GPT-4o-mini
  • GPT-4, GPT-4 Turbo, GPT-3.5-turbo (cl100k_base)
  • GPT-3 Legacy (p50k_base, r50k_base)


Schätzung (proprietäre Tokenizer)

  • Claude 3.5 / 3.7 / 4 (Sonnet, Opus, Haiku)
  • Gemini 1.5 / 2.0 / 2.5
  • Llama 3, 3.1, 3.3
  • Mistral, Mixtral
  • DeepSeek v3, R1
  • Qwen 2.5, 3
  • Grok 2, 3


Warum ein Tokenizer online im Browser?

  • Datenschutz — kein Upload, keine Server-Requests, alles läuft lokal
  • Kostenlos — kein Login, kein API-Key, kein Rate-Limit
  • Live — Tokens werden beim Tippen gezählt


FAQ

Was ist der Unterschied zwischen Zeichen und Tokens?
Zeichen sind einzelne Buchstaben. Tokens sind Wortbausteine, die das Modell intern verarbeitet — im Schnitt ~3,5 Zeichen pro Token im Deutschen, ~4 im Englischen.

Wie zähle ich Tokens für GPT-4?
Modell „GPT-4" im Dropdown wählen, Text einfügen — der Token Counter zeigt die exakte Anzahl sofort.

Kann ich Tokens für Claude zählen?
Anthropic veröffentlicht den Claude-Tokenizer nicht. Wir zeigen eine Schätzung (~3,5 Zeichen/Token) mit ±10–20 % Genauigkeit.

Wie viele Tokens sind 1.000 Wörter?
Englisch: ~1.300–1.400 Tokens. Deutsch: ~1.400–1.700 Tokens.

Was kostet 1.000 Tokens bei GPT-4o?
Aktuell ca. 0,0025 $ Input / 0,01 $ Output.