Tokenisierung: Zwei Bedeutungen, ein Grundprinzip

Tokenisierung taucht in zwei völlig unterschiedlichen Kontexten auf – KI-Datenverarbeitung und Datensicherheit – und meint in beiden Fällen dasselbe Grundprinzip: Informationen werden in handhabbare Einheiten zerlegt oder ersetzt. Wer mit Sprachmodellen, Computer Vision oder dem Schutz sensibler Daten arbeitet, begegnet dem Begriff regelmäßig. Der Unterschied liegt im Ziel: Vorverarbeitung für Modelle auf der einen Seite, Schutz sensibler Werte auf der anderen.

Was ist Tokenisierung?

Tokenisierung bezeichnet den Prozess, Rohdaten oder sensible Informationen in kleinere Einheiten – sogenannte Tokens – zu überführen. Im KI-Kontext sind das Verarbeitungseinheiten für Modelle; im Sicherheitskontext sind es nicht sensible Platzhalter für schützenswerte Daten. Ultralytics beschreibt Tokenisierung als Brücke in der Datenvorverarbeitungs-Pipeline: Ohne diesen Schritt lassen sich Muster und Kontext in großen Datensätzen nicht verarbeiten oder erlernen. IBM definiert die sicherheitsorientierte Variante als Prozess, bei dem sensible Daten durch einen digitalen Ersatz ersetzt werden, der auf das Original zurückgeführt werden kann.

Wie funktioniert Tokenisierung in der KI?

Der Ablauf hängt von der Datenmodalität ab.

Text (NLP): Frühe Ansätze trennten Wörter über Leerzeichen und entfernten Stoppwörter. Moderne Sprachmodelle nutzen Subwort-Algorithmen wie Byte Pair Encoding (BPE) oder WordPiece. Dabei werden häufig vorkommende Zeichenpaare iterativ zu Untereinheiten zusammengeführt. Seltenere Wörter werden in bekannte Unterkomponenten zerlegt – etwa „Smartphones" in „smart" und „phones". Das schafft ein Gleichgewicht zwischen Vokabulargröße und der Fähigkeit, komplexe Sprache abzubilden.

Bilder (Computer Vision): Traditionelle Convolutional Neural Networks verarbeiten Pixel über gleitende Fenster. Vision Transformers (ViT) gehen anders vor: Sie zerlegen Bilder in feste Patches, zum Beispiel 16×16 Pixel. Diese Patches werden abgeflacht und linear projiziert, sodass sie als visuelle Token für Self-Attention-Mechanismen dienen. Globale Beziehungen im Bild lassen sich so ähnlich erlernen wie Sequenzbeziehungen in Sprachmodellen.

Tokens können anschließend in Einbettungen überführt werden – Vektordarstellungen, die semantische Bedeutung in numerischen Merkmalen abbilden.

Tokenisierung als Datenschutzmaßnahme

IBM beschreibt eine zweite, sicherheitsorientierte Bedeutung: Tokenisierung ersetzt sensible Daten durch eine nicht sensible Zeichenkette. Die Zuordnung zwischen Token und Originalwert wird in einem sicheren Token-Vault gespeichert. Ohne Zugriff auf diesen Vault sind die Tokens wertlos – sie enthalten keine sensiblen Inhalte.

Für die technische Umsetzung nennt IBM drei Kernkomponenten:

  • Token-Generator: Erzeugt Tokens über reversible kryptografische Funktionen, unidirektionale Funktionen oder Zufallszahlengeneratoren.
  •  
  • Token-Mapping: Ordnet Token und Originalwert über eine sichere Datenbank einander zu.
  •  
  • Token-Vault: Speichert die Zuordnung geschützt.

Zusätzlich unterscheidet IBM zwischen irreversiblen Tokens (häufig zur Anonymisierung) und reversiblen Tokens, bei denen eine Detokenisierung möglich ist. Ein weiteres Merkmal ist die Formatbeibehaltung: Tokens können das Format des Originals beibehalten – relevant etwa bei Kreditkartennummern.

Tokenisierung vs. Verschlüsselung

IBM grenzt beide Verfahren klar voneinander ab. Verschlüsselung wandelt Daten mit einem Schlüssel um und erfordert zur Nutzung eine Entschlüsselung. Tokenisierung ersetzt sensible Daten durch nicht sensible Zeichenfolgen – ohne mathematische Beziehung zwischen Token und Original, sofern kein Vault vorhanden ist. In der Praxis kommt Tokenisierung unter anderem beim Schutz personenbezogener Daten (PII) wie Passnummern oder Sozialversicherungsnummern zum Einsatz sowie im Zahlungsverkehr zum Schutz von Karteninhaberdaten. Dort wird zwischen High-Value-Token und Low-Value-Token unterschieden.

Fazit

Tokenisierung ist ein grundlegendes Konzept mit zwei klar getrennten Anwendungsfeldern. Im KI-Bereich macht sie Rohdaten für Modelle verarbeitbar – ob Text über BPE oder Bilder über Patch-Zerlegung. Im Sicherheitsbereich schützt sie sensible Werte, indem sie diese durch bedeutungslose Platzhalter ersetzt, deren Zuordnung nur im Vault zugänglich ist. Welche Bedeutung gemeint ist, ergibt sich immer aus dem Kontext.