Genauigkeit (Accuracy) in KI-Modellen: Definition, Grenzen und sinnvolle Ergänzungen

Accuracy ist die am häufigsten verwendete Kennzahl, um die Qualität eines KI-Klassifikationsmodells auf einen Blick zu beurteilen. Sie gibt an, welcher Anteil aller Vorhersagen eines Modells korrekt ist – berechnet als Verhältnis richtiger Vorhersagen zur Gesamtzahl der betrachteten Fälle. Gerade beim Vergleich verschiedener Modellvarianten oder Algorithmen liefert sie einen schnellen Orientierungswert. Wer jedoch nur auf die Accuracy schaut, riskiert in bestimmten Datenkonstellationen Fehleinschätzungen.

‍

Was ist Genauigkeit (Accuracy)?

Accuracy beschreibt den prozentualen Anteil korrekter Vorhersagen eines Klassifikationsmodells. Die Formel lautet: richtige Vorhersagen geteilt durch die Gesamtzahl der Fälle. Bei 100 Fällen und 90 korrekten Ergebnissen beträgt die Accuracy 90 %. Im Klassifikationskontext gilt eine Vorhersage als korrekt, wenn das Modell die richtige Klasse ausgewählt hat. Die Kennzahl ist gut kommunizierbar und eignet sich als Einstiegsmessgröße in der Evaluationsphase.

Wie funktioniert Accuracy in der Praxis?

Accuracy wird typischerweise auf einem Testdatensatz berechnet, der vom Trainingsdatensatz getrennt ist. Das Modell trifft für jeden Fall eine Vorhersage; anschließend wird gezählt, wie viele davon mit dem tatsächlichen Label übereinstimmen. Das Ergebnis lässt sich direkt nutzen, um verschiedene Modelle oder Algorithmusansätze miteinander zu vergleichen. Für eine erste Einschätzung der Modellleistung reicht diese Berechnung oft aus.

Grenzen der Accuracy: Worauf du achten solltest

Die Accuracy kann bei unausgewogenen Datensätzen (Imbalanced Datasets) ein verzerrtes Bild liefern. Ein konkretes Beispiel verdeutlicht das Problem: Enthält ein Datensatz 95 Fälle der Klasse „gesund" und nur 5 Fälle der Klasse „krank", erzielt ein Modell, das ausnahmslos „gesund" vorhersagt, eine Accuracy von 95 %. Dabei erkennt es keinen einzigen „krank"-Fall korrekt. In stark schiefen Domänen – etwa in der Medizin oder bei autonomen Systemen – kann die Accuracy damit systematisch in die Irre führen.

Zusätzlich hängt die Höhe der Accuracy von mehreren weiteren Faktoren ab

Datenqualität und Datenauswahl: Fehlerhafte oder schlecht gewählte Trainings- und Testdaten verzerren die Kennzahl.
Modellkomplexität: Ein zu einfaches Modell erfasst relevante Muster nicht ausreichend; ein zu komplexes Modell neigt zu Overfitting.
Hyperparameter-Einstellungen: Lernrate und Regularisierung beeinflussen das Ergebnis direkt.
Testumgebung: Bei neuen oder unbekannten Daten kann die Leistung gegenüber dem bisherigen Test abweichen.

Ergänzende Metriken zur Accuracy

Weil Accuracy allein bei unbalancierten Daten zu kurz greift, empfiehlt sich die Kombination mit weiteren Metriken

Precision: Anteil der tatsächlich positiven Fälle unter allen vom Modell als positiv klassifizierten Fällen – bewertet die Qualität positiver Vorhersagen.
Recall: Anteil der tatsächlich positiven Fälle, die das Modell korrekt erkennt – bewertet die Abdeckung relevanter Positiver.
F1-Score: Harmonisches Mittel aus Precision und Recall; liefert eine ausgewogene Gesamtbewertung beider Größen.
ROC-AUC: Bewertet die Trennfähigkeit eines Modells über verschiedene Entscheidungsschwellenwerte hinweg.

Diese Metriken berücksichtigen unterschiedliche Arten von Fehlklassifikationen und ergänzen die Accuracy dort, wo sie allein nicht ausreicht.

Fazit

Accuracy ist eine grundlegende, leicht verständliche Kennzahl für die Bewertung von KI-Klassifikationsmodellen. Sie eignet sich gut für den schnellen Modellvergleich und die Kommunikation von Ergebnissen. Bei unausgewogenen Datensätzen oder in sensiblen Anwendungsbereichen wie der Medizin sollte sie jedoch durch Precision, Recall, F1-Score oder ROC-AUC ergänzt werden, um ein vollständiges Bild der tatsächlichen Modellleistung zu erhalten.