Overfitting und Underfitting: Fehlanpassungen im ML-Training erkennen und beheben

Wer Machine-Learning-Modelle trainiert, stößt früher oder später auf zwei grundlegende Diagnosen: Overfitting und Underfitting. Beide beschreiben, wie gut ein Modell gelernte Muster auf neue, unbekannte Daten übertragen kann – die sogenannte Generalisierungsleistung. Fällt diese zu gering aus, liefert das Modell im Produktiveinsatz unzuverlässige Ergebnisse. Für Data-Science-Teams sind beide Phänomene deshalb zentrale Prüfpunkte im Entwicklungsprozess.

‍

Was sind Overfitting und Underfitting?

Overfitting tritt auf, wenn ein Modell die Trainingsdaten zu stark anpasst. Es lernt dabei nicht nur die tatsächlich relevanten Strukturen, sondern auch zufälliges Rauschen oder spezifische Eigenheiten einzelner Trainingsbeispiele. Das Ergebnis: Der Trainingsfehler ist sehr niedrig, während der Fehler auf Validierungs- oder Testdaten deutlich ansteigt.

Underfitting ist das Gegenstück. Das Modell ist zu einfach oder zu wenig flexibel, um die relevanten Zusammenhänge in den Daten zu erfassen. Die Leistung bleibt sowohl im Training als auch auf Test- und Validierungsdaten durchgehend schlecht.

Wie erkennst du Overfitting und Underfitting?

Lernkurven sind ein zentrales Diagnosewerkzeug. Bei Overfitting sinkt die Trainingsfehler-Kurve stark ab, während die Validierungsfehlerkurve stagniert oder sogar steigt. Eine Kreuzvalidierung kann zusätzlich stark schwankende Ergebnisse über verschiedene Datensplits liefern – ein weiteres Warnsignal.

Bei Underfitting zeigen Lernkurven keine ausreichende Verbesserung auf beiden Datensätzen. In den Residuen lassen sich zudem systematische Muster erkennen, was darauf hindeutet, dass das Modell grundlegende Beziehungen im Datensatz nicht ausreichend abbildet.

Die Abgrenzung ist damit klar: Overfitting erzeugt eine große Lücke zwischen Trainings- und Testleistung. Underfitting fällt durch durchgehend schlechte Leistung auf beiden Datensätzen auf.

Ursachen im Überblick

Die Ursachen beider Fehlanpassungen unterscheiden sich deutlich.

Ursachen für Overfitting:

Modellkomplexität passt nicht zum Umfang oder zur Qualität der Daten (zu viele Parameter, zu tiefe Modellstrukturen)
Kleine oder nicht repräsentative Trainingsdaten
Rauschen, Fehler oder Inkonsistenzen in den Daten, die das Modell als bedeutsame Muster aufnimmt
Hohe Varianz: Modelle mit hoher Anpassungsfähigkeit reagieren laut IBM stark auf Schwankungen im Trainingsdatensatz

Ursachen für Underfittin

Zu starke Vereinfachung der Modellannahmen (hoher Bias)
Unzureichende Merkmalsaufbereitung, etwa fehlendes Feature Engineering
Schlechte Feature-Auswahl, z. B. das Weglassen relevanter Interaktionen oder polynomieller Terme
Übermäßige Regularisierung, die die Modellflexibilität zu stark einschränkt
Zu wenig Trainingszeit oder unzureichende Datenmenge

Gegenmaßnahmen in der Praxis

Beide Probleme lassen sich durch gezieltes Anpassen von Modell- und Trainingsparametern adressieren.

Gegen Overfitting kommen folgende Methoden zum Einsatz: Regularisierung (L1/L2), Dropout, Datenaugmentation, Early Stopping, Cross-Validation sowie eine Reduktion der Modellkomplexität.

Underfitting wird durch eine Erweiterung der Modellfähigkeit, besseres Feature Engineering und eine Reduktion zu restriktiver Regularisierung behoben. Auch eine längere Trainingsdauer und mehr verfügbare Daten können die Leistung verbessern.

Als übergreifende Maßnahme beschreiben Quellen das Hyperparameter-Tuning: Ziel ist es, weder zu rigide noch zu flexible Einstellungen zu wählen, um eine robuste Generalisierung zu erreichen.

Praxisbeispiele und Anwendungsfälle

In der Praxis treten Overfitting und Underfitting in vielen Bereichen des Machine Learning auf. Ein klassisches Beispiel für Overfitting ist ein sehr tiefes neuronales Netz, das die Trainingsdaten nahezu auswendig lernt, im Live-Betrieb aber bei neuen Eingaben deutlich schlechter abschneidet. Auch Entscheidungsbäume ohne Begrenzung der Tiefe neigen dazu, Trainingsdaten zu stark zu memorieren.

Underfitting zeigt sich häufig bei zu einfachen Modellen, etwa wenn eine lineare Regression komplexe nichtlineare Zusammenhänge abbilden soll. Ebenso kann ein Modell unterfitten, wenn wichtige Merkmale fehlen oder zu aggressiv regularisiert wurde.

Typische Anwendungsfälle sind:

Bildklassifikation, bei der zu wenige Trainingsbilder zu Overfitting führen können
Prognosemodelle im Finanz- oder Sales-Bereich, die bei unzureichendem Feature Engineering underfitten
Textklassifikation, bei der überkomplexe Modelle auf kleine Datensätze überangepasst reagieren

Tools und Anbieter

Zur Erkennung und Vermeidung von Overfitting und Underfitting kommen in der Praxis verschiedene Tools und Plattformen zum Einsatz. Viele gängige ML-Frameworks bieten Funktionen für Cross-Validation, Regularisierung und Modellanalyse bereits nativ an.

Zu den verbreiteten Werkzeugen gehören:

scikit-learn für klassische Machine-Learning-Workflows, Modellvalidierung und Hyperparameter-Tuning
TensorFlow und PyTorch für Deep-Learning-Modelle mit Early Stopping, Dropout und Regularisierung
Jupyter Notebooks für experimentelle Modellanalyse und Visualisierung von Lernkurven
MLflow oder vergleichbare MLOps-Plattformen für das Tracking von Experimenten und Modellversionen

Auch große Anbieter wie Google, AWS, Microsoft oder IBM stellen ML-Services und AutoML-Funktionen bereit, die bei der Modellbewertung und beim Tuning unterstützen.

Fazit

Overfitting und Underfitting sind zwei der häufigsten Diagnosen im Data-Science-Workflow. Overfitting zeigt sich durch eine starke Diskrepanz zwischen Trainings- und Testleistung; Underfitting durch durchgehend schwache Ergebnisse auf beiden Datensätzen. Wer beide Muster frühzeitig erkennt und die richtigen Gegenmaßnahmen einsetzt, legt die Grundlage für KI-Modelle, die auch auf unbekannten Daten zuverlässig funktionieren.