Hyperparameter in Machine Learning: Definition, Typen & Tuning-Methoden

Hyperparameter steuern, wie ein Machine-Learning-Modell trainiert wird – bevor das Training überhaupt beginnt. Anders als Modellparameter, etwa Gewichte oder Bias-Terme in neuronalen Netzen, werden sie nicht aus den Trainingsdaten gelernt. Data Scientists legen sie vorab fest, um Lernstrategie, Architektur und Regularisierung zu kontrollieren. Die Wahl der richtigen Hyperparameter entscheidet maßgeblich darüber, wie genau und stabil ein Modell auf neuen Daten arbeitet.

‍

Was sind Hyperparameter?

Hyperparameter sind Konfigurationsgrößen, die vor dem Trainingsbeginn eines ML-Modells definiert werden. Sie legen die Bedingungen fest, unter denen das Modell lernt. Modellparameter hingegen – wie Gewichte in neuronalen Netzen – entstehen erst während des Trainings aus den Daten. Hyperparameter bleiben in diesem Prozess unverändert; sie sind Steuergrößen, keine Lernergebnisse.

Welche Typen von Hyperparametern gibt es?

Je nach Modelltyp lassen sich mehrere Gruppen unterscheiden:

Architektur-Hyperparameter betreffen den strukturellen Aufbau eines Modells, zum Beispiel die Anzahl der Schichten in einem neuronalen Netzwerk oder die Anzahl der Neuronen pro Schicht.

Optimierungs-Hyperparameter steuern den Lernprozess selbst. Die Lernrate legt fest, wie stark Gewichte bei jedem Trainingsschritt angepasst werden. Die Batchgröße bestimmt, wie viele Beispiele pro Durchlauf verarbeitet werden.

Regularisierungs-Hyperparameter kontrollieren die Modellkapazität. Dropout-Raten wirken Overfitting entgegen. L1- und L2-Regularisierung ergänzen Strafterme für große Gewichtswerte. Zu wenig Regularisierung führt dazu, dass das Modell zu stark auf Trainingsdaten reagiert; zu viel Regularisierung lässt relevante Zusammenhänge unberücksichtigt.

Feature-bezogene Hyperparameter betreffen die Anzahl und Auswahl der Eingabemerkmale, die die Datenbasis für das Training definieren.

Praxisbeispiele und Anwendungsfälle

Die Bandbreite an Hyperparametern variiert je nach Algorithmus erheblich. Bei neuronalen Netzen ist die Lernrate ein zentraler Hyperparameter. Bei Support-Vector-Machines spielt die Kernelgröße eine vergleichbare Rolle. Für XGBoost zählen learning_rate, n_estimators (auch num_boost_rounds), max_depth, min_child_weight und subsample zu den besonders relevanten Stellgrößen. Diese Beispiele zeigen, dass Hyperparameter je nach Algorithmus unterschiedliche Funktionen übernehmen.

Wie funktioniert Hyperparameter-Tuning?

Hyperparameter-Tuning – auch Hyperparameter-Optimierung genannt – bezeichnet den Prozess, geeignete Hyperparameter-Werte systematisch zu identifizieren. Das Vorgehen ist experimentell: In iterativen Schritten werden verschiedene Kombinationen getestet und anhand einer Zielfunktion bewertet, etwa durch Minimierung der Verlustfunktion. Die Ergebnisse werden typischerweise per Cross-Validation geprüft, um die Verallgemeinerbarkeit auf neue Datensätze sicherzustellen.

Für das Tuning stehen mehrere Methoden zur Verfügung:

Grid Search: Jede mögliche Hyperparameter-Kombination wird systematisch getestet.
Randomized Search: Statt diskreter Werte werden statistische Verteilungen genutzt, um Kombinationen stichprobenartig zu prüfen.
Bayesian Optimization: Die Auswahl der nächsten Testkombination erfolgt sequentiell über ein modellbasiertes Verfahren.
AutoML: Automatisierte Ansätze übernehmen den Tuning-Prozess ohne manuelle Eingriffe.

Gut gewählte Hyperparameter helfen dabei, den Zielkonflikt zwischen Unteranpassung (Bias) und Überanpassung (Varianz) auszubalancieren.

Fazit

Hyperparameter sind keine Nebengrößen im ML-Prozess – sie bestimmen, unter welchen Bedingungen ein Modell lernt und wie gut es auf unbekannte Daten generalisiert. Durch strukturiertes Hyperparameter-Tuning lassen sich Modellleistung und Stabilität gezielt verbessern. Methoden wie Grid Search, Randomized Search oder Bayesian Optimization bieten dafür unterschiedlich aufwändige, aber systematische Wege.