Volltext-Downloads (blau) und Frontdoor-Views (grau)

Bayesian Hyperparameter Optimization - Relational and Scalable Surrogate Models for Hyperparameter Optimization Across Problem Instances

  • Machine learning is often confronted with the problem of learning prediction models on a set of observed data points. Given an expressive data set of the problem to solve, using powerful models and learning algorithms is only hindered by setting the right configurations for both. Unfortunately, the magnitude of the performance difference is large, which makes choosing right configurations an additional problem that is only solved by experienced practitioners. In this thesis, we will address the problem of hyperparameter optimization for machine learning and present ways to solve it. We firstly introduce the problem of supervised machine learning. We then discuss many examples of hyperparameter configurations that can be considered prior to learning the model. Afterwards, we introduce methods on finding the right configurations, especially those methods that work in the scheme of Bayesian optimization, which is a framework for optimizing black-box functions. Black-boxes are functions where for a given input one can only observe an output after running a costly procedure. Usually, in black-box optimization so-called surrogate models are learned to reconstruct the observations to then offer a prediction for unobserved configurations. Fortunately, recent outcomes show that transfering the knowledge across problems, for example by learning surrogates across different data sets being solved by the same model class, shows promising results. We tackle the problem of hyperparameter optimization in mainly two different ways. At first, we consider the problem of hyperparameter optimization as a recommendation problem, where we want to learn data set features as well as their interaction with the hyperparameter configurations as latent features in a factorization based approach. We build a surrogate model that is inspired by the complexity of neural networks as well as the ability to learn latent embeddings as in factorization machines. Secondly, as the amount of meta knowledge increases every day, surrogate models need to be scalable. We consider Gaussian processes, as they themselves are hyperparameter free and work very well in most hyperparameter optimization cases. Unfortunately, they are not scalable, as a matrix in the size of the number of data points has to be inverted for inference. We show various methods of simplifying a Gaussian process by using an ensemble of Gaussian process experts, which is much faster to learn due to its paralellization properties while still showing very competitive performance. We conclude the thesis by discussing the aspect of learning across problems in more detail than simply learning across different data sets. By learning hyperparameter performance across different models, we show that also model choice can be handled by the proposed algorithms. Additionally, we show that hyperparameter performance can even be transfered across different problem tasks, for example from classification to regression.
  • Maschinelles Lernen beschäftigt sich hauptsächlich damit, Modelle auf bereits observierten Daten zu lernen. Das einzige Hindernis - sofern aussagekräftige Daten gegeben sind - ist dabei ist üblicherweise die richtige Konfiguration des Modells und des Lernalgorithmusses zu finden. Leider hängt die Güte des gelernten Modells sehr von der gewählten Konfiguration ab, sodass diese Aufgabe üblicherweise von erfahrenen Anwendern bewältigt wird. In dieser Dissertation adressieren wir das Problem der Hyperparameteroptimierung im Maschinellen Lernen. Als Erstes geben wir eine Einführung in überwachtes Maschinelles Lernen und erörtern dabei Hyperparameter welche vor dem Lernprozess gewählt werden müssen. Danach beschreiben wir Methoden der Hyperparameteroptimierung, insbesondere solche die auf die Bayessche Optimierung beruhen, welches oft bei der Optimierung von Black-Box Funktionen angewandt wird. Eine Black-Box ist eine Funktion, die zu einem gegebenen Eingabe- einen festen Ausgabewert liefert, dessen Evaluation aber teuer ist. Um eine Black-Box zu optimieren werden üblicherweise sogenannte Surrogatmodelle auf den bisherigen Observationen gelernt, um dann für neue Konfigurationen eine Vorhersage zu tätigen. Glücklicherweise zeigen Arbeiten der jüngeren Vergangenheit, dass Wissen über die Performanz von einzelnen Hyperparameterkonfigurationen über Datensätze hinaus transferiert werden kann. Wir lösen das Problem der Hyperparameteroptimierung auf zwei Weisen. Zunächst verstehen wir es als ein Empfehlungssystem, wo wir für jede kategorische Variable, wie z.B. dem Datensatz, latente Charakteristiken von Datensätzen und Hyperparametern in einem Faktorisierungsmodell lernen. Dazu schlagen wir ein Surrogatmodell vor, welches die Komplexität von neuronalen Netzen besitzt, aber dennoch latente Charakteristiken lernen kann wie in einer Faktorisierungsmaschine. Weiterhin befassen wir uns mit dem Problem der Skalierbarkeit von Surrogatmodellen, da prinzipiell die Menge an Metawissen jeden Tag beständig wächst. Wir nutzen Gauss-Prozesse, da diese selbst keine Hyperparameter besitzen, bzw. diese gelernt werden können. Leider sind Gauss-Prozesse nicht skalierbar, da bei der Inferenz eine Matrix in der Größe des Datensatzes invertiert werden muss. Wir schlagen daher vor, den Gauss-Prozess als Produkt von einzelnen Gauss-Prozessen, sogenannten Experten, zu lernen, was aufgrund der Parallelisierbarkeit viel schneller möglich ist und besser skaliert. Abschliessend betrachten wir das Problem des Lernens über Problemaspekte genauer, indem wir beispielsweise zeigen, dass unsere Surrogatmodelle auch dafür genutzt werden können um automatische Modellwahl durchzuführen. Darüber hinaus zeigen wir, dass Hyperparameterperformanz auch über verschiedene Aufgabenstellungen gelernt werden kann, beispielsweise von der Klassifikation zur Regression.

Download full text files

Export metadata

Additional Services

Share in Twitter    Search Google Scholar    frontdoor_oas
Metadaten
Author:Nicolas Schilling
URN:https://nbn-resolving.org/urn:nbn:de:gbv:hil2-opus4-9722
DOI:https://doi.org/10.25528/016
Referee:Frank Hutter
Advisor:Lars Schmidt-Thieme
Document Type:Doctoral Thesis
Language:English
Year of Completion:2018
Publishing Institution:Stiftung Universität Hildesheim
Granting Institution:Universität Hildesheim, Fachbereich IV
Date of final exam:2019/03/12
Release Date:2019/10/28
Tag:Machine Learning, Hyperparameter Optimization
Page Number:172
Institutes:Fachbereich IV
DDC classes:000 Allgemeines, Informatik, Informationswissenschaft / 000 Allgemeines, Wissenschaft / 005 Computerprogrammierung, Programme, Daten
Licence (German):License LogoCreative Commons - Namensnennung - Nicht kommerziell - Keine Bearbeitungen 4.0