Adaptive subspace methods for high-dimensional variable selection

Staerk, Christian; Kateri, Maria (Thesis advisor); Ntzoufras, Ioannis (Thesis advisor); Cramer, Erhard (Thesis advisor)

Aachen (2018)
Doktorarbeit

Kurzfassung

Rasante Entwicklungen in der Informationstechnologie, der Genomforschung und weiteren Gebieten haben dazu geführt, dass heutzutage oftmals hoch-dimensionale Daten beobachtet werden, bei denen die Anzahl der Variablen wesentlich größer ist als die Anzahl der Beobachtungen. In solchen Situationen ist man insbesondere an der Selektion von erklärenden Variablen interessiert, um ein Modell mit möglichst wenigen Variablen zu finden, welches die beobachteten Daten gut beschreibt. Diese Arbeit handelt von dem Problem der Variablenselektion im Rahmen von hoch-dimensionalen generalisierten linearen Modellen (GLM). Viele Variablenselektionsmethoden wie das Lasso-Verfahren basieren auf der Lösung von $\ell_1$-regularisierten, konvexen Relaxierungen des ursprünglichen Problems. Eine wichtige Motivation für diese Arbeit ist es hingegen, Lösungen zu $\ell_0$-regularisierten, diskreten Problemen zu finden, die etwa von Modellselektionskriterien wie dem Extended Bayesian Information Criterion (EBIC) induziert werden und im Allgemeinen NP-schwer sind. Zu diesem Zweck wird die Adaptive Subspace (AdaSub) Methode vorgestellt, welche auf der Idee basiert, mehrere niedrig-dimensionale Teilprobleme des ursprünglich hoch-dimensionalen Problems adaptiv zu lösen. AdaSub ist ein stochastisches Verfahren, in welchem die individuellen Wahrscheinlichkeiten, mit denen die jeweiligen Variablen berücksichtigt werden, gemäß der jeweils aktuell geschätzten "Bedeutsamkeit" adjustiert werden. Es wird gezeigt, dass die Adaption des Verfahrens Bayesianisch motiviert werden kann, und dass die Methode "korrekt" gegen das beste Modell bezüglich des verwendeten Kriteriums konvergiert, sofern die sogenannte Ordered Importance Property (OIP) erfüllt ist. Des Weiteren wird die Variablenselektions-Konsistenz von AdaSub unter geeigneten Bedingungen bewiesen. Da für nichtlineare Regressionsmodelle die Lösung der Teilprobleme in AdaSub oftmals zu rechenintensiv ist, werden Varianten von AdaSub eingeführt, die die Teilprobleme mithilfe von Greedy-Verfahren approximativ lösen. Es wird sich herausstellen, dass BackAdaSub, eine Variante basierend auf schrittweiser Rückwärts-Selektion, in vielen Fällen als effizienter "Ersatz-Algorithmus" für AdaSub verwendet werden kann. Es wird gezeigt, dass die Modified Ordered Importance Propoperty (MOIP) eine hinreichende Bedingung für die "korrekte Konvergenz" von BackAdaSub ist, die jedoch eine stärkere Forderung darstellt als die ursprüngliche OIP. Die Performance von AdaSub und BackAdaSub im Vergleich zu anderen bekannten Verfahren wie Lasso, Adaptive Lasso, SCAD und Stability Selection wird anhand von vielfältigen simulierten und realen Datensätzen im Rahmen von linearen und logistischen Regressionsmodellen untersucht. Schließlich wird der sogenannte Metropolized AdaSub (MAdaSub) Algorithmus vorgestellt, um in einem Bayesianischen Kontext aus Posteriori-Modell-Verteilungen zu simulieren. MAdaSub stellt ein adaptives Markov Chain Monte Carlo (MCMC) Verfahren dar, welches die Verteilungen der vorgeschlagenen Modelle ("proposals") basierend auf Informationen von vorherigen Iterationen sequentiell adjustiert. Trotz der kontinuierlichen Adaption des Verfahrens kann gezeigt werden, dass der MAdaSub Algorithmus ergodisch ist, sodass MAdaSub "im Grenzfall" aus der korrekten Zielverteilung simuliert. Anhand von simulierten und realen Datensätzen wird demonstriert, dass MAdaSub selbst für hoch-dimensionale und multimodale Verteilungen stabile Schätzungen von marginalen Posteriori-Inklusionswahrscheinlichkeiten liefern kann.

Identifikationsnummern