Classification and Discrimination in Models for Ordered Data

Katzur, Alexander Florian; Kamps, Udo (Thesis advisor); Cramer, Erhard (Thesis advisor); Richter, Wolf-Dieter (Thesis advisor)

Aachen / Publikationsserver der RWTH Aachen University (2015) [Doktorarbeit]

Seite(n): IV, 233 S. : Ill., graph. Darst.

Kurzfassung

Seit R. A. Fisher im Jahr 1936 die Diskriminanzfunktion zur Unterscheidung dreier Spezies von Iris eingeführt hat, ist die Theorie der Klassifizierung und Diskrimination vielfach in der wissenschaftlichen Literatur behandelt worden. Das Ziel von Diskrimination ist es, Objekte mit unterschiedlicher Klassenzugehörigkeit zu separieren und das von Klassifizierung, Objekte mit unbekannter Klassenzugehörigkeit ihrer jeweiligen Klasse zuzuordnen. Dazu wird vorausgesetzt, dass die Anzahl verschiedener Klassen bekannt ist, und dass jedes Objekt einen zugehörigen Vektor von Charakteristika besitzt. In der Wahrscheinlichkeitstheorie nimmt man nun an, dass jeder Klasse eine (multivariate) Verteilung unterliegt, der die Vektoren von Charakteristika der Objekte aus dieser Klasse folgen. Diese Annahme erlaubt es, die Güte der Diskriminations- und Klassifikationsmethoden anhand der erwarteten Kosten einer Entscheidung oder anhand der Fehlklassifikationswahrscheinlichkeit zu messen. In dieser Arbeit wird der Fall von zwei Klassen betrachtet. Die Klassifikationsmethode, welche die erwarteten Kosten minimiert, ist die Bayes-Methode und die zugehörige Diskriminanzfunktion, die die beiden Klassen separiert, ist der Quotient der zugrunde liegenden Wahrscheinlichkeitsdichten. In dieser Arbeit werden Methoden der Diskrimination und der Klassifikation auf Modelle geordneter Daten, im Speziellen auf Sequentielle Ordnungsstatistiken (SOSen) mit bekannter zugrunde liegender Verteilung, angewandt. Die vorliegenden Resultate können auch als Ergebnisse für verallgemeinerte Ordnungsstatistiken und für Pfeifer Rekorde mit bekannter zugrunde liegender Verteilung interpretiert werden. Anhand dieser Modelle geordneter Daten lassen sich z.B. Komponentenausfälle in Maschinen und Rekorde im Sport modellieren. In der Arbeit wird häufig die Exponentialfamilienstruktur der Verteilung der ersten r SOSen verwendet, weshalb viele Ergebnisse zunächst für Exponentialfamilien formuliert und dann auf SOSen übertragen werden. An einigen Stellen liefern spezielle Eigenschaften der SOSen weiterführende Resultate. So werden z.B. die Bayes-Methode und deren erwartete Kosten für den Fall von Exponentialfamilien untersucht, und im Falle von SOSen wird eine explizite Berechnungsformel dieser erwarteten Kosten angegeben, welche auf der Hypoexponentialverteilung basiert. Im Falle unbekannter a-priori Klassenwahrscheinlichkeiten wird die Minimax-Methode betrachtet, und es werden auf Divergenzmaßen basierende Klassifikationsmethoden eingeführt und untersucht. Diese Methoden erlauben im Modell der SOSen einige interessante Resultate. Zudem wird eine Simulationsstudie zur Analyse der allgemeinen Performance dieser Methoden durchgeführt. Für den Fall, dass jeder Klasse nicht nur eine Verteilung, sondern eine ganze Klasse von Verteilungen zugrunde liegt die einen linksseitigen Kullback-Leibler Ball bilden, wird eine Klassifikationsmethode vorgeschlagen. In diesem Zusammenhang werden auch minimal umschließende Kullback-Leibler Bälle von einer endlichen Menge von Verteilungen aus derselben Exponentialfamilie untersucht. Im speziellen Fall von SOSen werden verschiedene Illustrationen und eine Simulationsstudie zur Bewertung der Methode bereitgestellt. Es wird zudem eine interessante Korrespondenz zwischen minimal umschließenden Kullback-Leibler Bällen und einer verallgemeinerten Chernoff-Information bewiesen. Für den Fall unbekannter Parameter in den Verteilungen, die den Klassen zugrunde liegen, wird die Bayes Methode mit eingesetzten Maximum Likelihood Schätzern untersucht. Im Falle von SOSen können gewisse Vorabinformationen über die unbekannten Parameter zur Modifikation dieser Klassifikationsmethode verwendet werden. Diese Modifikationen werden auch anhand einer Simulationsstudie untersucht. Es wird weiterhin das Clustern von bisher unklassifizierten Objekten behandelt. Ergebnisse zu Clustermethoden für Exponentialfamilien finden sich häufig in der Informatik, z.B. bei Methoden in der Sprach- oder Bilderkennung. Es werden einige bekannte Resultate auf den Fall von SOSen übertragen und eine agglomerative hierarchische Clustermethode vorgestellt. Zudem wird der Mixture Maximum Likelihood Ansatz kurz diskutiert. Weiterhin werden einige Tests auf Klassenzugehörigkeiten vorgestellt. Die vorliegende Arbeit beinhaltet auch ein Ergebnis über die Quantile von Gammaverteilungen, sowie einen interessanten Zusammenhang zwischen SOSen und einem Teilmodell der multivariaten Normalverteilung.

Identifikationsnummern

  • URN: urn:nbn:de:hbz:82-rwth-2015-020331
  • REPORT NUMBER: RWTH-2015-02033