Association in contingency tables : an informationtheoretic approach

Espendiller, Michael; Kateri, Maria (Thesis advisor); Kamps, Udo (Thesis advisor)

Aachen (2017)
Doktorarbeit

Kurzfassung

Diese Dissertation behandelt eines der zentralen Probleme der kategorialen Datenanalyse: Die Assoziationsmessung zwischen kategorialen Variablen in zweidimensionalen Kontingenztabellen. Solche Tabellen tauchen in vielen verschiedenen Forschungsbereichen wie den Sozialwissenschaften, der Ökonomie und der Biomedizin auf. Obwohl eine sorgfältige und informationshaltigere Analyse durch entsprechende Modelle bereitgestellt wird und diese eine grundlegende und flexible Methode darstellen, benötigt ihre Implementation und Interpretation oft fortgeschrittene Modellanpassungsprozeduren und statistische Softwarekenntnisse, die zu komplex für Anwender sein können. Assoziationsmaße bieten eine geeignete Alternative, die eine schnelle Identifikation und Quantifizierung der zugrundeliegenden Assoziationsstruktur liefert. Maße sind einfach zu verstehen und zu interpretieren. Daher ist die Konzeption von Assoziationsmaßen und die Entwicklung der entsprechenden Inferenzmethoden eine wichtige Aufgabe in der Kontingenztabellenanalyse. Diese Arbeit entwickelt neue Assoziationsmaße für 2 x 2 Tabellen basierend auf der phi-Divergenz, indem das wichtigste Assoziationsmaß, das Odds Ratio, verallgemeinert wird. Der angewandte Ansatz wird durch eine intensive Studie der Stetigkeitskorrektur und Konfidenzintervallkonstruktionstechniken motiviert, die das Problem der Sampling Zeros, d.h. Zellen mit beobachteter Häufigkeit Null, behandeln. Sampling Zeros können zu unendlichen Schätzungen für das log-Odds Ratio führen und verhindern wegen unendlicher Varianzschätzung die Anwendung asymptotischer Inferenzmethoden. Das neu eingeführte Maß, das phi-skalierte Odds Ratio, zielt darauf ab, diese Nachteile durch einen phi-Divergenz induzierten Skalenwechsel zu lösen. Ein Skalenwechsel kann die Kompatibilität mit Sampling Zeros verbessern und erhöht -- in einigen Szenarien -- die Qualität der Wald Konfidenzintervalle für die phi-skalierten Odds Ratios im Bezug auf die Überdeckungswahrscheinlichkeit und durchschnittliche Relativlänge.Skalare Maße in I x J Tabellen können oft zu Fehlschlüssen führen, wenn die Assoziationsstruktur komplexer ist und nicht mit einer einzigen Zahl beschrieben werden kann. Die klassischen generalisierten Odds Ratios sind auf natürliche Art mit den Parametern von Assoziationsmodellen verknüpft. Diese enge Verbindung wird zur Konstruktion neuer Assoziationsmaße genutzt. Diese Maße sind informativer, da sie die erhöhte Sensibilität von Modellen erben und daher mehr Möglichkeiten bieten um Assoziationsstrukturen abzudecken ohne die einfache Interpretierbarkeit zu verlieren. Closed-form Schätzer für diese modellbasierten Maße werden eingeführt, welche nah an den Maximumlikelihoodschätzern liegen, die wiederum iterative berechnen werden müssen. Ein Skalenwechsel kann zu adäquateren Maßen führen. Daher wird der modellbasierte Ansatz durch die Nutzung der phi-Divergenz erweitert, indem neue generalisierte phi-skalierte Odds Ratios für I x J Tabellen bereitgestellt und studiert werden. Diese sind mit neuen phi-skalierten Assoziationsmodellen, den generalisierten phi-linearen Modellen, verknüpft und bieten daher eine phi-skalierte Erweiterung der modellbasierten Maße, für welche ebenfalls closed-form Schätzer entwickelt werden. Quadratische I x I Tabellen mit kommensurabelen Klassifikationsvariablen sind von besonderer Bedeutung z.B. in sozialen Mobilitätsstudien, um die Durchlässigkeit von ökonomischen System zu bewerten. Solche Tabellen können mit Symmetriemodellen analysiert werden. Die bereits existierenden phi-skalierten Symmetriemodelle bilden die Basis zur Entwicklung von phi-skalierten Asymmetriemaßen. Damit wird eine neue Familie gerichteter Asymmetriemaße eingeführt, zusammen mit neuen phi-skalierten Versionen der Standardsymmetrietests von McNemar und Bowker. Der Hauptbeitrag dieser Arbeit ist die Erkundung und Signalisierung der großen Flexibilität der phi-divergenzbasierten Maße für kategoriale Daten, die den Weg für weitere Forschung bereitet, z.B. für mehrdimensionale Kontingenztafeln mit kleinen Stichprobengrößen, die natürlicherweise mit Sampling Zeros konfrontiert sind.

Identifikationsnummern