POPULARITY
Medizinische Fakultät - Digitale Hochschulschriften der LMU - Teil 17/19
Einleitung: Modell-basierte Vorhersagen für molekulare Netzwerke und zelluläre Interaktionen können durch zwei verschiedene Strategien der Systembiologie getroffen werden, die top-down und bottom-up Strategien. Die bottom-up Strategie beginnt bei a priori Wissen über einzelne Grundelemente und fügt diese zu größeren Einheiten wie Signalwegen oder ganzen Systemen zusammen. Top-down Strategien setzen bei Datensätzen eines Systems an und versuchen Netzwerke, Interaktionen oder Komponenten zu identifizieren, die für das Systemverhalten (z.B. Phänotyp) verantwortlich sind. Im Folgenden werden beide Strategien auf unterschiedliche Transkriptionsdaten angewendet und die Ergebnisse visualisiert. Beide Strategien können auf linearen Regressionsmodellen basieren. In dieser Arbeit werden lineare Regressionsmodelle höherer Ordnung mittels eines neuen visuellen Hilfsmittels, des Eruptionsdiagramms, verglichen. Methodik: Eruptionsdiagramme werden durch die Überlagerung zweier Vulkandiagramme erstellt. Beide Vulkandiagramme werden von derselben Datengrundlage generiert, stammen jedoch von zwei verschiedenen Modellen. Jedes Gen wird von einem Pfeil repräsentiert, welcher bei dem Punkt des Vulkandiagramms von Modell 1 startet und bei dem Punkt des Vulkandiagramms aus Modell 2 endet. Im Rahmen der Modellselektion können Eruptionsdiagramme als visuelles Hilfsmittel verwendet werden, um (ir)relevante Kovariaten, Störfaktoren und Effektmodifikation aufzudecken. Ergebnisse: Es werden zwei verschiedene Transkriptionsdatensätze analysiert: ein Maus-Infektionsdatensatz und ein humaner Asthmadatensatz. Für die Analyse des Infektionsdatensatzes werden verschiedene lineare Regressionsmodelle miteinander verglichen. Durch eine rückwärts-gewandte Modellselektionsstrategie wird gezeigt, dass durch die Infektionskovariaten erster Ordnung zusätzliche erklärende Kraft gewonnen wird. Durch das Eruptionsdiagramm werden Effekte zweiter Ordnung aufgedeckt. Ein Modellvergleich identifiziert die Kovariaten dritter Ordnung als Störfaktoren. Das Modell zweiter Ordnung, welches am besten zu den Daten passt, wird für die weiterführende Analyse verwendet. Die Ergebnisse der Interaktionskovariate werden in aggravating und alleviating Effekte unterteilt. Ein Interaktionseffekt ist alleviating (aggravating, neutral), falls der Effekt der kombinierten Kovariaten schwächer (stärker, identisch) als die Summe der individuellen Effekte dieser Kovariaten ist. Bei der bottom-up Analyse des Asthmadatensatzes werden die Daten nicht auf Einzelgenebene sondern auf Gengruppenebene analysiert. Zunächst wird das passende Regressionsmodell mit Hilfe des Eruptionsdiagramms aufgestellt. Der Einfluss der einzelnen Gene auf das globale Testergebnis der Gengruppen wird in diagnostischen Balkendiagrammen genauer untersucht. Eine Signalweganalyse der Gengruppen zeigt neue Biomarker und Signalwege für die Charakterisierung von allergischem und nicht-allergischem Asthma auf. Diskussion: Die Ergebnisse der Transkriptionsanalyse werden durch Anreicherungsanalysen auf ihre funktionelle Relevanz hin untersucht. Die Ergebnisse zeigten unterschiedliche funktionelle Eigenschaften der aggravating und alleviating Gene auf. Die Anreicherungsanalyse des Asthmadatensatzes der Gene, die von Störfaktoren beeinflusst werden und durch Effektmodifikation gekennzeichnet sind, weisen jedoch keine funktionellen Unterschiede auf.
Der folgende Beitrag befasst sich mit dem Problem der Modellselektion im Finite Mixture Partial Least Squares (FIMIX-PLS)-Ansatz. Dieser Ansatz, welcher der Methodengruppe der Mischverteilungsmodelle zuzuordnen ist, ermöglicht eine simultane Schätzung der Modellparameter bei gleichzeitiger Ermittlung von Heterogenität in der Datenstruktur. Ein wesentliches Problem bei der Anwendung ist die Bestimmung der Anzahl der zugrunde liegenden Segmente, welche a priori unbekannt ist. Neben diversen statistischen Testverfahren wird zur Handhabung dieser Modellselektionsproblematik häufig auf so genannte Informationskriterien zurückgegriffen. Ziel des vorliegenden Beitrags ist es herauszuarbeiten, welches Informationskriterium für die Modellselektion in FIMIX-PLS besonders geeignet ist. Hierzu wurde eine Simulationsstudie initiiert, welche die Performanz gebräuchlicher Kriterien vor dem Hintergrund diverser Einflussfaktoren untersucht. Im Rahmen der Studie konnte mit dem Consistent Akaike’s Information Criterion (CAIC) ein Kriterium identifiziert werden, das die übrigen Kriterien in nahezu allen Faktorstufenkombinationen dominiert.
Fakultät für Mathematik, Informatik und Statistik - Digitale Hochschulschriften der LMU - Teil 01/02
Die vorliegende Arbeit beschäftigt sich mit der statistischen Modellierung und Inferenz genetischer Netzwerke. Assoziationsstrukturen und wechselseitige Einflüsse sind ein wichtiges Thema in der Systembiologie. Genexpressionsdaten weisen eine hohe Dimensionalität auf, die geringen Stichprobenumfängen gegenübersteht ("small n, large p"). Die Analyse von Interaktionsstrukturen mit Hilfe graphischer Modelle ist demnach ein schlecht gestelltes (inverses) Problem, dessen Lösung Methoden zur Regularisierung erfordert. Ich schlage neuartige Schätzfunktionen für Kovarianzstrukturen und (partielle) Korrelationen vor. Diese basieren entweder auf Resampling-Verfahren oder auf Shrinkage zur Varianzreduktion. In der letzteren Methode wird die optimale Shrinkage Intensität analytisch berechnet. Im Vergleich zur klassischen Stichprobenkovarianzmatrix besitzt speziell diese Schätzfunktion wünschenswerte Eigenschaften im Sinne von gesteigerter Effizienz und von kleinerem mittleren quadratischen Fehler. Außerdem ergeben sich stets positiv definite und gut konditionierte Parameterschätzungen. Zur Bestimmung der Netzwerktopologie wird auf das Konzept graphischer Gaußscher Modelle zurückgegriffen, mit deren Hilfe sich sowohl marginale als auch bedingte Unabhängigkeiten darstellen lassen. Es wird eine Methode zur Modellselektion vorgestellt, die auf einer multiplen Testprozedur mit Kontrolle der False Discovery Rate beruht. Dabei wird die zugrunde liegende Nullverteilung adaptiv geschätzt. Das vorgeschlagene Framework ist rechentechnisch effizient und schneidet im Vergleich mit konkurrierenden Verfahren sowohl in Simulationen als auch in der Anwendung auf molekulare Daten sehr gut ab.