POPULARITY
Stephan Hemri hat an der ETH in Zürich einen Bachelorstudiengang Umweltwissenschaften absolviert und sein Studium mit einem Master in Statistik abgerundet. Seine Masterarbeit entstand an der Eidgenössischen Forschungsanstalt für Wald, Schnee und Landschaft (WSL). Hierbei hat er auch statistisches Postprocessing kennengelernt. Mit diesem Wissen und dem vorhandenen Interesse übernahm er ein Promotionsthema von Tilmann Gneitling am Lehrstuhl für Computational Statstics an der KIT-Fakultät für Mathematik und am Heidelberger Institut für Theoretische Studien. Zu den Höhepunkten dieser Zeit zählt er die vier Monate, die er am Europäischen Wetterzentrum (Zentrum für Mittelfristprognose) in Reading mitforschen konnte. Schon seit langem werden für die Wettervorhersage numerische Modelle eingesetzt. Dabei werden Größen wie zum Beispiel Temperatur und Niederschlag auf einem globalen 3-dimensionale Gitter durch das Lösen von großen gekoppelten und nichtlinearen Gleichungssystemen bestimmt, die aus physikalischen Modellen hergeleitet sind, nach denen sich Luftmassen und Wasser in der Atmosphäre in etwa bewegen und dabei unser Wetter erzeugen. Ebenso wichtig - wenn auch weniger bekannt - sind hydrologische Vorhersagen zu Pegelständen an Flüssen, die mit ähnlichen Methoden für einige Zeit im voraus berechnet werden. Zu Beginn waren die damit verbundenen Rechnungen rein deterministisch, was den großen Nachteil hatte, dass die Ergebnisse der Modellläufe nichts über Unsicherheiten der Vorhersage aussagen konnten. Eine Idee, um Ungenauigkeiten der Modellrechnungen zu bestimmen, ist zu Ensemblevorhersagen überzugehen. Das heißt, man berechnet nicht nur eine Vorhersage, sondern mehrere Modelläufe, jeweils zu abgeänderten (gestörten) Anfangsbedingungen oder mit verschiedenen Modellen, um zu sehen, wie stark sie sich in den Ergebnissen unterscheiden. Sind sich die verschiedenen Rechnungen weitestgehend einig, ist die Vorhersage recht sicher zutreffend. Weichen sie stark voneinander ab, sind sie entsprechend wenig sicher. Die Datenlage in der Wettervorhersage ist sehr gut. Insofern, kann man natürlich im Nachgang immer abgleichen, inwiefern Vorhersagen eingetroffen sind und dies zur Verbesserung der Modelle benutzen. Aber trotzdem bleiben konkrete Aussagen wie z.B. Hochwasservorhersagen oder Vorhersagen zu Pegeln anhand von Niederschlags-Daten sehr schwierig, weil die Modelle nicht ausgereift sind und die Verbesserung nicht auf der Hand liegt. Zum Beispiel am Europäischen Wetterzentrum in Reading ist derzeit ein Ensemble bestehend aus 51 Modellenvarianten verfügbar. Zusammen mit einem deterministischen Modell höherer Auflösung, führt dies zu einem recht großen Ensemble von Vorhersagen. In der statistischen Nachbearbeitung (dem Postprocessing) wird vor allem nach systematischen Fehlern Ausschau gehalten. Dabei werden bedingte Wahrscheinlichkeits-Vorhersagen auf das Ensemble bezogen und parametrische Dichtefunktionen erzeugt. Als Trainingsperiode werden dabei z.B. die letzten 30 Tage gewählt. Bei hydrologischen Abschätzungen sind jahreszeitliche Trainingsperioden (gleiche Jahreszeiten, aber andere Jahre) häufig sehr hilfreich. Dieses Vorgehen führt in der Regel zu einer besseren Schätzung des zukünftigen Wetters und Pegelständen. Für die Temperatur kann man sich das Vorgehen am einfachsten vorstellen: Es gibt einen Ensemble-Mittelwert, dessen Fehler in etwa normalverteilt ist. Bei der Nachbearbeitung wird z.B. der Mittelwert-Parameter an den Mittelwert des Ensembles in linearer Weise angepasst. Auch die Varianz ist in erster Näherung eine lineare Funktion der Varianz des Ensembles. Das ist ein sehr einfaches Modell, aber schon hilfreich. Zwei grundlegende Ideen gehen in der Parameterschätzung ein. Zum einen nichthomogene Regression, die gut verstanden aber nicht so flexibel ist - zum anderen Baysean Model averaging. Über allen statistischen Verfahren und Verbesserungen bleibt jedoch auch die Forderung, dass die Nutzbarkeit der Ergebnisse für den Endnutzer gegeben sein muss. Deshalb wird - gerade bei Wasserstandsvorhersagen - manchmal dann doch nur ein zu erwartender Pegelstand übermittelt ohne alle im Prozess gewonnenen Erkenntnisse über mögliche Abweichungen von diesem approximativen Wert mitzuteilen. Literatur und weiterführende Informationen Cloke, H. L. and F. Pappenberger (2009). Ensemble flood forecasting: a review. Journal of Hydrology 375, 613--626. Gneiting, T., A. E. Raftery, A. H. Westveld, and T. Goldman (2005). Calibrated probabilistic forecasting using ensemble model output statistics and minimum CRPS estimation. Monthly Weather Review 133, 1098--1118. Raftery, A. E., T. Gneiting, F. Balabdoui, and M. Polakowski (2005). Using Bayesian model averaging to calibrate forecast ensembles, Monthly Weather Review 133, 1155--1174. Thorarinsdottir, T. L. and T. Gneiting (2010). Probabilistic forecasts of wind speed: ensemble model output statistics by using heteroscedastic censored regression, Journal of the Royal Statistical Society (Series A) 173, 371--388.
Bei der stochastischen Analyse von Kaufverhalten konzentriert man sich besonders auf die Aspekte des Kaufzeitpunkts, der Produktwahl und der Kaufmenge, um im Wettbewerb einen Vorteil gegenüber der Konkurrenz zu erhalten. Kristina Cindric führt im Gespräch mit Gudrun Thäter aus, wie sie auf Basis großer Datenmengen von anonymisierten Vertragsabschlüssen über ein Jahr Analysen erstellt, Modelle entworfen, trainiert und die entstehenden Prognosen getestet hat. Die auftretenden stochastischen Modelle können sehr vielseitig sein: So kann der Kaufzeitpunkt beispielsweise durch einen stochastischen Prozess mit exponentieller Verteilung modelliert werden, für die Produktwahl kann ein Markow-Prozess die wahrscheinlichsten nächsten Käufe abbilden. Ein zentrales Konzept für die Analyse und das Training von Modellen ist dann die Parameterschätzung, die die tatsächliche Ausgestaltung der Modelle aus den Daten bestimmt. Literatur und Zusatzinformationen L. Fahrmeir, G. Raßer, T. Kneib: Stochastische Prozesse, Institut für Statistik, Ludwig-Maximilians-Universität München, 2010. O. C. Ibe: Markov Processes for Stochastic Modeling, Academic Press, Amsterdam, 2009. L. Yan, R. H. Wolniewicz, R. Dodier: Predicting Customer Behavior in Telecommunications, IEEE Computer Society 19, 50-58, 2004. J. Xia, P. Zeephongsekul, D. Packer: Spatial and temporal modelling of tourist movements using Semi-Markov processes, Tourism Management 32, 844-851, 2010. C. Ebling, Dynamische Aspekte im Kaufverhalten: Die Determinanten von Kaufzeitpunkt, Marken- und Mengenwahl, Inaugural-Dissertation, Johann Wolfgang Goethe-Universität Frankfurt am Main, 2007. Forschungszentrum Informatik (FZI)
Tobias Hahn simuliert mit einem Konvektions-Diffusions-Modell die Makrokinetik in einer Chromatographie-Säule zur Isolation und Analyse von Proteinen und Antikörper für verbesserte Medikamente und viele weitere bio-chemische Produkte. Im Gespräch mit Gudrun Thäter erklärt er, wie Simulationen die Chromatographie verbessern und die Anzahl von Experimenten verringern. Eine besonders wichtige Anwendung ist auch die Parameterschätzung von unbekannten Größen aus durchgeführten Experimenten, wo durch das Fitting der Simulation an die gemessenen Daten die einzelnen Prozesse analysiert werden können. Literatur und Zusatzinformationen ChromX - Simulation toolbox for liquid chromatography of proteins. T. Hahn, A. Sommer, A. Osberghaus, V. Heuveline, J. Hubbuch: Adjoint-based estimation and optimization for column liquid chromatography models, Computers & Chemical Engineering, 64, 41-54, 2014. H. Schmidt-Traub, M. Schulte, A. Seidel-Morgenstern (Eds.): Preparative Chromatography, Second Edition, Wiley-VCH Verlag GmbH & Co. KGaA, 2012. Chromatography Online: Library4Science Chrom-Ed Series, Online books on chromatography
Fakultät für Mathematik, Informatik und Statistik - Digitale Hochschulschriften der LMU - Teil 01/02
Die vorliegende Arbeit beschäftigt sich mit der statistischen Modellierung und Inferenz genetischer Netzwerke. Assoziationsstrukturen und wechselseitige Einflüsse sind ein wichtiges Thema in der Systembiologie. Genexpressionsdaten weisen eine hohe Dimensionalität auf, die geringen Stichprobenumfängen gegenübersteht ("small n, large p"). Die Analyse von Interaktionsstrukturen mit Hilfe graphischer Modelle ist demnach ein schlecht gestelltes (inverses) Problem, dessen Lösung Methoden zur Regularisierung erfordert. Ich schlage neuartige Schätzfunktionen für Kovarianzstrukturen und (partielle) Korrelationen vor. Diese basieren entweder auf Resampling-Verfahren oder auf Shrinkage zur Varianzreduktion. In der letzteren Methode wird die optimale Shrinkage Intensität analytisch berechnet. Im Vergleich zur klassischen Stichprobenkovarianzmatrix besitzt speziell diese Schätzfunktion wünschenswerte Eigenschaften im Sinne von gesteigerter Effizienz und von kleinerem mittleren quadratischen Fehler. Außerdem ergeben sich stets positiv definite und gut konditionierte Parameterschätzungen. Zur Bestimmung der Netzwerktopologie wird auf das Konzept graphischer Gaußscher Modelle zurückgegriffen, mit deren Hilfe sich sowohl marginale als auch bedingte Unabhängigkeiten darstellen lassen. Es wird eine Methode zur Modellselektion vorgestellt, die auf einer multiplen Testprozedur mit Kontrolle der False Discovery Rate beruht. Dabei wird die zugrunde liegende Nullverteilung adaptiv geschätzt. Das vorgeschlagene Framework ist rechentechnisch effizient und schneidet im Vergleich mit konkurrierenden Verfahren sowohl in Simulationen als auch in der Anwendung auf molekulare Daten sehr gut ab.
Tierärztliche Fakultät - Digitale Hochschulschriften der LMU - Teil 01/07
Zur Familie der natriuretischen Peptide gehören drei Peptide: Atrial Natriuretic Peptide (ANP), Brain Natriuretic Peptide (BNP) und C-type Natriuretic Peptide (CNP). BNP wurde ursprünglich im Gehirn von Schweinen isoliert, bald stellte sich heraus, dass eine wesentlich höhere Konzentration im Herz vorliegt. Plasma-BNP ist bei verschiedenen Herzerkrankungen vieler Spezies erhöht. Das Ziel der Studie war es, Referenzwerte für BNP im kaninen Plasma zu erstellen. Zur Messung von Plasma BNP wurde ein kommerzieller Radioimmunoassay verwendet. Eine Validierung des Testkits mit der Untersuchung von Präzision, Richtigkeit, Sensitivität, Spezifität und Stabilität wurde zuvor durchgeführt. Als Studienteilnehmer dienten 79 gesunde Hunde (41 Rüden, 38 Hündinnen) im Alter von 3 Monaten bis 15 Jahren. Dabei waren 23 Hunde Mischlingshunde und 56 Rassehunde. Anhand ihres Gewichtes wurden sie in 3 verschiedene Gruppen eingeteilt (K: 25 kg). Der untersuchte Radioimmunoassay wies eine gute Präzision mit einer Intraassay-Präzision von 10,57 % und einer Interassay-Präzision von 12,64 % auf. Bei Zugabe von synthetischem kaninem BNP zu einem Plasma mit niedrigem BNP-Wert ergab sich eine Wiederfindungsrate von 80,8 %. Die Wiederfindungsrate bei Zugabe zu einem Plasma mit hoher BNP-Konzentration lag bei 90,9 %. Der nierigste Standard war 1 pg/Röhrchen. Zur Bestimmung der Spezifität wurde eine serienweise Verdünnung von Hundeplasma mit der Standardkurve verglichen und zeigte einen parallelen Verlauf. Bei Lagerung bei -70 Grad zeigte sich eine gute Langzeitstabilität, auch nach 17 Monaten konnte keine Degradation von BNP beobachtet werden. Mittelwert, Median, Standardabweichung und Varianz der BNP-Werte wurden getrennt für Alter, Geschlecht, Kastration/Ovariohysterektomie, Größe und Rasse berechnet. Um einen möglichen Zusammenhang des BNP-Wertes mit Geschlecht, Kastration/Ovariohysterektomie, Größe und Rasse festzustellen, wurde eine Varianzanalyse durchgeführt. Mit einer einfachen Regressionsanalyse wurde auf einen Zusammenhang von Alter und BNP-Wert getestet. Es bestand kein Zusammenhang der BNP-Werte mit Alter, Geschlecht, Kastration/Ovariohysterektomie und Größe (p > 0,05). Die BNP-Konzentration war jedoch in signifikantem Maße (p < 0,017) von der Rasse abhängig. Parameterschätzungen wurden für jede Rasse erstellt. Ein Kolmogorov-Smirnov Test zeigte, dass die vorliegenden Daten normalverteilt waren. Referenzwerte für die gesamte Studienpopulation (oberer Referenzbereich: 53,69 pg/ml), Deutsche Schäferhunde (oberer Referenzbereich: 42,97 pg/ml), Golden Retriever (oberer Referenzbereich: 49,78 pg/ml) und Mischlinge (oberer Referenzbereich: 59,34 pg/ml) etabliert.