POPULARITY
In dieser Folge geht's um die Frage: Macht Größe von Large Language Models (LLMs) bei Predictive Analytics wirklich einen Unterschied? Wir vergleichen Open-Source-Modelle mit bis zu 70 Milliarden Parametern – und siehe da, das 8B-Modell schlägt das große Schwergewicht. Außerdem berichten wir vom Finetuning auf einer AWS-Maschine mit 8 A100-GPUs und den Herausforderungen in Bezug auf die Reproduzierbarkeit. Auch das viel diskutierte DeepSeek-Modell haben wir im Autopreis-Benchmark antreten lassen. Und wie immer fragen wir uns: Was ist praktisch und was ist overkill? **Zusammenfassung** Modellgröße ≠ bessere Prognosen: Das Llama-3.1-8B übertraf das größere 70B-Modell bei der Fahrzeugpreisprognose DeepSeek im Benchmark: Das chinesische Modell zeigt bei größeren Trainingsmengen eine ähnlich gute Performance wie das Llama-3.1-8B, ist bei kleinen Datensätzen aber schwächer Finetuning mit Multi-GPU auf AWS: Für das 70B-Modell war ein Setup mit 8 A100-GPUs nötig Reproduzierbarkeit bleibt schwierig: Trotz Seed erzeugen wiederholte Finetuning-Runs unterschiedliche Ergebnisse Modellselektion empfohlen: Um zuverlässige Prognosen zu erhalten, sollte aus mehreren Finetuning-Durchläufen das beste Modell ausgewählt werden CPU-Inferenz möglich, aber langsam: Im Vergleich zur GPU war die Vorhersage auf der CPU ca. 30-mal langsamer, Quantisierung könnte künftig Abhilfe schaffen Ausblick auf TabPFN & Quantisierung: Kommende Beiträge widmen sich Erfahrungen mit TabPFN und der praktischen Umsetzung von quantisierten LLMs auf kleineren Maschinen **Links** [Begleitender Blogartikel] Predictive LLMs: Skalierung, Reproduzierbarkeit & DeepSeek https://www.inwt-statistics.de/blog/predictive-llms-skalierung-reproduzierbarkeit-und-deepseek #50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost? https://inwt.podbean.com/e/50-predictive-analytics-mit-llms-ist-gpt35-besser-als-xgboost/ #64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen https://inwt.podbean.com/e/64-predictive-llms-ubertreffen-open-source-modelle-jetzt-openai-und-xgboost-bei-preisprognosen/ vLLM Framework für schnelle Inferenz: https://github.com/vllm-project/vllm?tab=readme-ov-file torchtune Finetuning-Framework von PyTorch: https://github.com/pytorch/torchtune PyTorch Reproducibility: https://pytorch.org/docs/stable/notes/randomness.html Paper zur Reproduzierbarkeit von QLoRA-Finetuning: S. S. Alahmari, L. O. Hall, P. R. Mouton and D. B. Goldgof, "Repeatability of Fine-Tuning Large Language Models Illustrated Using QLoRA," in IEEE Access, vol. 12, pp. 153221-153231, 2024, doi: 10.1109/ACCESS.2024.3470850 https://ieeexplore.ieee.org/document/10700744 heise online: Komprimierte KI: Wie Quantisierung große Sprachmodelle verkleinert von René Peinl https://www.heise.de/hintergrund/Komprimierte-KI-Wie-Quantisierung-grosse-Sprachmodelle-verkleinert-10206033.html deepseek-ai/DeepSeek-R1-Distill-Llama-8B auf Huggingface https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B#6-how-to-run-locally TabPFN: Hollmann, N., Müller, S., Purucker, L. et al. Accurate predictions on small data with a tabular foundation model. Nature 637, 319–326 (2025). https://doi.org/10.1038/s41586-024-08328-6 Feedback, Fragen oder Themenwünsche gern an podcast@inwt-statistics.de
Auphonic (click here to comment) 25. Februar 2025, Jochen
Was ist Inferenz bei AI Modellen und warum können Groq Chips das so gut? Die Nvidia Earnings überraschen positiv. Sam Altman besitzt überraschend viel an Reddit und Pip redet darüber, wie ein Hypergrowth Unternehmen funktionieren könnte. Werbung: LIQID Venture: Investieren in die Unicorns von morgen. Anmeldung für das kostenlose Online Event am Samstag, den 2. März, über LIQID.de/dg. Philipp Glöckler und Philipp Klöckner sprechen heute über: (00:00:00) Intro (00:04:00) Training vs. Inferenz (00:06:20) Hypergrowth (00:18:50) Groq (00:31:30) Google Gemini (00:51:00) Reddit (00:58:15) Nvidia Earnings (01:13:35) Palo Alto Networks Earnings (01:16:00) Booking Earnings (01:22.55) Wayfair Earnings (01:27:45) Nu Bank Earnings (01:35:40) Kununu Klarnamen Shownotes: Aktuelle Werbepartner des Doppelgänger Tech Talk Podcasts und unser Sheet Groq Gemini Demo: Youtube Sam Altmann Reddit: Hollywood reporter Reddit Finanzen News blocking AI: Reuters Kununu Klarnamen
Mit Franz haben wir besprochen, was Kognition bei Lebewesen wie Einzellern bedeutet, wie das mit der Entwicklung des zentralen Nervensystems zusammenhängen könnte, was Aktive Inferenz ist und wie das alles bei der Entwicklung von KI-Systemen helfen könnte. :// Inhalt 00:00:00 Intro 00:01:50 Warum wird ein Physiker Biologe? 00:04:58 Dank an unseren Sponsor, die BWI 00:05:42 Was macht ein Biologe in einem KI-Podcast? 00:11:30 Was ist die Wahrnehmungsleistung einer Alge? 00:13:00 Was ist basale Kognition? 00:34:00 Was sind Voraussetzungen für basale Kognition? 00:39:36 Wie gut verstehen Menschen das Gehirn? 00:45:00 Welche Funktion hat Bioelektrizität 00:56:20 Was ist Meta-Kognition und was hat sie mit aktiver Inferenz zu tun? 01:32:55 Was kann aktive Inferenz für Künstliche Intelligenz leisten? 01:44:00 Wo kann mehr über Franz erfahren? :// Über DEEP MINDS - KI-Podcast DEEP MINDS ist ein Video-Podcast mit Menschen, die sich mit Künstlicher Intelligenz und Wissenschaft befassen. Max und Matthias stellen ihnen einfache und schwere Fragen über Technologie, Forschung, Entwicklung und unsere Zukunft. Mehr: https://the-decoder.de/podcast/deep-minds/ :// Danke an unseren Sponsor: BWI, das IT-Systemhaus der Bundeswehr Der DEEP MINDS Podcast wird unterstützt von der BWI, dem IT-Systemhaus der Bundeswehr. Als ihr zuverlässiger Partner unterstützt sie mit Innovationen und ihrer IT-Expertise die Digitalisierung der Streitkräfte und treibt diese voran. Auch die Zukunftstechnologie KI spielt dabei eine wichtige Rolle, etwa bei der Generierung von Lagebildern oder für das Server-Management. Aktuelles aus der Arbeit der BWI: www.bwi.de/news-blog KI bei der BWI für die Bundeswehr: https://www.bwi.de/news-blog/blog/artikel/kuenstliche-intelligenz-bwi-entwickelt-loesungen-fuer-die-bundeswehr Die BWI sucht engagierte IT-Profis: www.bwi.de/karriere :// Über Franz Kuchling Franz Kuchling hat Physik mit Spezialisierung Biophysik studiert. Mit dem Ziel, die Biologie hinter der Biophysik besser verstehen und manipulieren zu können, arbeitet er seit 2016 an seiner Doktorarbeit in Biologie an der Tufts Universität in Medford (bei Boston) in den USA im Labor von Doktor Michael Levin. Sein Fokus ist die Frage, wie Informationen der Umgebung innerhalb von biologischen Zellen und einfachen Organismen verarbeitet werden und Einfluss auf deren Adaption haben. :// Links https://twitter.com/franzkuchling https://www.researchgate.net/profile/Franz-Kuchling :// DEEP MINDS als Audio-Podcast hören Spotify: https://open.spotify.com/show/6rmXt98jRHNziyG1ev3sAT Apple: https://podcasts.apple.com/us/podcast/deep-minds/id1598920439 Amazon: https://amzn.to/3mr5zbB Google Podcasts: https://bit.ly/3q7CQda
Martin ist Professor für Data Science, Statistik und Ökonometrie an der Universität Hamburg sowie Gründer und Geschäftsführer des Startups Economic AI. In seiner Arbeit geht es darum, mit ML, KI und kausaler Inferenz zu besseren Entscheidungen zu kommen. Unsere Themen im heutigen Gespräch: 0:28 - Martins Werdegang. 2:49 - Warum ist Causal Inference so wichtig? 5:21 - Martins Forschung. 8:35 - Causal Inference im Alltag. 25:19 - Was steckt hinter Double Machine Learning? 34:37 - Worum geht es beim Unternehmen Economic AI? 39:57 - Verzahnung von Big Tech mit Forschung problematisch? 42:35 - Setup von Economic AI. 48:50 - Königsdisziplin Pricing. 54:24 - Automatisierte Experimente & Trends. 58:59 - Ausblick. --- Weiterführende Informationen: Economic AI: https://www.economicai.com/ Paper zu double/debiased machine learning: https://academic.oup.com/ectj/article/21/1/C1/5056401 DoubleML Library: - https://docs.doubleml.org/stable/index.html - https://arxiv.org/abs/2103.09603 --- LinkedIn Martin: https://www.linkedin.com/in/martin-spindler/ LinkedIn Bernard: https://www.linkedin.com/in/bernardsonnenschein/ --- Top-Opportunitäten im Datenbusiness: https://datenbusiness.de/ Ich freue mich über Feedback: bernard.sonnenschein@datenbusiness.de
Auf der Gulaschprogrammiernacht 2019 traf Sebastian auf den Podcaster Data Science Phil Philipp Packmohr @PPackmohr. Sein Interesse zur Data Science entstand während seines Studiums in den Life Sciences an der Hochschule Furtwangen in den Bereichen der molekularen und technischen Medizin und zu Medical Diagnostic Technologies. In seiner Masterarbeit hat er sich betreut von Prof. Dr. Matthias Kohl mit der statistischen Aufbereitung von Beobachtungsstudien befasst, genauer mit der kausalen Inferenz aus Observationsdaten mit Propensity Score Matching Algorithmen. Kausale Inferenz, das Schließen von Beobachtungen auf kausale Zusammenhänge, ist tatsächlich sehr wichtig in allen empirischen Wissenschaften wie zum Beispiel der Ökonomie, der Psychologie, der Politologie, der Soziologie und auch der Medizin. Idealerweise sollten Studien in der Form von randomisierten kontrollierten Studien durchgeführt werden, da nur so eine bewusste oder unbewusste Einflussnahme auf den Ergebnisse verhindert werden kann. Beispielsweise leiden Evaluationen an Hochschulen am Ende von Vorlesungen oder Studiengängen oft unter einem Survivorship Bias, da nur noch die Personen befragt werden, die bis zum Ende durchgehalten haben. Doch werden nicht alle Studien aufgrund von verschiedenen Gründen (wie zum Beispiel der hohen Kosten) randomisiert durchgeführt, und so war es auch bei dem für seine Arbeit zentralen Observationsdatensatz von Prof. Dr. Konrad Reinhart an der Klinik für Intensivmedizin vom Universitätsklinikum Jena zu Therapien zur Vermeidung von akutem Nierenversagen. Der Datensatz behandelte 21757 Patienten mit soziodemographischen und biologischen Merkmalen aus der elektronischen Gesundheitsakte mit bis zu 209 Variablen, sowie der gewählten Therapie und ob es zu Nierenversagen kam oder nicht. Die Variablen werden bei der Untersuchung als Confounder, Störfaktoren oder Kovariate benannt, die nicht als ursächlich für den Therapieverlauf gesehen werden, aber diesen sowohl beeinflussen können. In einer nicht-randomisierten Studie werden die Confounder nicht gleichmäßig über die Therapiearten verteilt sein, und damit die zusammengefassten Ergebnisse unerwünscht verfälschen. Eine Aufbereitung anhand der Confounder kann aber nie eine völlig randomisierte Studie ersetzen, da in den Daten nicht auftretende Confounder, wie bespielsweise dem athletischen Status, nicht berücksichtigt werden können. Im Propensity Score Matching werden nun die Erfolgsquoten von Therapien vereinfacht gesagt als durch einen Score gewichtete Erfolgsquote unter Berücksichtigung der aufgetretenen Häufigkeiten der Confounder zur erwarteten Häufigkeit der Confounder berechnet. Problematisch ist dabei der Umgang mit fehlenden Datenwerten, da nur ein Bruchteil der Datensätze wirklich alle Variablen definiert. Hier mussten sinnvolle Datenergänzungsverfahren eingesetzt werden. Die Auswertung erfolgte mit dem kostenlosen Open Source Projekt R (Plattform für statistische Berechnungen), das eine Vielzahl Verfahren und Algorithmen zur Verfügung stellt. Die im Laufe der Arbeit entwickelten Verfahren finden sich im Github Repository zu den Analyseverfahren. Die Analyse des Observationsdatensatz ergab nun Risikoraten von 15.6% bis 11.5% für Nierenversagen. Dies muss aber nicht bedeuten, dass die eine Therapie immer der anderen Therapie vorzuziehen ist, da viele Kriterien für die Wahl einer Therapie einbezogen werden müssen. In der personalisierte oder prädiktiven Medizin wird versucht, an Hand von Observationsanalysen sogar weitergehende Therapiehinweise in Abhängigkeit von Confoundern der einzelnen Patienten zu geben. Den Anstoß für den Data Science Phil Podcast fand Philipp in einem Aufruf vom YouTuber Martin Jung. Im englisch-sprachigen Podcast geht es um grundlegende Verfahren der Data Science, aber auch um weiterführende Themen, die er auf Konferenzen mit Gästen diskutiert. Literatur und weiterführende Informationen P. R. Rosenbaum, D. B. Rubin, Donald B: The Central Role of the Propensity Score in Observational Studies for Causal Effects, Biometrika. 70 (1): 41–55 , 1983. J. Pearl: Causality: Models, Reasoning, and Inference , Cambridge University Press, 2019. D. Ho, K. Imai, G. King, E. Stuart: MatchIt - Nonparametric Preprocessing for Parametric Causal Inference, Journal of Statistical Software, 42(8), 1 - 28, 2011. D. Ho, K. Imai, G. King, E. Stuart: MatchIt: Nonparametric Preprocessing for Parametric Causal Inference, R-Module, 2018. E. A. Stuart: Matching Methods for Causal Inference: A review and a look forward, Statistical Science 25(1): 1-21, 2010. Research Gate Profil von Philipp Packmohr Github Profil von Philipp Packmohr Science Days im Europapark Rust Data Science Blog von Philipp Packmohr stamats von Prof. Dr. Matthias Kohl Podcasts Data Science Phil Podcast P. Packmohr, S. Ritterbusch: Neural Networks, Data Science Phil, Episode 16, 2019. I. Hinneburg: EbPharm-Magazin im September, Adjustierung in epidemiologischen Studien, Podcast Evidenzbasierte Pharmazie, 2017. GPN19 Special P. Packmohr, S. Ritterbusch: Neural Networks, Data Science Phil, Episode 16, 2019. P. Packmohr, S. Ritterbusch: Propensity Score Matching, Gespräch im Modellansatz Podcast, Folge 207, Fakultät für Mathematik, Karlsruher Institut für Technologie (KIT), 2019. http://modellansatz.de/propensity-score-matching GPN18 Special D. Gnad, S. Ritterbusch: FPGA Seitenkanäle, Gespräch im Modellansatz Podcast, Folge 177, Fakultät für Mathematik, Karlsruher Institut für Technologie (KIT), 2018. http://modellansatz.de/fpga-seitenkanaele B. Sieker, S. Ritterbusch: Flugunfälle, Gespräch im Modellansatz Podcast, Folge 175, Fakultät für Mathematik, Karlsruher Institut für Technologie (KIT), 2018. http://modellansatz.de/flugunfaelle A. Rick, S. Ritterbusch: Erdbebensicheres Bauen, Gespräch im Modellansatz Podcast, Folge 168, Fakultät für Mathematik, Karlsruher Institut für Technologie (KIT), 2018. http://modellansatz.de/erdbebensicheres-bauen GPN17 Special Sibyllinische Neuigkeiten: GPN17, Folge 4 im Podcast des CCC Essen, 2017. A. Rick, S. Ritterbusch: Bézier Stabwerke, Gespräch im Modellansatz Podcast, Folge 141, Fakultät für Mathematik, Karlsruher Institut für Technologie (KIT), 2017. http://modellansatz.de/bezier-stabwerke F. Magin, S. Ritterbusch: Automated Binary Analysis, Gespräch im Modellansatz Podcast, Folge 137, Fakultät für Mathematik, Karlsruher Institut für Technologie (KIT), 2017. http://modellansatz.de/binary-analyis M. Lösch, S. Ritterbusch: Smart Meter Gateway, Gespräch im Modellansatz Podcast, Folge 135, Fakultät für Mathematik, Karlsruher Institut für Technologie (KIT), 2017. http://modellansatz.de/smart-meter GPN16 Special A. Krause, S. Ritterbusch: Adiabatische Quantencomputer, Gespräch im Modellansatz Podcast Folge 105, Fakultät für Mathematik, Karlsruher Institut für Technologie (KIT), 2016. http://modellansatz.de/adiabatische-quantencomputer S. Ajuvo, S. Ritterbusch: Finanzen damalsTM, Gespräch im Modellansatz Podcast, Folge 97, Fakultät für Mathematik, Karlsruher Institut für Technologie (KIT), 2016. http://modellansatz.de/finanzen-damalstm M. Fürst, S. Ritterbusch: Probabilistische Robotik, Gespräch im Modellansatz Podcast, Folge 95, Fakultät für Mathematik, Karlsruher Institut für Technologie (KIT), 2016. http://modellansatz.de/probabilistische-robotik J. Breitner, S. Ritterbusch: Incredible Proof Machine, Gespräch im Modellansatz Podcast, Folge 78, Fakultät für Mathematik, Karlsruher Institut für Technologie (KIT), 2016. http://modellansatz.de/incredible-proof-machine
Fakultät für Mathematik, Informatik und Statistik - Digitale Hochschulschriften der LMU - Teil 01/02
In dieser Arbeit wir ein pragmatischer Ansatz zur Typisierung, statischen Analyse und Optimierung von Web-Anfragespachen, speziell Xcerpt, untersucht. Pragmatisch ist der Ansatz in dem Sinne, dass dem Benutzer keinerlei Einschränkungen aus Entscheidbarkeits- oder Effizienzgründen auf modellierbare Typen gestellt werden. Effizienz und Entscheidbarkeit werden stattdessen, falls nötig, durch Vergröberungen bei der Typprüfung erkauft. Eine Typsprache zur Typisierung von Graph-strukturierten Daten im Web wird eingeführt. Modellierbare Graphen sind so genannte gewurzelte Graphen, welche aus einem Spannbaum und Querreferenzen aufgebaut sind. Die Typsprache basiert auf reguläre Baum Grammatiken, welche um typisierte Referenzen erweitert wurde. Neben wie im Web mit XML üblichen geordneten strukturierten Daten, sind auch ungeordnete Daten, wie etwa in Xcerpt oder RDF üblich, modellierbar. Der dazu verwendete Ansatz---ungeordnete Interpretation Regulärer Ausdrücke---ist neu. Eine operationale Semantik für geordnete wie ungeordnete Typen wird auf Basis spezialisierter Baumautomaten und sog. Counting Constraints (welche wiederum auf presburgerarithmetische Ausdrücke) basieren. Es wird ferner statische Typ-Prüfung und -Inferenz von Xcerpt Anfrage- und Konstrukttermen, wie auch Optimierung von Xcerpt Anfragen auf Basis von Typinformation eingeführt.
Medizinische Fakultät - Digitale Hochschulschriften der LMU - Teil 06/19
Seit der Entdeckung der zwei Typen des Human Immunodeficiency Virus (HIV) in den Jahren 1983 und 1986 gibt es zahlreiche kontroverse Diskussionen über deren Ursprung. Erst die Erforschung des zweiten Primate Immunodeficiency Virus (PIV), des Simian Immuno-deficiency Virus (SIV), ergab neue Erkenntnisse, die die Abstammung des HIV aus SIV weitgehend belegen konnten, obwohl noch heute diesbezügliche Zweifel bestehen. Aufgrund der großen genetischen Variabilität dieser Viren, wurden sie in verschiedene Stämme, Gruppen, Subtypen und Subsubtypen eingeteilt. Ihre Klassifikation und Nomenklatur wurde aufgrund der – vor allem in den 1990er-Jahren gemachten – neuen wissenschaftlichen Erkenntnisse über das HIV-Genom häufig geändert, bis im April 2000 ein Overview of subtypes in the primate immunodeficiency viruses publiziert wurde. Er dient seither als Grundlage für die Nomenklatur von HIV und SIV, wie sie auch in dieser Dissertation Verwendung findet. Die Forschung mit HIV-Subtypen machte es möglich, die epidemiologischen Ausbreitungs-wege von HIV zu eruieren und neue Erkenntnisse zur HIV-Infektion, zu ihren Übertragungs-wegen, zur Prävention und schließlich zu geeigneten Public-Health-Maßnahmen zu erlangen. Die bis noch vor wenigen Jahren diskutierte Frage, ob HIV-Superinfektionen und -Mehrfach-infektionen überhaupt möglich sind und wie die Rekombinanten entstehen, konnte ebenfalls durch die Subtypenforschung beantwortet werden. Diesbezügliche Studien werden seit einigen Jahren auch in Mbeya Region im Südwesten Tansanias durchgeführt. Die Daten dieser Dissertation basieren zum Teil auf jenen der fünfjährigen HIV Superinfection Study (HISIS), die im August 2000 in Mbeya Region begonnen wurde. HISIS befasst sich vor allem mit der Erforschung von HIV-Superinfektionen und deren Mehrfachinfektionen und Intersubtyp-Rekombinationen. Hierzu bedarf es eines Studienortes, in dem unterschiedliche HIV-Subtypen prävalent sind. Dies ist in Mbeya Region mit den Subtypen A, C und D der Fall. Die zweite Voraussetzung ist eine Studienpopulation, die eine hohe Prävalenz dieser Subtypen aufweist. Hierfür wurde eine offene Kohorte von über 700 weiblichen Prostituierten gebildet, aus der ich von September 2000 bis Mai 2001 bei 626 Studienteilnehmerinnen Daten für die vorliegende Arbeit gewinnen konnte. Um diese Populationsgruppe (so genannte High-Risk-Group, HRG) mit einem sehr hohen Risiko hinsichtlich des sexuellen Verhaltens studieren zu können, habe ich für meine Dissertation eine Vergleichspopulation untersucht, die sich in dieser Variable (sexuelles Risikoverhalten) von der HRG unterscheidet (so genannte Non-High-Risk-Group, NRG). Dafür konnte ich Blutproben und soziologische Daten von 757 Blutspendern (Oktober 2000 bis August 2001) und von 351 antenatal clinic attendees (Februar bis August 2001) gewinnen. Um diese HIV-Subtypisierung mit hoher Qualität und relativ geringen Kosten durchführen zu können, wurde von M. Hölscher, dem Mitbetreuer dieser Dissertation, der Multi-Region Hybridisation Assay (MHA) entwickelt. Dieses molekularbiologische Verfahren konnte ich in der vorliegenden Studie zum ersten Mal bei einem größeren Stichprobenumfang einsetzen: 341 Proben aus Mbeya Region. Diese Dissertation konnte nachweisen, dass der MHA eine ausreichende Sensitivität besitzt, um ihn zur HIV-1-Subtypen-Bestimmung bei transversalen Studien einzusetzen, wobei die Sensitivität von der Anzahl der pro Blutprobe gewonnen mononukleären Zellen abhängig ist. In meiner Arbeit hat sich bestätigt, dass in Mbeya Region HIV-1-Mehrfachinfektionen – mit einer Prävalenz von 14 % innerhalb der Studienpopulation – als auch Einfachinfektionen mit rekombinanten Subtypen – mit einer Prävalenz von 32 % innerhalb der Studienpopulation –vorkommen. Dies bedeutet, dass es sich nur bei etwas mehr als die Hälfte aller in Mbeya Region zirkulierenden HI-Viren um reine Subtypen handelt. Die Prävalenz der HIV-1-Subtypen war wie folgt: Subtyp C: 63 %, Subtyp A: 24 %, Subtyp D: 13 %. Konsekutiv sind dadurch C-Rekombinanten (AC und CD) häufiger präsent als die anderen. Auffällig ist die Tatsache, dass unter den Rekombinanten der Subtyp C seltener und die Subtypen A und D häufiger vorkommen als unter den reinen Subtypen. Ich konnte mit dieser Arbeit beweisen, dass mit einem erhöhten Risiko hinsichtlich des sexuellen Verhaltens die Gefahr von Mehrfachinfektionen steigt (p = 0,0196). Aufgrund der Datenlage darf vermutet werden, dass für die Entstehung von Rekombinationen HIV-1-Mehrfachinfektionen Voraussetzung sind. Ein Einfluss des Geschlechts auf die Prävalenz von Mehrfachinfektionen und Rekombinanten konnte – unter Berücksichtigung des geringen Stichprobenumfangs bei den weiblichen und männlichen Blutspendern – in dieser Arbeit nicht festgestellt werden. Ein Einfluss des Alters auf die Prävalenz von Mehrfachinfektionen und Rekombinanten zeigte sich nur in der Risikogruppe der Prostituierten und nicht in den Populationsgruppen antenatal clinic attendees und Blutspender. Die Dissertation basiert auf den Daten meiner Querschnittsstudie, die ich vom August 2000 bis zum August 2001 in Mbeya Region durchgeführt habe. Sie soll den Einfluss der Variablen sexuelles Risikoverhalten auf die Verteilung der HIV-1-Subtypen und deren Rekombinationen und Mehrfachinfektionen eruieren. Obwohl einige signifikante Assoziationen festzustellen waren, kann keine Aussage über deren kausaler Zusammenhang erfolgen, da es sich hierbei ausschließlich um eine transversale Studie handelt. Zur Eruierung der kausalen Inferenz sind longitudinale Kohortenstudien geeignet, die mit Verlaufsdaten von Individuen arbeiten. Des Weiteren können diese Studien mittels Interventionen (Aufklärung, Kondombenutzung, medizinische Betreuung und Versorgung u.a.) eine Verminderung des Risikos hinsichtlich des sexuellen Verhaltens herbeiführen, was die Inzidenz für Neu- und Superinfektionen erfolgreich senken würde. Eine entsprechende Studie wurde in Mbeya Region von der Abteilung für Infektions- und Tropenmedizin der Ludwig-Maximilians-Universität München in Kooperation mit der Muhimbili University of Dar es Salaam an über 700 Prostituierten von August 2000 bis Juni 2005 durchgeführt.
Fakultät für Mathematik, Informatik und Statistik - Digitale Hochschulschriften der LMU - Teil 01/02
Die vorliegende Arbeit beschäftigt sich mit der statistischen Modellierung und Inferenz genetischer Netzwerke. Assoziationsstrukturen und wechselseitige Einflüsse sind ein wichtiges Thema in der Systembiologie. Genexpressionsdaten weisen eine hohe Dimensionalität auf, die geringen Stichprobenumfängen gegenübersteht ("small n, large p"). Die Analyse von Interaktionsstrukturen mit Hilfe graphischer Modelle ist demnach ein schlecht gestelltes (inverses) Problem, dessen Lösung Methoden zur Regularisierung erfordert. Ich schlage neuartige Schätzfunktionen für Kovarianzstrukturen und (partielle) Korrelationen vor. Diese basieren entweder auf Resampling-Verfahren oder auf Shrinkage zur Varianzreduktion. In der letzteren Methode wird die optimale Shrinkage Intensität analytisch berechnet. Im Vergleich zur klassischen Stichprobenkovarianzmatrix besitzt speziell diese Schätzfunktion wünschenswerte Eigenschaften im Sinne von gesteigerter Effizienz und von kleinerem mittleren quadratischen Fehler. Außerdem ergeben sich stets positiv definite und gut konditionierte Parameterschätzungen. Zur Bestimmung der Netzwerktopologie wird auf das Konzept graphischer Gaußscher Modelle zurückgegriffen, mit deren Hilfe sich sowohl marginale als auch bedingte Unabhängigkeiten darstellen lassen. Es wird eine Methode zur Modellselektion vorgestellt, die auf einer multiplen Testprozedur mit Kontrolle der False Discovery Rate beruht. Dabei wird die zugrunde liegende Nullverteilung adaptiv geschätzt. Das vorgeschlagene Framework ist rechentechnisch effizient und schneidet im Vergleich mit konkurrierenden Verfahren sowohl in Simulationen als auch in der Anwendung auf molekulare Daten sehr gut ab.