Biostatistik

Die Biostatistik ist ein Bereich der Statistik. Sie beschäftigt sich mit Fragestellungen, die sich in der medizinischen Forschung – deshalb auch als Medizinische Statistik bezeichnet – und anderen sich mit Lebewesen befassenden Forschungsbereichen (z. B. im landwirtschaftlichen Versuchswesen, der statistischen Genetik) ergeben.

Zu ihren Aufgaben zählen unter anderem die Planung und Durchführung von Studien sowie die Analyse gewonnener Daten mit Hilfe statistischer Methoden. Oft wird der Begriff Biometrie auch synonym zu Biostatistik verwendet.

Moderne Biostatistik

In letzter Zeit betrachtet man eine Zunahme der Bedeutung der Statistik in den Lebenswissenschaften. Dies ist bedingt durch das Vorhandensein und Aufkommen verschiedener Hochdurchsatzmethoden (wie Next Generation Sequencing, Microarrays auf RNA/DNA (sprich Gen-) Ebene sowie Massenspektrometrie auf der Proteinebene). Die genannten technischen Modalitäten generieren enorme Rohdatenmengen, die nur mit biostatistischen Methoden analysiert werden können. Diesen neuen Ansatz bezeichnet man auch als Systembiologie.

Die verwendeten Verfahren zur Auswertung dieser Daten sind durchaus komplex. Auf methodischer Seite kommen unter anderem zum Einsatz: Statistisches maschinelles Lernen durch z. B. Künstliche neuronale Netze, Support Vector Machines und Hauptkomponentenanalyse. Natürlich spielen auch klassische Konzepte der Statistik wie die Regression oder die Korrelation als Grundlage dieser Verfahren eine Rolle. Zur Auswertung dieser Daten ist robuste Statistik nötig. Hierunter versteht man statistische Methoden, die nicht anfällig gegenüber Ausreißern (das sind Messwerte, die aufgrund zufälliger Erscheinungen viel zu hoch oder zu niedrig sind) sind. In Genexpressionsdaten kommen sehr viele Ausreißer vor. Hierzu muss man sich nur vergegenwärtigen, dass schon ein Staubpartikel auf einem Microarray gravierende Auswirkung auf die Messungen haben kann.

Auch die Random-Forest-Methode („Zufallswald-Methode“) von Leo Breiman ist immer bedeutender, insbesondere weil hier im Gegensatz zu zum Beispiel den Support Vector Machines eine sehr gute Interpretierbarkeit gegeben ist. Es ist nämlich so, dass bei dieser Methode zufällige Entscheidungsbäume erzeugt werden und diese können klar interpretiert werden. So kann man zum Beispiel klinische Entscheidungen statistisch absichern und unterstützen. Ferner kann man mit mathematischer Strenge die Korrektheit klinischer Entscheidungen beweisen. Die Methode kommt auch in klinischen Entscheidungsunterstützungssystemen zum Einsatz. Ein weiterer Vorteil (neben der Interpretierbarkeit) der Random Forests im Gegensatz zu den SVMs ist die kürzere Rechengeschwindigkeit. Die Trainingszeit bei einem Random Forest steigt linear mit der Anzahl der Bäume. Die Evaluierung eines Testbeispieles geschieht auf jedem Baum einzeln und ist daher parallelisierbar.

Grundsätzlich ist zu sagen, dass die enorm großen biologischen Datensätze hochdimensional und redundant sind. Dies bedeutet, dass viele der gesammelten Informationen gar nicht relevant für die Klassifikation (von zum Beispiel kranken und nichtkranken Individuen) sind. Auch kann es sein, dass durch Vorliegen von Multikollinearität die Information eines Prädiktors in einem anderen Prädiktor enthalten ist. Die beiden Prädiktoren können eine hohe Korrelation aufweisen. Hier wendet man, um den Datensatz zu verkleinern ohne wesentliche Information zu verlieren, sog. Dimensionsreduktionstechniken (zum Beispiel die oben genannte Hauptkomponentenanalyse) an.

Klassische statistische Methoden, wie die lineare oder logistische Regression und die lineare Diskriminanzanalyse, sind häufig nicht geeignet für ihre Anwendung auf hochdimensionale Daten (also Daten, bei welchen die Anzahl der Beobachtungen $n$ kleiner als die Anzahl der Prädiktoren $k$ ist: $n<k$ ). Diese statistischen Methoden wurden für niedrig dimensionale Daten ( $n>k$ ) entwickelt. Häufig kann es sogar so sein, dass die Anwendung einer linearen Regression auf einen hochdimensionalen Datensatz mit allen Prädiktoren ein sehr hohes Bestimmtheitsmaß $R^{2}$ liefert, obwohl es sich nicht um ein statistisches Modell mit großer Vorhersagekraft handelt. Bei der Interpretation ist hier Vorsicht geboten.

In letzter Zeit ist ferner versucht worden, das Wissen um genregulatorische Netzwerke und biochemische Signalkaskaden mit in die Analyse einfließen zu lassen (Gene Set Enrichment Analyse). Hierzu existieren mehrere bioinformatische Tools (u. a. GSEA - Gene Set Enrichment Analysis vom Broad Institute). Die Überlegung ist, dass es häufig sinnvoller ist die Perturbation ganzer Genmengen (z. B. Signalkaskaden wie der Jak-Stat-Signalweg) zusammen zu betrachten als die Perturbation einzelner Gene zu untersuchen. Ferner macht man sich so die Forschungsarbeiten über biologische Signalkaskaden zu Nutze. Die Analyse wird so auch robuster: Denn es ist wahrscheinlicher, ein einzelnes falsch positives Gen zu finden, als eine ganze falsch positive Signalkaskade. Ferner besteht die Möglichkeit, dass die Perturbation einer gefundenen Signalkaskade bereits in der Literatur beschrieben ist.

Die Mendelsche Randomisierung ist ein nicht-experimenteller Ansatz zur Bestimmung kausaler Zusammenhänge unter Verwendung von DNA-Sequenzen.

Klinische Studien

Die Biostatistik kommt auch in klinischen Studien zum Einsatz. In solchen Studien wird im Rahmen der evidenzbasierten Medizin die Wirksamkeit bestimmter Medikamente, Medizinprodukte oder Behandlungsverfahren untersucht. Die Biostatistik hilft bereits bei der optimalen Studienplanung, also ganz am Anfang einer klinischen Studie. So muss zum Beispiel die Versuchszahl berechnet werden. Auch ist die Studie im Idealfall doppelblind (d. h. sowohl Experimentator als auch Patient wissen nicht, ob sie Placebo oder Medikament enthalten). Mit Hilfe moderner statistischer Verfahren kann ermittelt werden, welcher Patient besonders von welcher Therapie profitieren wird bzw. ob eine Therapie überhaupt sinnvoll ist. Mithilfe der Technik des statistischen Matchings kann aus nicht-randomisierten Observationsdaten eine quasi-randomisierte Studie entwickelt werden.

Ernährungsforschung

Biostatistische Methoden kommen auch in der Ernährungsforschung zum Einsatz, um die gesundheitliche Wirksamkeit bestimmter Nahrungsmittel erforschen zu können. Hierbei spielen Fragestellungen wie „Steht ein bestimmtes Nahrungsmittel mit der Entstehung einer bestimmten Krankheit in Verbindung?“ oder „Wirkt sich der Konsum eines bestimmten Nahrungsmittels positiv auf eine bestimmte Krankheit aus?“ eine Rolle. In Deutschland forscht das Deutsche Institut für Ernährungsforschung auf diesem Gebiet.

Präventivmedizin

Die Präventivmedizin ist ein Teilgebiet der Medizin, welches sich mit der Verhinderung von Krankheiten befasst, bevor diese überhaupt entstehen. Auch hier kommt die Biostatistik zum Einsatz, um herauszufinden, wie Krankheiten verhindert werden können.

Literatur

Wolfgang Köhler, Gabriel Schachtel, Peter Voleske: Biostatistik. Eine Einführung für Biologen und Agrarwissenschaftler, 3. aktualisierte u. erw. Aufl. Springer, Berlin 2002, ISBN 978-3540429470.
Christel Weiß: Basiswissen Medizinische Statistik, 5. Aufl. Springer, Berlin 2010, ISBN 978-3-642-11336-9.
Hedderich, Sachs: Angewandte Statistik, 14. Aufl., Springer, Berlin

Weblinks