(C) Paul Wilmes / University of Luxembourg

„Wenn man sich so komplexe Systeme mit unterschiedlichen Methoden anschaut, kommt immer etwas anderes dabei heraus”, sagt Paul Wilmes

Forscher der Uni Luxemburg haben das Werkzeug IMP entwickelt, mit dem sich die Auswertung biologischer und biomedizinischer Experimente wiederholen lässt.

Biologische Versuche erzeugen immer größere und komplexere Datensätze. So ist es schwieriger geworden, Experimente in anderen Forschungslaboren zu wiederholen, um die Ergebnisse zu bestätigen – oder zu widerlegen. Neben der hohen Komplexität der Daten sind anspruchsvolle, computerbasierte Auswerteverfahren ein Grund für diese Schwierigkeit.

Der Grund für die Datenflut biologischer und biomedizinischer Forschung sind immer komplexere Untersuchungsobjekte – etwa die Zusammensetzung aller Mikroorganismen im Darm –, aber auch automatisierte Experimentiertechniken, die so genannte Hochdurchsatz-Versuche ermöglichen: Versuchsansätze, die noch vor wenigen Jahren langwierig von Hand ausgeführt werden mussten, können jetzt in kürzester Zeit nahezu beliebig oft und standardisiert wiederholt werden. Diesem Trend konnten die Auswerteverfahren noch nicht in vollem Umfang folgen:

„Wenn man sich so komplexe Systeme mit unterschiedlichen Methoden anschaut, kommt immer etwas anderes dabei heraus”, sagt Paul Wilmes vom Luxembourg Centre for Systems Biomedicine (LCSB) der Universität Luxemburg.

Die Lösung: R3 – Reproducible Research Results

Jedes Labor nutzt zudem seine eigenen Rechenprogramme, die oft geheim gehalten werden. Außerdem ändern sich die Rechenverfahren schnell, allein schon, wenn sie auf einem Computer mit einem anderen Betriebssystem ablaufen. „Deshalb ist es äußerst schwierig und oftmals sogar unmöglich, bestimmte Ergebnisse in einem anderen Labor zu reproduzieren“, so Wilmes, Leiter der LCSB-Gruppe Eco-Systems Biology. „Das ist aber das Fundament der Wissenschaft: Ein Versuch muss jederzeit an jedem beliebigen Ort wiederholbar sein und zu den gleichen Ergebnissen führen. Ansonsten lassen sich daraus keine allgemeingültigen Schlussfolgerungen ziehen.“

Diesem Missstand helfen die LCSB-Wissenschaftler nun ab. In der LCSB-Bioinformatics Core Unit ist dafür eine Initiative entstanden, die sich „R3 – Reproducible Research Results“ nennt. „Mit R3 wollen wir Wissenschaftler weltweit in die Lage versetzen, die Reproduzierbarkeit und die Transparenz ihrer Forschung zu erhöhen – durch systematisches Training, durch die Entwicklung von Methoden und Werkzeugen und durch die Etablierung der erforderlichen Infrastruktur“, sagt Dr. Reinhard Schneider, Leiter der Bioinformatics Core Unit.

Computerprogramme werden „konserviert“

Die Ergebnisse der R3-Initiative fließen dann in Projekte wie IMP ein: „IMP ist eine reproduzierbare Pipeline für die Analyse hochkomplexer Daten“, sagt Dr. Shaman Narayanasamy aus der Arbeitsgruppe von Paul Wilmes. Er ist Mitautor der Studie und hat sich mit dem Thema gerade promoviert: „Wir konservieren Computerprogramme in exakt dem Zustand, in dem sie bestimmte Experimentdaten verrechnet haben. Aus diesem quasi eingefrorenen Zustand können wir die Programme später wieder auftauen, wenn die Bearbeitung der Daten wiederholt oder neue Daten auf die gleiche Weise ausgewertet werden sollen.“ Außerdem fassen die Wissenschaftler verschiedene Komponenten der Auswertesoftware in so genannten Containern zusammen. Diese können in unterschiedlicher Reihenfolge kombiniert werden, ohne dass es zu Wechselwirkungen mit anderen Programmteilen kommt.

„Die Teilprogramme in den Containern können je nach Bedarf hintereinander geschaltet werden“, sagt der Erstautor der Studie, Yohan Jarosz von der Bioinformatics Core Uni. Es entsteht eine Pipeline, durch die die Daten hindurchfließen. Dadurch, dass die Rechenoperatoren in den Containern anschließend eingefroren werden, braucht man keine Referenzdaten, also Daten darüber, unter welchen Bedingungen – Art des Betriebssystems oder des Computerprozessors – die Auswertung erfolgen muss. „Dabei ist das ganze Verfahren vollkommen offen und transparent”, sagt Jarosz: Somit kann jeder Wissenschaftler jeden beliebigen Programmschritt verändern. Allerdings gibt es ein Logbuch, in dem die einzelnen Schritte festgehalten werden und dadurch nachvollziehbar bleiben.

Besonders wichtig ist für Paul Wilmes der Einsatz dieses Verfahrens bei der Analyse metagnomischer und metatransskriptorischer Daten. Solche Daten fallen an, wenn die Forscher beispielsweise ganze Bakteriengesellschaften etwa im menschlichen Darm oder in Kläranlagen untersuchen. Aus dem gesamten Genmaterial, das in der Probe enthalten ist, und den gesamten Genprodukten können sie herauslesen, welche Bakterienarten sich im Darm oder in der Kläranlage befinden. Aber nicht nur das: Die Wissenschaftler können auch sagen, wie viele Bakterien welcher Art vorhanden und aktiv sind, was für Stoffe sie zu einem bestimmten Zeitpunkt produzieren, und wie sich die Organismen gegenseitig beeinflussen.

Neue Technik im Internet frei zugänglich

Der Haken war bisher, dass entsprechende Untersuchungsergebnisse kaum von Forschern in anderen Laboren nachvollzogen werden können. Das hat sich mit IMP nun geändert. Wilmes: „Wir haben bereits Daten aus anderen Laboren ersten Tests mit IMP unterzogen. Dabei wurde klar: Wir können die Ergebnisse nachvollziehen – und unsere Berechnungen in IMP fördern deutlich mehr Details ans Licht, als es bei der ursprünglichen Untersuchung der Fall war; etwa bei der Identifizierung von Genen, die im Stoffwechsel der Bakteriengesellschaften eine besonders wichtige Rolle spielen.“

„Dank IMP kommen am LCSB in der Mikrobiomforschung jetzt ausschließlich standardisierte und reproduzierbare Methoden vom Wet-Lab, also dem Experimentallabor, bis hin zu Dry-Lab in dem vor allem Computersimulationen und -modellierungen laufen zu Einsatz. Wir haben hier international eine Vorreiterrolle“, sagt Wilmes. „IMP setzt auch dank R3 Standards, deren Anwendung auch für andere Institute als dem LCSB von größtem Interesse sein dürfte“, ergänzt Reinhard Schneider von der Bioinformatics Core Unit: „Wir machen die Technik anderen Forschern deshalb frei zugänglich – der Standard soll sich schnell durchsetzen. Denn nur reproduzierbare Ergebnisauswertungen bringen die Biomedizin langfristig voran.“

Die Arbeit ist jetzt im renommierten Open Access-Fachjournal Genome Biology veröffentlicht worden. Das neue bioinformatische Werkzeug IMP ist für Forscher im Internet verfügbar.

Autor: Universität Luxembourg
Foto: Paul Wilmes © Universität Luxemburg

Esch2022 – Interview mit Valery Vermeulen The Sound of Data: Wie aus wissenschaftlichen Daten Musik wird

Beim Esch2022-Projekt „The Sound of Data“, das am 1. Mai in der Rockhal startet, ist Mathematiker und Elektronik-Musiker...

FNR
„Science meets Music“ am 1. Mai @Rockhal Wenn aus Farben Töne werden: Cyborg Neil Harbisson beim Auftakt von The Sound of Data

Neil Harbisson ist farbenblind, kann aber mit Hilfe einer implantierten Antenne Farben hören. Wie er diese Technik nutzt...

FNR
Smart Schoul 2025 Die digitalen Bürger von morgen schulen

Wie schafft man es, Schüler nachhaltig für Informatik zu begeistern? Die Antwort darauf könnte das Projekt Smart Schoul ...

Auch in dieser Rubrik

Herausragende wissenschaftliche Leistung FNR Awards 2023: Hoffnung auf eine neue Generation von Schmerztherapie

Ein Forschungsteam vom Luxembourg Institute of Health erhielt einen Preis für ihre Entdeckungen, die helfen könnten die Krise der Opioid-Abhängigkeit einzudämmen.

LIH, FNR
Outstanding Scientific Achievement FNR Awards 2023: Ein Modell, um das allergene Potenzial neuer Produkte zu testen

Arno Gutleb vom Luxembourg Institute of Science and Technology (LIST) wurde in der Kategorie "Outstanding Scientific Achievement" für die FNR Awards 2023 ausgewählt.

Outstanding PhD Thesis FNR Awards 2023: Studie über das Mikrobiom bringt Krebsforschung voran

Mina Tsenkova von der Universität Luxemburg wurde in der Kategorie "Outstanding PhD Thesis" für die FNR Awards 2023 ausgewählt.

Gesundheitssystem Luxemburg Inwiefern kann die Gesundheitsökonomie dem Gesundheitswesen helfen?

Welche Herausforderungen und Lösungen sehen Gesundheitsökonomen für unser Gesundheitssystem? Ein Interview mit Prof. Marc Suhrcke (LISER) und Dr. Valérie Moran (LISER, LIH).