(C) Paul Wilmes/University of Luxembourg
Des scientifiques de l'Université du Luxembourg viennent de développer l'outil bioinformatique IMP qui permettra de reproduire plus facilement et avec une plus grande transparence l'analyse des données issues d’expériences biologiques et biomédicales.
Les expériences biologiques génèrent des données de plus en plus nombreuses et complexes. Il est ainsi devenu difficile de reproduire les expériences d'autres laboratoires de recherche pour confirmer (ou réfuter) leurs résultats. Cette difficulté tient non seulement à la complexité des données, mais aussi aux systèmes et programmes informatiques sophistiqués requis pour les analyser.
La recherche biologique et biomédicale est noyée sous un flot de données car de nouvelles études abordent des sujets de plus en plus complexes (comme le microbiome intestinal dans son intégralité), en utilisant des techniques automatisées rapides permettant des expériences « à haut débit ». Alors qu'elles devaient être réalisées manuellement il n'y a encore pas si longtemps, les expériences peuvent désormais être répétées rapidement et systématiquement autant de fois que nécessaire. Il s'agit donc maintenant de développer des méthodes analytiques d'interprétation de ces données pouvant suivre une telle cadence. « A chaque fois que vous utilisez une méthode différente pour analyser ces systèmes complexes, il en ressort autre chose », indique Paul Wilmes du Luxembourg Centre for Systems Biomedicine (LCSB) de l'Université du Luxembourg.
La solution : R3 – Reproducible Research Results
Chaque laboratoire utilise ses propres programmes informatiques et ils sont souvent tenus secrets. Les méthodes informatiques changent aussi fréquemment, parfois simplement en raison d'un nouveau système d'exploitation. « Il est donc extrêmement difficile et parfois même impossible de reproduire certains résultats dans un autre laboratoire », explique M. Wilmes. « Or c'est là le fondement même de la science : une expérience doit être reproductible en tout lieu, en tout temps et doit aboutir aux mêmes résultats. Sinon, nous ne pourrions pas en tirer de conclusions probantes. »
Les scientifiques du LCSB contribuent aujourd'hui à corriger cette situation. Le Bioinformatics Core du LCSB a lancé une initiative baptisée « R3 – Reproducible Research Results » (« R3 : Résultats de Recherche Reproductibles »). « Avec R3, nous voulons permettre aux scientifiques du monde entier d'augmenter la reproductibilité et la transparence de leurs recherches grâce à une formation systématique, à l'élaboration de méthodes et d'outils et à la mise en place de l'infrastructure nécessaire », déclare le docteur Reinhard Schneider, qui dirige le Bioinformatics Core.
Les programmes informatiques sont « conservées »
Les résultats de l'initiative R3 pourront ensuite être utilisées dans des projets tels que l'IMP. « L'IMP est un pipeline reproductible pour l'analyse de données extrêmement complexes », explique le docteur Shaman Narayanasamy. Co-auteur de l'étude, il vient de finir son doctorat sur ce sujet dans le groupe de Paul Wilmes. « Nous préservons les programmes informatiques dans l'état exact dans lequel ils ont fourni certaines données expérimentales. À partir de cet état quasi-gelé, nous pouvons ensuite dégeler les programmes si les données doivent être retraitées ou si de nouvelles données doivent être analysées de la même manière. » Les scientifiques rassemblent également différents composants du logiciel analytique dans des « containers ». Ces compartiments peuvent être combinés de diverses manières sans risque d'interférences entre les différentes parties du programme.
« Les sous-programmes dans les containers peuvent être assemblés les uns à la suite des autres selon les besoins », explique le premier auteur de l'étude, Yohan Jarosz du Bioinformatics Core. Il en résulte un pipeline au travers duquel les données vont passer. Étant donné que les opérateurs informatiques sont gelés dans des containers, il est inutile d'avoir des données de référence pour connaître les conditions (type de système d'exploitation ou de processeur informatique) dans lesquelles l'analyse doit être réalisée. « Tout le processus reste complètement ouvert et transparent », précise M. Jarosz. Chaque scientifique peut ainsi modifier n'importe quelle étape du programme, en enregistrant bien évidemment scrupuleusement chaque partie du processus dans un journal de bord pour garantir une traçabilité parfaite.
Paul Wilmes s'intéresse tout particulièrement à l'utilisation de cette méthode pour l'analyse des données métagénomiques et métatranscriptomiques. Les données de ce type sont produites par exemple lors de l'analyse de communautés bactériennes complètes dans les intestins humains ou dans des usines de traitement des eaux usées. Connaître l’ensemble de l'ADN et des produits géniques rassemblés dans un échantillon permet d’identifier les espèces bactériennes présentes et actives dans les intestins ou l'usine de traitement. En outre, les scientifiques peuvent également en déduire la taille de la population de chaque espèce bactérienne, les substances qu'elles produisent à un moment donné et le type d’influence que ces organismes exercent les uns sur les autres.
La technologie est librement accessible
Jusqu'à aujourd’hui, la difficulté était que les chercheurs d'autres laboratoires avaient du mal à reproduire les résultats expérimentaux. Ce n'est plus le cas désormais grâce à l'IMP, et M. Wilmes de continuer : « Nous avons déjà procédé aux premiers tests avec l'IMP sur des données d'autres laboratoires. Les résultats sont clairs : nous pouvons les reproduire et nos calculs dans l'IMP mettent en lumière beaucoup plus de détails que l'étude d'origine, par exemple l'identification de gènes jouant un rôle crucial dans le métabolisme des communautés bactériennes. »
« Grâce à l'IMP, seules des méthodes standardisées et reproductibles sont désormais utilisées dans la recherche sur le microbiome au LCSB, et ce de la paillasse où les expériences sont réalisées à l’ordinateur où sont exécutés les simulations et les modèles informatiques. Nous avons un rôle de pionnier à jouer à l’échelle internationale », souligne M. Wilmes. « Grâce à l’initiative R3, l'IMP définit également des normes que d'autres instituts, et pas seulement le LCSB, ne manqueront pas de vouloir appliquer », ajoute Reinhard Schneider. « Nous rendons ainsi la technologie d'autres chercheurs disponible à tous. Cette norme devrait être rapidement adoptée. Seules des analyses reproductibles feront progresser la biomédecine sur le long terme. »
Un article décrivant cet outil a été publié dans la prestigieuse revue en libre accès Genome Biology. Les chercheurs peuvent également découvrir en ligne ce nouvel outil bioinformatique IMP.
Auteur: Université du Luxembourg
Photo: Paul Wilmes © University of Luxembourg