Actualités

La métagénomique : applications et perspectives

La métagénomique : applications et perspectives

actualite

Définition

La génomique est une méthode de biologie moléculaire qui consiste à décrypter l'intégralité de l'information génétique contenu dans un être vivant. Pour cela, l'ADN est extrait de l'organisme, fragmenté puis séquencé. La fragmentation de l'ADN est une étape nécessaire car notre technologie de séquençage ne permet pas de séquencer une molécule d'ADN complète (qui peut faire de quelques milliers à plusieurs milliards de bases). La majorité des séquenceurs fournissent une taille de 500 pb, mais il existe des technologies qui permettent d'attendre des fragments de l'ordre de 10 000 pb. A la suite des ces opérations, le biologiste se retrouve face un gigantesque puzzle qu'il faudra résoudre pour obtenir le génome complet de l'organisme étudié. Cette étape est appelée l'assemblage. C'est une étape automatisée qui peut se baser sur un modèle (par exemple un génome complet appartenant au même genre) ou réaliser la reconstruction à l'aveugle. On parlera d'assemblage par mapping dans le premier cas ou de novo dans le second. La reconstruction d'un génome ne peut pas se faire à partir d'une seule molécule d'ADN. Il est nécessaire d'utiliser entre 25 et 75 molécules d'ADN pour garantir un travail correct. C'est la couverture d'analyse. Aujourd’hui, nous comptabilisons 45 168 génomes complets et de nombreux projets sont en cours pour rapidement accroître nos connaissances.

La métagénomique est une méthode qui consiste à décrypter l'intégralité des génomes contenus dans un environnement. Cette approche est le Saint-Graal du biologiste et permettra d'explorer de la manière la plus exhaustive et la plus complète l'univers microbien et viral d'un échantillon. L'isolement et la caractérisation d'un organisme par les techniques conventionnelles sont à la fois très laborieux et difficiles (voire impossibles pour les organismes dits non-cultivables ou parasite obligatoire). En outre, la biodiversité virale est encore largement sous-estimée. En sachant qu'il existe pour l'espèce humaine plus d'une centaine de virus et que l'on estime le nombre d'espèces cellulaires sur Terre de l'ordre de 8,7 millions, la biodiversité virale pourrait attendre jusqu'à 800 millions d'espèces. L'écologie au sens scientifique du terme a encore de beau jour devant elle.

Les limites technologiques actuelles

Pour illustrer notre propos, nous prendrons le cas de l'étude du microbiome intestinal de l'espèce humaine. Ce sujet est actuellement en plein boom, car il a été constaté par des approches de métagénétique une variation significative de la flore microbienne entre des individus sains et malades (obésité, maladie de Crohn, etc.). Un échantillon fécal du gros intestin contient en moyenne un milliard de bactéries par gramme. Pour une expérience de métagénomique, il est généralement utilisé 1 g pour l'extraction de l'ADN. Il y a donc au moins 1 milliard d'individus répartis en approximativement 500 espèces. En comptant 5 Mb par génome d'une espèce et une couverture de 50x, il faut une profondeur d'analyse théorique de 125 Gb (un run de séquençage peut monter jusqu'à 400 Gb). Cependant les espèces microbiennes ne sont pas dans des concentrations égales, il y aura donc un sur-séquençage des espèces majoritaires et un risque de manquer les espèces rares. Si l'on applique une couverture de 30x (0,15 Gb) aux espèces présentes à 1 % dans l'échantillon, la couverture des espèces présentes à 60 % sera de l'ordre de 1 800x (~ 9 Gb). Pour couvrir à 30x les espèces les plus rares pour les travaux de la publication suivante sur l'expérience contrôle et en appliquant la même démarche de calcul, il faudrait 187 250 Gb de données sur un run. Il n'existe actuellement pas de machine capable de répondre à cette demande.

L'autre limite est bioinformatique. Des difficultés peuvent être rencontrées lors de l'assemblage lorsque le génome contient une quantité importante d'éléments répétés et l'assemblage de novo reste toujours une étape complexe. En métagénomique, il faut en plus composer avec un mélange de génomes. Le génome d'une espèce est divisé en deux parties : le génome cœur, caractéristique d'une espèce, et le génome accessoire, caractéristique d'une population ou d'un individu. Dans le génome cœur, certains éléments génétiques sont universels d'une famille ou d'un phylum. L'assignation des séquences de ces zones au bon génome n'est pas évidente et le risque de reconstruction de génomes chimériques ou consensus est élevé. Nos connaissances génétiques sont également très limitées et l'annotation des génomes sera une étape laborieuse.

Enfin une telle analyse bioinformatique requiert une puissance de calcul et une capacité de mémoire vive très importante pour obtenir des résultats dans des temps décents. Le recours à des supercalculateurs comme Titan ou Tianhe-2 est indispensable pour traiter plusieurs échantillons.

La méthode « palangre »

Mais comment font les scientifiques pour progresser dans cette thématique sachant ces limites ? Il existe deux stratégies. Tout d'abord, il suffit de baisser la complexité du problème. Pour cela, il suffit de réaliser l'étude d'environnements simples, constitués de quelques organismes, comme un milieu extrême. Sinon, il est possible de s'intéresser à une partie du métagénome comme certaines fonctions biologiques d'intérêt ou à la flore majoritaire et connue. Dans le cadre de l’obésité, les biologistes ont suivi les gènes liés à l'absorption des lipides ou au métabolisme des vitamines. Néanmoins, cette approche n'est pas sans risque sur l'interprétation. Généralement plus de la moitié des séquences appartiennent à des fonctions inconnues. La focalisation sur des éléments connus peut résulter en un biais qui maximise la validation des hypothèses attendues. On voit ce que l'on veut voir.

Pendant de nombreuses années, les ophtalmologues tenaient comme acquis que le risque de myopie était fortement lié à l'utilisation de la vue de proximité (lecture, télévision, etc.). Cependant l'augmentation alarmante des cas de myopie sur le continent asiatique a permis de réaliser des études plus larges, prenant en compte plus de facteurs environnementaux. Cette approche plus exhaustive a permis d'écarter les précédentes conclusions et d'identifier que le facteur environnemental principal était l'enfermement des enfants et la privation de la lumière solaire. L'augmentation des temps de récréation dans les écoles de la ville de Singapour a montré un impact significatif sur cette maladie.

La métagénomique actuelle permet de dresser des tendances sur les génomes d'un environnement et les fonctions biologiques présentes. Des voies métaboliques essentielles comme l'assimilation du fer ou la détoxification de métaux lourds sont très intéressantes à suivre. Mais nous sommes encore aux balbutiements de cette discipline et les efforts de recherche fondamentale demeurent importants.

La cartographie biologique du futur

Il faut rester enthousiaste et optimiste sur la métagénomique. Lorsqu'elle sera maîtrisée, elle offrira la possibilité de décrire un environnement de manière extrêmement précis. Les interactions entre les espèces seront facilement caractérisables (assimilateur de carbone, d'azote, de fer, etc.) ainsi que le suivi des phénomènes évolutifs (hybridation, etc.). Elle permettra également de détecter des traces ADN d'espèces pluricellullaires. En agronomie, nous pourrons mieux évaluer l'impact d'une stratégie sur l'environnement et réaliser une nouvelle révolution verte. En santé et hygiène, nous serons en mesure d'identifier et de suivre clairement un risque pathologique à la suite d'une variation de la flore microbienne.