Chaque cellule vivante contient des molécules d'ADN au sein desquelles sont stockées l'ensemble de son information génétique. Une partie correspond à des éléments codants pour des protéines fonctionnelles : les gènes. L'autre partie, longtemps appelée à tort ADN poubelle, contient des éléments qui vont principalement intervenir dans la structure de l'ADN, dans des mécanismes de polymorphisme, d'auto-défense et de régulation. On appelle génome, l'ensemble des molécules d'ADN d'une cellule. Ces molécules peuvent être de natures différentes : chromosome, plasmide et structure virale au sens large. La compréhension et l'analyse des génomes, la génomique, permet de lister l'ensemble des fonctions biologiques d'un organisme et de réaliser des études phylogénétiques complexes.
Pour accéder au génome, il faut tout d'abord s'assurer que les cellules isolées correspondent bien à un seul individu.
Une mauvaise sélection dès le départ pourra générer la reconstruction d'éléments génétiques chimériques. L'ADN est ensuite
isolé par des méthodes d'extraction qui vont lyser les membranes plasmiques (et nucléaires chez les eucaryotes) et purifier
les molécules d'ADN. Un contrôle qualité de l'extraction est réalisée par une approche spectrale pour estimer la proportion
d'ADN et de protéines co-purifiées. Cette étape ne permet pas de détecter d'éventuels inhibiteurs de la PCR qui pourraient
être présents également.
L'ADN est ensuite fragmenté en morceau d'environ 500 pb car les technologies de séquençage NGS ont une limite dans la taille
de lecture des molécules d'ADN. Elles présentent également une autre limite : pour séquencer un fragment d'ADN, il faut que
la machine ait une quantité suffisante pour obtenir un signal robuste. Une étape d'amplification est donc réalisée et permettra
à la fois l’isolement des fragments et la fixation d'adaptateurs pour le séquençage. Puis le séquençage à proprement parlé
débute et produira un jeu de données de séquences avec leur score de qualité.
On distingue deux types de traitement de l'information : la qualification des données brutes du séquenceur et la valorisation de
l'information génétique. Les premières étapes sont des phases de filtrage qui consistent en la sélection des séquences de bonne
qualité (filtering) et/ou la sélection des bases de bonne qualité (trimming). En fonction de la nature de l'expérience,
des étapes de détection de chimères de PCR peuvent être également ajoutées.
La seconde étape est la reconstruction des molécules d'ADN à partir des fragments. Il existe deux stratégies : l'utilisation d'un
génome de référence comme modèle (mapping) ou la recherche de zone de chevauchement entre les séquences (de novo). Il est également
possible de recourir aux deux stratégies pour améliorer la découverte de nouvelles régions inconnues. En fonction de la qualité de
la couverture de séquençage, des contigs (assemblage de fragments) sont obtenus et correspondent totalement ou partiellement au
chromosome. Si des régions restent manquantes, il est possible d'estimer la taille de la zone manquante pour concaténer les contigs (scaffold).
La dernière étape de la qualification des données brutes est la phase d'annotation. Elle est souvent réalisée à partir du génome de
référence de l'espèce, mais une approche plus exhaustive au niveau du royaume est également envisageable. L'annotation des Bactéries
et des Archaea reste plus facile car la définition des zones codantes (ORF) est plus constante. Chez les Eucaryotes, il faut
tenir compte de contextes génétiques (eg. Kozack) moins contraints.
La phase de valorisation des données de génomique est très vaste et dépend de l'objectif biologique recherché. On trouve :
La génomique et la bioinformatique ont plusieurs applications dans le domaine de l'agro-alimentaire :
Il est également possible de réaliser des analyses bioinformatiques sur l'ensemble des données de génomique
disponible afin de réaliser des screenings in-silico selon des fonctions ou des capacités de pathogénicité.
Il est cependant important de noter que la présence d'éléments génétiques ou d'un plasmide n'implique pas obligatoirement une utilisation
de cette capacité dans les conditions environnementales. En effet, une régulation génétique et épigénétique s'appliquent sur les gènes.
Un plasmide sur-enroulé n'est par exemple pas utilisable par la bactérie tant qu'il n'est pas relaxé via une topo-isomérase.