Article
Publié le 05/01/04
Par Gilles Furelaud,Yann Esnault
Photothèque scientifique / Ktsdesign,Photothèque scientifique
Conférence Zen
Après quelques rappels sur la notion de séquence nucléotidique, cet article définit ce qu'englobe le séquençage du génome et présente les modalités techniques et les limites (ainsi que les aspects statistiques). Il fait le point sur les avancées du séquençage de la biodiversité des organismes vivants et présente enfin les diverses possibilités qui découlent de la connaissance du génome complet d'un individu ou d'une espèce.
introduction
Un grand nombre de génomes, y compris le génome humain, ont maintenant été séquencés, et d'autres génomes sont en train d'être séquencés. De nombreux laboratoires publics et privés participent (parfois simultanément) à cet immense effort qui révolutionne à la fois la biologie fondamentale et les biotechnologies.
Le but de ce document est de fournir quelques données sur le séquençage du génome et comment il est effectué. Vous pouvez également trouver plus d'informations dans le documentséquençage ADN.
Les génomes séquencés
Mémoire des séquences nucléotidiques
Les nucléotides, maillons élémentaires de l'ADN, peuvent être de 4 types différents dans cette molécule. D'un point de vue chimique, ils sont constitués d'une partie constante (structure sucre-phosphate) et d'une partie variable, une base. Les 4 bases présentes dans l'ADN sont désignées A, T, G et C (adénine, thymine, guanine et cytosine).
La séquence de bases le long d'un brin d'ADN est la séquence de ce brin. On parle alors de séquence nucléotidique (figure ci-dessous).
On peut donc exprimer la taille d'une séquence en nombre de bases - kilobases(kB) pour des milliers de bases, mégabases(Mo)pour millions de bases, gigabases (Go)par milliard de bases - et la taille d'une molécule d'ADN en nucléotides ou paires de bases, pour se rappeler qu'une molécule d'ADN est constituée de deux brins antiparallèles complémentaires.
Qu'est-ce que le séquençage du génome ?
Le séquençage d'un génome consiste à déterminer la séquence nucléotidique de l'ADN présent dans chaque cellule d'un organisme donné.
Cette détermination est généralement d'autant plus difficile que le génome étudié est large et riche en séquences répétées.
Les virus, qui possèdent de petits génomes sans séquences répétées (entre 3 000 et 150 000 paires de bases, souvent moins de 10 000), ont ainsi été les premiers « organismes » à être séquencés et en représentent encore aujourd'hui la majorité.
La première bactérie a été séquencée en 1995, et de nombreux autres procaryotes ont été entièrement séquencés depuis lors. La taille de leur génome est de l'ordre de quelques millions de paires de bases (mégabases, Mb). Chez les organismes eucaryotes, la difficulté est tout autre : la taille de leur génome (par exemple 2 à 3 milliards de paires de bases chez les mammifères) nécessite un travail de cartographie préalable et souvent un effort collaboratif de plusieurs centres de séquençage. Cependant, les "petits" génomes eucaryotes (comme celui de Paramecium, qui mesure "seulement" 100 Mb) peuvent désormais être séquencés à partir d'un seul grand site sans cartographie préalable.
Bien que les eucaryotes entièrement séquencés soient moins nombreux que les procaryotes et les virus, leur nombre augmente constamment. Certaines séquences sont dans des brouillons très fragmentaires et incomplets ; d'autres donnent un aperçu beaucoup plus complet du génome. Cela reflète les efforts de séquençage entrepris ainsi que la stratégie choisie par les auteurs de séquençage, comme indiqué ci-dessous. En mars 2014, 12 919 génomes cellulaires avaient été entièrement séquencés (hors virus), 27 399 étaient en cours de séquençage et 996 étaient en préparation.
Quant aux humains, la première séquence du génome humain, annoncée fin 2000 avec une large couverture médiatique, n'était en aucun cas une séquence complète. Cela existe depuis avril 2003 à l'exception de quelques "trous".
La liste suivante donne quelques exemples des premiers génomes séquencés.
Virus : 3 778 virus séquencés (au 4 mars 2014), dont le VIH (Virus de l'Immunodéficience Humaine).
Procaryotes :
Archaebactéries : 319 génomes complets et 447 partiels séquencés au 4 mars 2014.
Eubactéries : 12 286 génomes complets et 20 403 partiels séquencés au 4 mars 2014. Exemples :
Escherichia coli
Agobacterium tumefaciens
Haemophilus influenzaeRd. (En 1995, le premier génome cellulaire a été séquencé)
Eucaryotes : 314 génomes complets séquencés et 6660 partiellement séquencés au 4 mars 2014. Exemples (les 5 premiers cités sont les 5 premiers publiés, avec la mise en garde citée pour celui des humains) :
Saccharomyces cerevisiae(levure, premier eucaryote séquencé en 1997, plusieurs souches sont en cours de séquençage aujourd'hui)
Caenhorabditis elegans(Nématodenwurm)
Drosophile melanogaster(mouche de vinaigre)
Arabidopsis thaliana(Arabet, petite plante de la famille des choux)
Un homme sage(nous, l'espèce humaine : plusieurs individus séquencés, dont Watson)
Neurospora crassa ( Champignon Ascomycète )
Anopheles gambiae(Moustique)
Le titre Takifugu(Fugu, poisson-globe consommé au Japon)
muscle de la souris(Maus)
Plasmodium falciparum(parasite intracellulaire responsable du paludisme)
Oryza sativa(Riz : deux sous-espèces consécutives ;japonaisetindica)
De nombreux projets de séquençage sont actuellement en cours ou à l'étude. Ces projets se comptent par milliers, il serait trop long de tous les lister ici...
Plus d'informations sur ce sujet peuvent être trouvées sur le siteOR(En lignedatéavec), qui répertorie tous les génomes séquencés ainsi que les projets en cours.
Séquençage du génome : comment ça marche ?
Depuis la fin des années 1970 et l'avènement des techniques de biologie moléculaire, il est possible de séquencer un brin d'ADN, c'est-à-dire de lire la séquence ou la séquence des nucléotides qui composent cette molécule. . Cela revient en fait à déterminer la séquence des bases, seule partie variable des nucléotides (pour plus d'informations sur les principes de lecture de l'ADN, voir le document "séquençage ADN"). Or, les techniques actuelles ne permettent de lire qu'un millier de bases au maximum à chaque opération de séquençage. Or, la partie "séquençable" du génome humain est de 2,9 milliards de paires de bases (gigabases, Gb) ! Il est donc impossible de lire tout le génome d'un coup Dans tous les cas, il est impossible de manipuler des molécules d'ADN comportant des dizaines, voire des centaines de millions de bases (de l'ordre de celles qui composent les chromosomes humains).
remarqué
On parle de la « partie séquençable » du génome humain (2,9 Gb, pour un total de 3,2 Gb). En effet, il n'est techniquement pas possible de déterminer la séquence de certaines régions composées presque entièrement de séquences répétitives, comme les centromères, les télomères ou les bras courts de certains chromosomes. Il y a deux raisons à cela : premièrement, il est difficile d'isoler des fragments d'ADN de taille appropriée à partir de ces régions ; En revanche, il n'est pas possible de reconstituer la séquence complète à partir de morceaux de séquences pratiquement identiques.
Par conséquent, seule la séquence de la partie dite euchromatique du génome peut être déterminée efficacement.
Ci-dessous, lorsque nous rapportons les pourcentages d'ADN humain séquencé, nous nous référons toujours à ces 2,9 milliards de paires de bases et non aux 3,2 milliards de l'ensemble du génome.
Le principe de base de tout séquençage d'un génome est donc de fragmenter aléatoirement ce génome - ou de gros morceaux d'ADN qui en sont dérivés - pour obtenir des morceaux d'ADN de quelques milliers de paires de bases faciles à manipuler. Les extrémités d'un grand nombre de ces petits fragments sont ensuite séquencées. La séquence complète du génome - ou le gros morceau du génome - est ensuite reconstruite, ou lue, à partir de ces séquences unitaires sur la base des chevauchements entre les séquences (si les séquences se chevauchent, les fragments d'ADN dont elles sont dérivées ont une partie de c'est leur longueur commune ; la cassure est aléatoire, les molécules d'ADN de l'échantillon ne sont pas toutes cassées aux mêmes endroits).
Cependant, cette méthode présente certaines difficultés : premièrement, afin d'obtenir suffisamment de séquences se chevauchant et de minimiser les erreurs de séquençage, il est nécessaire d'atteindre un certain niveau de redondance, i. H pour générer un ensemble de séquences aléatoires qui sont des multiples de la longueur de la séquence d'intérêt. Cela conduit à un très grand nombre de séquences à produire... Dans de nombreux projets de séquençage on détermine ainsi la séquence de 10 fois plus d'ADN que n'en contient le génome à examiner : on parle d'une profondeur de 10X. Dans ce cas, chaque base de la séquence cible a été lue dix foisen moyenne, mais certains plus, certains moins et d'autres pas du tout. Par conséquent, même à 10X, des "trous" peuvent subsister, rendant la séquence finale très facilement incomplète.
Séquençage, compléments : fragments séquencés et lois statistiques
Dans un projet de séquençage, le rapport de la longueur de toutes les séquences lues de bout en bout à la longueur du génome cible est appelé la profondeur. Par exemple, si nous séquençons 25 millions de bases (Mb) pour un génome de 5 Mb, nous avons une profondeur de 5 équivalents de génome, que nous écrivons 5X. Plus la profondeur est grande, plus les lectures qui se chevauchent peuvent être assemblées et plus la proportion du génome couverte est grande. Ceci permet d'obtenir une séquence finale la plus complète possible avec un minimum de « trous », régions non séquencées. Cependant, s'il est possible de réduire ces lacunes de séquence en augmentant la profondeur de séquençage, il arrive un seuil auquel il est plus économique de combler délibérément les quelques lacunes restantes. De plus, il peut y avoir des distorsions dans les représentations, ce qui signifie que certaines régions sont moins ou pas du tout couvertes.
Il est possible de représenter mathématiquement ces trous dans la séquence finale. Cependant, cela reste idéalisé et atteindre une couverture donnée nécessite en pratique une profondeur souvent supérieure à la profondeur théoriquement suffisante. Cela est particulièrement vrai pour les grands génomes tels que celui des humains.
Si la longueur moyenne n des lectures est très petite par rapport à la longueur L de la séquence cible et que le nombre de lectures est très grand, alors on peut supposer que la probabilité qu'une base de la séquence cible soit représentée dans x lectures obéit à une loi de Poisson loi,PXe -P/ X !où P est la profondeur. Regardons ensuite le résultat de l'assemblage pour deux valeurs de profondeur, en choisissant le génome humain comme séquence cible.
Exemple 1 | exemple 2 | |
Soit L la taille de l'ADN examiné. | L = 3,109nucléotide | L = 3,109nucléotide |
On a donc la profondeur de lecture : profondeur P = N/L | P = (3.10dix) / (3.109) =10X | P = (9.109) / (3.109) =3X |
Soit n la taille de chaque lecture. | n = 1000 Nucléotides | n = 1000 Nucléotides |
Donc nous avons: | ||
Fraction d'ADN représentée par au moins une lecture : | ||
ADN lu = 1 – z-N/L | ADN lu = 1 – z-dix= 0,9999546 | ADN lu = 1 – z-3= |
Nombre de trous : | ||
N_trous = (N/n).e-N/L | N_trous = | N_trous = |
Taille moyenne des trous : | ||
T_trous = L.n/N | T_trous = | T_trous = |
Ce calcul montre que pour un même génome de 3 milliards de paires de bases, on obtient une couverture d'extrémité très différente selon qu'une profondeur de 3 ou 10 est choisie pour le séquençage.
Les portions de la séquence cible non couvertes par les lectures aléatoires présentent une deuxième difficulté : en raison de ces lacunes, le résultat de la fusion des lectures qui se chevauchent n'est pas une séquence continue, mais plusieurs blocs de séquences continues, ou « contigs ». ', qui peuvent initialement être difficiles à orienter et à ordonner les uns par rapport aux autres et à attribuer à un emplacement dans le génome. Le séquençage continue d'améliorer la situation, mais un travail ciblé peut être nécessaire pour combler certaines lacunes.
Ces difficultés expliquent pourquoi les premiers génomes à séquencer étaient initialement de très petits génomes : ceux des virus. Les progrès technologiques (développement des séquenceurs automatiques, montée en puissance des ordinateurs, algorithmes bioinformatiques d'assemblage de séquences, etc.) permettent ensuite de séquencer des génomes de plus en plus gros : le premier génome bactérien (Haemophilus influenzae) en 1995, puis le premier eucaryote entier (Saccharomyces cerevisiae) en 1996. La mise en place de grands centres de séquençage, l'afflux de fonds publics ou caritatifs, et la baisse des coûts de séquençage au cours de la dernière décennie ont permis de s'attaquer aux génomes des eucaryotes supérieurs, y compris humains.
Schématiquement, deux stratégies de séquençage sont actuellement utilisées :
la stratégie globale de séquençage aléatoire, "fusil à pompe à génome entier» ;
la stratégie « clone par clone » ou « shotgun hiérarchique », qui suppose la construction préalable ou simultanée d'une carte physique. Cette dernière stratégie a notamment été utilisée par le consortium international en charge du séquençage du génome humain.
En effet, on assiste au développement de stratégies de plus en plus "mixtes", comme celles utilisées par le consortium public chargé du séquençage du génome de la souris. Le contraste apparemment net entre ces deux stratégies devient de moins en moins net. Cependant, par souci de clarté, nous les expliquerons séparément.
Stratégie globale de séquençage aléatoire
Historique
Cette stratégie de séquençage "aléatoire" appliquée à l'ensemble du génome (ou "fusil à pompe à génome entier’) est utilisé depuis le début du séquençage en 1982 pour arriver à la fin du génome du bactériophage lambda. C'est la stratégie utilisée aujourd'hui pour tous les génomes bactériens. Il est davantage associé à des entreprises privées comme Celera Genomics ou Syngenta car il est rapide et économique. Celera a ainsi réalisé le séquençage de multiples organismes grâce à une stratégie aléatoire globale. Cependant, il convient de noter que pour les grands génomes comme celui des humains, ces sociétés se sont souvent appuyées sur des données cartographiques produites par des chercheurs universitaires. De plus, pour ces grands génomes, on a tendance aujourd'hui à utiliser des stratégies mixtes combinant séquençage aléatoire global et clone par clone.
Le séquençage du génome humain a conduit à un différend médiatique entre Celera Genomics et le consortium international responsable du projet du génome humain, qui à son tour a utilisé une stratégie clone par clone. Celera Genomics a affirmé l'avoir fait principalement par le biais d'un séquençage aléatoire mondial, mais la réalité est plus compliquée (voir ci-dessous). D'autre part, des génomes au stade de brouillon comme celui du moustique Anopheles ont en fait été séquencés en utilisant cette seule stratégie. Les données du projet de séquençage du génome de ce moustique sont fournies ci-dessous à titre d'exemple, mais nous mettrons d'abord en évidence le principe du séquençage aléatoire global à partir d'un projet plus petit, celui de la première bactérie séquencée :Haemophilus influenzaeRd.
La technique du « shotgun » repose sur un principe simple : découper un génome en plusieurs petits fragments. Les extrémités d'une partie de ces fragments sont ensuite séquencées, puis ces séquences sont assemblées en fonction de leurs recouvrements grâce à des programmes informatiques pour tenter de générer une séquence complète. Les difficultés d'une telle technique sont doubles : (1) avoir suffisamment de fragments pour couvrir tout le génome et (2) réussir à les assembler.
Combien de fragments pour un génome ?
Le génome dehémophileGrippeRd a 1,8 million de paires de bases (Mb). Le centre de séquençage privé TIGR (L'Institut de recherche sur le génomede Rockville, Maryland, USA) a déterminé la séquence et l'a publiée dans le magazine en 1995Science. Comment les chercheurs du TIGR ont-ils procédé ? Dans un premier temps, ils ont perturbé mécaniquement le génome de cette bactérie et créé une "banque" de petits fragments d'ADN d'environ 2000 paires de bases (pb). Ils ont ensuite séquencé près de 20 000 de ces fragments à une extrémité ou aux deux, et enregistré plus de 24 000 lectures (produits d'une seule séquence de séquençage) pour l'assemblage. D'une longueur moyenne de 470 paires de bases, ces reads représentent plus de 11,6 Mo séquencés, soit 6,3 fois la longueur du génomeH. influenzae(6,3x profondeur).
Pourquoi avez-vous autant séquencé ? Un raisonnement naïf nous amène à la conclusion qu'il ne faut qu'environ 4000 lectures pour couvrir l'ensemble du génomeH. influenzae(4 000 x 470 pb = 1,88 Mo). Ce n'est pas ainsi ! En fait, l'ADN est extrait de nombreuses cellules (pour en avoir des quantités suffisantes) et cassé au hasard ; Chaque copie du génome est donc cassée en des points différents et les fragments obtenus se chevauchent, comme nous l'avons déjà indiqué. Aussi, l'échantillonnage des fragments pour le séquençage est là encore aléatoire (chaque lecture peut être comparée à une sélection aléatoire d'un morceau de la séquence du génome). Donc, si vous faites juste le "bon" nombre de lectures (1X profondeur), beaucoup d'entre elles couvriront les mêmes régions... L'ensemble du génome ne sera pas couvert.
Mais même un ensemble de 4000 lectures qui couvrent parfaitement le génome sans chevauchement, si c'est possible, ne ferait pas grand-chose. Comment arrangerait-on alors ces séquences entre elles pour reconstituer le puzzle ? Le chevauchement des fragments permet de « rassembler » les séquences lues à partir de ces fragments en fonction de leur similarité et d'obtenir des blocs de séquences plus grands. Cela permet également de corriger d'éventuelles erreurs de séquencement, les différentes lectures couvrant la même plage. À mesure que le nombre de fragments séquencés augmente, la longueur des blocs de séquence que nous pouvons assembler, la proportion du génome qui est couverte et la précision de la séquence augmentent également.
Documents à télécharger
Pourquoi produire une quantité de séquence plusieurs fois la longueur de l'ADN séquencé ?
Télécharger
Cette animation flash (fichier swf) explique comment se fait le séquençage à l'aide d'un exemple très théorique. Une profondeur de 1X ne peut pas atteindre une séquence complète. Il faut donc séquencer beaucoup plus d'ADN.
L'assemblage laisse des trous
Revenons àHaemophilus influenzaeet regardez le résultat de l'assemblage de TIGR à 6X : enfin, la comparaison des 24 000 lectures entre elles (une opération intensive en calculs) a permis 140 grands blocs de séquences continues ou contigs (pour "épisode connexe"). Sur la base d'un calcul statistique, on s'attendrait à ce que les 140 trous correspondants soient petits : moins de 100 paires de bases en moyenne. Cependant, à ce stade, nous ne connaissions pas la position respective des contigs dans le génome, il restait à être dit organiser et aligner.
Pour déterminer les relations de voisinage des contigs, les chercheurs du TIGR se sont ensuite penchés sur les "liens clones", c'est-à-dire les lectures obtenues aux deux extrémités d'un même fragment d'ADN, et ont recherché les paires ancrées dans deux contigs différents. Cela relie les deux contigs et les oriente. De plus, le fragment d'ADN "enjambant" l'espace entre les deux contigs peut être séquencé davantage, permettant à l'espace d'être comblé.
De cette manière, les chercheurs du TIGR ont réussi à assembler les 140 contigs en 42 échafaudages plus grands et à combler les 98 lacunes ainsi créées. Cela a laissé 42 trous "physiques" qu'aucun fragment d'ADN ne traversait, parmi ceux choisis pour le séquençage. Diverses méthodes ont été utilisées pour les relier, notamment le séquençage des extrémités de fragments d'ADN plus gros (20 000 paires de bases), qui peuvent produire des jonctions clonées à plus grande échelle. Cette finition a fourni la séquence complète du génome : les 1 830 137 paires de bases du chromosome circulairehémophileGrippeRd ont été déposés dans les bases de données et portés à la curiosité des scientifiques du monde entier.
Documents à télécharger
La comparaison des séquences obtenues permet la reconstruction du génome
Télécharger
Animation flash (fichier swf)
Limites et avantages de la stratégie globale de séquençage génomique aléatoire
Entre-temps, le séquençage aléatoire mondial s'est imposé pour les génomes bactériens. Comment s'applique-t-il à des génomes plus grands et plus complexes ? L'exemple du séquençage des moustiques africainsAnopheles gambiae, principal vecteur du paludisme, mettra en évidence certaines limites de cette stratégie.
L'intérêt principal du séquençage aléatoire global réside dans le fait qu'il n'est pas nécessaire de réaliser une carte physique préalable, étape longue et fastidieuse, comme nous le verrons dans le chapitre suivant. Mais cela rend l'assemblage particulièrement délicat : il nécessite une puissance de calcul très importante et le résultat n'est pas garanti... Un génome comme celui du moustique anophèle, long de 280 Mo (plus de 150 fois la taille du génomehémophileGrippeRd), a en effet des difficultés complètement différentes de celles d'une bactérie : elle est non seulement 100 fois plus longue, mais aussi beaucoup plus riche en séquences répétées. Enfin, il est diploïde, et la présence d'une hétérozygotie importante introduit des incertitudes et des erreurs lors de l'assemblage (les reads assemblés dans la stratégie globale de séquençage aléatoire peuvent en réalité provenir de deux chromosomes homologues, ce qui n'est pas le cas, comme nous le verrons dans "Clone- pour la stratégie -clone"). Comment alors déterminer si deux séquences très similaires correspondent à des allèles d'un même locus (elles sont alors légitimement assemblées) ou si des séquences issues de deux sites différents du génome sont le résultat d'une duplication récente et ne diffèrent que peu ?
Le projet de séquençage d'Anopheles, achevé en 2002, a été principalement porté par Celera (90 % des lectures) et par Genoscope. Plus de 4,5 millions de lectures ont été produites, principalement appariées, soit une profondeur de 10x. Une différence avec l'exemple précédent est que les lectures proviennent du séquençage des extrémités de fragments d'ADN de tailles différentes : à la plupart des petits fragments (2,5 et 10 kb) s'ajoute cette fois une grande partie des fragments de 50 kb. ou même 100 Ko fournissant des liens de clonage "longue portée". Grâce à de telles connexions de clonage, les 19 000 contigs produits par l'assemblage ont pu être assemblés en 9 000 "scaffolds". On voit donc qu'il s'agit d'une version très fragmentée de la séquence génomique d'Anopheles, même si 90% de la séquence est contenue dans 300 grands frameworks. Si l'achèvement d'un tel design génomique était tenté (rien n'est moins sûr !), son coût et sa difficulté seraient sans commune mesure avec ceux de l'achèvement de la séquence deH. influenzae. Alors pour un tel génome, et plus encore pour celui d'un mammifère, la stratégie globale de séquençage aléatoire est rapide et économique... si l'on veut s'en tenir à un brouillon de séquence du génome. Ceci est approprié pour certaines utilisations de la séquence, moins pour d'autres. En particulier, l'annotation précise des gènes nécessite une séquence de qualité « finie ».
Pour aller plus loin et revoir certains aspects très remarqués de ce séquençage du génome, lisez les commentaires ci-dessous sur la version proposée par Celera Genomics de la séquence du génome humain.
accordéon
Titre
Commentaires sur la version du génome humain reçue de Celera
Texte
Les difficultés évoquéesParles anophèles sont encore plus épineux dans le cas desPard'un mammifère comme l'homme, dix fois plus gros et composé de près de 50% de séquences répétées (tout en notant que le polymorphisme est moins important chez l'homme que chez le moustique anophèle). L'intérêt de la stratégie deséquençagel'aléatoire global dans sa forme "pure" reste donc controversé pour desGénome. LEGénomeDes souris et des rats ont été récemmentséquencéselon une stratégie "mixte", combinantséquençagealéatoire global et effort cartographique.
Cette mise en garde peut surprendre : certains lecteurs se souviennent peut-être des annonces spectaculaires de l'entrepriseSellerie Génomiqueen 2000. Le fougueux fondateur deSellerie, Craig Venter a alors affirmé en avoir reçu une version de qualitéParhumain à travers la stratégie deséquençageglobalement aléatoire. Sur la base de ces annonces et de la polémique qui s'en est suivie, il est intéressant d'en revisiter certains aspectsséquençage.
Sellerieproduit en fait près de 15 Go de lectures aléatoiresDNSde plusieurs individus, c'est-à-dire une profondeur de 5X. Cependant, nous ne savons pas si Craig Venter et ses collaborateurs ont tenté de reconstituer ces séquences seuls, et si oui, quel a été le résultat de ce travail à 5X... On peut supposer qu'une telle tentative était vouée à l'échec : certains chercheurs comprendre qu'il faudrait bien plus de 10 fois la profondeur pour obtenir une couverture satisfaisante de laParHumain à travers une stratégie deséquençageglobalement aléatoire.
Au moins l'équipeSelleriene s'en tient pas à ses seules données. Elle a ajouté des données de séquence "empruntées" au consortium public, le plus légal au monde, car contrairement à ses chercheurs, ces données sont librement disponibles dans le monde entier. Pour exécuter ce prêt, Venter et ses collègues ont informatisé les séquences assemblées par le consortium de deux manières différentes ; Ils ont ainsi produit des pseudo-lectures régulièrement espacées et se chevauchant parfaitement qui, selon eux, ne représentent "que" 2,9x - à leur avis, un petit ajout à leur 5x la séquence. En fait, ces pseudo-lectures sont 7,5 fois la séquence publique utilisée pour assembler la séquence « désassemblée » : elles conservent la plupart des informations d'assemblage. Ainsi, "l'emprunt" est beaucoup plus important que Venter n'est prêt à l'admettre. Mais l'utilisation des données publiques ne s'est pas arrêtée là :Selleriea également utilisé la carte physique créée par le consortium international pour créer un assemblage « compartimenté ». Partager la difficulté du montage en regroupant les lectures localement : une philosophie assez éloignée de çaséquençageglobalement aléatoire.
Quel a été le résultat de tous ces emprunts ? Étonnamment, la séquence s'est construite à traversSellerieet décrit dans un article de la revue Science en février 2001, n'était pas spectaculairement meilleur que celui du consortium public, comme on aurait pu s'y attendre. Il ne couvrait que 90 % duParhumain, le reste sous forme de millions de reads d'environ 600 bases, inutiles car non assemblés. Et surtout, il restait près de 170 000 trous...
Pourtant, ces querelles de chiffres pesaient peu à l'époque au regard des effets d'annonce qui faisaient grimper la campagneSellerie.
Il faut reconnaître que cette initiative privée a servi d'aiguillon au projet public : c'est en partie grâce à Craig Venter que l'on dispose depuis avril 2003 d'une version de référence de la séquence duParhumain, accessible librement et sans restriction.
Stratégie "cloner par clone"
Cette stratégie « clone par clone » (également appelée « fusil de chasse hiérarchique ») est utilisée par l'International Human Genome Sequencing Consortium (HGP : Projet Génome Humain). C'est un processus en deux étapes : créer une carte physique, disposer de grands clones dans le génome humain,AlorsSéquençage (de type "shotgun") de ces clones. La carte peut également être créée au cours du séquençage. Les cartes de liens sont un outil essentiel dans la construction d'une carte physique.
Cartes de liens : pour naviguer dans le génome
Ces cartes permettent de disposer des marqueurs, c'est-à-dire des points de référence, le long des chromosomes en mesurant leur liaison par paires. La nature de ce lien dépend du type de carte. Deux types d'approches sont utilisées pour créer une carte de connexion.
Une première approche est l'utilisation de marqueurs génétiques polymorphes, qui sont ordonnés en examinant la fréquence de recombinaison génétique (mesure de leur "liaison génétique"). Les cartes ainsi obtenues sont appelées "cartes génétiques". La première carte génétique de l'ensemble du génome humain remonte à 1987 ; il était basé sur des marqueurs de type RFLP obtenus à l'aide d'enzymes de restriction. Les marqueurs privilégiés depuis le début des années 1990 sont les microsatellites. En 1996, le laboratoire Généthon publie une carte génétique de référence du génome humain et commande 5264 microsatellites, encore très utiles aujourd'hui. Elle a notamment permis la cartographie de nombreux gènes associés à des maladies génétiques.
Le deuxième type de carte de liaison utilise des marqueurs moléculaires qui ne sont pas nécessairement polymorphes. Ce sont des séquences d'ADN uniquement présentes dans le génome (STS : sites avec des balises de séquence), qui contient également des marqueurs génétiques. Ces marqueurs sont ordonnés en mesurant la fréquence avec laquelle deux d'entre eux sont séparés par une fracture induite par les rayons X. Dans ce cas, nous parlons de cartes obtenues par des hybrides d'irradiation.
Les marqueurs moléculaires des cartes de liaison sont précieux pour valider et ancrer les cartes physiques le long des chromosomes.
La carte physique : une collection de clones
L'objectif principal de la création d'une carte physique est de faciliter la création de la séquence finale du génome. Dans la stratégie de séquençage clone par clone, la phase de séquençage aléatoire est effectuée sur chacun des grands fragments ordonnés de la carte plutôt que sur l'ensemble du génome. Cela réduit la difficulté d'assemblage à des fragments allant jusqu'à 300 000 paires de bases au lieu des 3 milliards du génome entier. Cette stratégie permet aussi de focaliser la finition : on peut repartir à volonté du fragment sur lequel on travaille pour parfaire l'enchaînement, combler les trous, etc. Il est aussi plus facile de faire le travail avec un minimum de coordination pour répartir entre plusieurs collaborateurs, pour vérifier la validité de la séquence assemblée et éviter en partie les problèmes de polymorphisme (dans un séquençage aléatoire global, même à partir d'un seul individu, on assemble en fait des séquences issues de deux chromosomes).
Pour créer une carte physique, nous disséquons le génome (humain dans notre cas) en gros fragments pour couvrir l'ensemble du génome avec relativement peu de fragments. La carte réalisée par le consortium international a ainsi permis de définir un "chemin de couverture minimum" de 26 614 fragments pour un total de 2 841 366 484 paires de bases.
Les fragments nécessaires à la création d'une carte physique mesurent en moyenne plus de 100 000 paires de bases (100 kilobases). Le premier problème qui s'est posé à la communauté scientifique a été de trouver des vecteurs supportant des inserts de cette taille.
Les vecteurs les plus couramment utilisés en biologie moléculaire, plasmides et cosmides, ne permettent pas le clonage de fragments supérieurs à 45 kilobases (45 000 paires de bases). Ils ne conviennent donc pas aux missions de clonage suffisamment importantes pour créer une carte physique. Dans un premier temps, les chercheurs ont utilisé des chromosomes artificiels de levure (YAC : Chromosome artificiel de levure). Ces vecteurs ont permis l'insertion de fragments jusqu'à 1000 kilobases. Mais ils ont été abandonnés : en fait, un échange de fragments d'ADN a eu lieu... Certains clones « chimériques » ne correspondaient donc plus aux inserts clonés.
Les vecteurs qui ont été utilisés pour créer la carte physique du génome humain sont principalement les chromosomes artificiels bactériens (BAC : Chromosome Artificiel Bactérien). Bien qu'ils aient une capacité inférieure au YAC (seulement 300 kilobases maximum, 150 kilobases en moyenne), ils n'ont pas les graves lacunes. Les vecteurs dérivés du phage P1 (leCAP) de même capacité ont également été utilisés.
Commandez les clones
La première étape a donc été d'obtenir de gros clones, de l'ordre de 100-200 kilobases. Il s'agissait alors d'ordonner ces clones, c'est-à-dire de les positionner les uns par rapport aux autres et le long des chromosomes humains.
Le positionnement des clones les uns par rapport aux autres fait appel à différentes techniques dont le point commun est de rechercher les parties communes entre différents clones. Certaines de ces techniques comprennent :
l'utilisation de profils de restriction : les clones sont digérés par des enzymes de restriction, puis on vérifie si différents clones ont des fragments de même taille. Il y a alors de fortes chances que ces clones partagent une région génomique que les enzymes de restriction coupent aux mêmes sites.
Hybridation interclonale : Si deux clones peuvent s'hybrider, c'est parce qu'ils partagent des séquences.
l'utilisation deSTS(Sites de séquence avec balises): Si deux clones peuvent s'hybrider à l'une de ces séquences uniques du génome humain, c'est parce qu'ils partagent une région commune.
Les groupes de grands clones imbriqués ainsi formés peuvent alors être positionnés le long des chromosomes, grâce notamment aux cartes de liaison.
Une fois que tous les grands clones sont ordonnés et positionnés le long du génome humain, nous avons une carte physique du génome. On peut alors sélectionner un ensemble minimal de grands clones qui se chevauchent (un chemin qui se chevauche) pour les séquencer. Concrètement, la sélection des gros clones à séquencer peut se faire simultanément à l'avancement du séquençage, ce qui permet de minimiser dans une certaine mesure les zones de recouvrement entre les gros clones.
Une stratégie "shotgun" pour le séquençage final
Pour séquencer les gros clones, on utilise une stratégie de type « shotgun » (séquençage aléatoire) : chaque gros clone est découpé en un grand nombre de petits fragments (environ 2 kilobases – 2 000 paires de bases), dont les extrémités sont séquencées individuellement… Ces séquences sont ensuite assemblés pour fournir une séquence aussi complète que possible du grand clone. La compilation des séquences des grands clones (à l'exception des lacunes les plus proches qui peuvent subsister entre ces clones) donne la séquence du génome humain.
Avancement du projet génome humain
La carte physique a été achevée par le consortium international au début des années 2000. A l'époque, il couvrait 97% du génome humain. Un séquençage 7,5 fois à partir de cette carte avait permis d'assembler un brouillon de séquence qui couvrait 87 % du génome, dont 28 % étaient déjà disponibles en tant que séquence « complète ».
En passant de 7,5X à 10X et en ciblant les régions et les lacunes de faible qualité, le consortium est passé de ce projet à une séquence complète du génome humain, qui a été célébrée en avril 2003. Cette séquence couvre 99% du génome humain avec une précision de 99,99%.
Documents à télécharger
Résumé des méthodes de séquençage
Télécharger
Animation flash (fichier swf)
Apport des génomes séquencés
Pourquoi dépenser beaucoup d'argent public ou de dons pour séquencer des génomes ?
Nous pouvons – et devons – nous poser cette question. La réponse n'est pas simple, car le séquençage complet des génomes peut avoir des applications très différentes, tant pour la médecine, pour la recherche appliquée que pour la recherche fondamentale (sans laquelle, rappelons-le, il n'y a pas de recherche appliquée).
Nous proposons ici, en conclusion de ce document sur le séquençage du génome, quelques brefs exemples d'apports possibles du séquençage du génome.
connaissances sur les gènes
La détermination de la séquence complète d'un génome n'est que la première étape de son étude. Il faut ensuite déterminer où se situent exactement les gènes et leurs régions régulatrices. Cette « annotation » est toujours en cours pour le génome humain, bien qu'un grand nombre de gènes aient déjà été identifiés. On peut espérer disposer dans un futur proche d'un inventaire relativement complet et précis des gènes humains. Le séquençage complet du génome est une étape nécessaire pour parvenir à ce résultat. L'étude des seuls ARN messagers s'est rapidement révélée insuffisante. De plus, l'obtention d'une séquence complète du génome humain empêche les chercheurs du monde entier de lancer des recherches génétiques de manière redondante, moins efficace et plus coûteuse.
Cette connaissance approfondie des gènes humains est un effort de recherche fondamentale. Ces résultats ne s'appliquent pas directement. Cependant, cette connaissance des gènes débouche alors sur de nombreuses applications pratiques.
De plus, connaître les génomes de plusieurs organismes permet, d'une part, de faciliter l'identification des gènes par des comparaisons entre séquences génomiques et, d'autre part, de comparer les gènes eux-mêmes. Ces recherches, qui peuvent être menées sur des gènes présents dans des organismes phylogénétiquement très éloignés (de nombreux programmes de séquençage sont en cours), permettent de mieux comprendre la fonction et l'importance de ces gènes, ainsi que leur histoire évolutive. Ces futures découvertes devraient profiter à toutes les branches des sciences de la vie, que ce soit le développement embryonnaire, l'immunologie, les neurosciences, etc.
Recherche liée aux maladies génétiques
De nombreuses maladies humaines sont dues à l'expression (ou à l'absence d'expression) d'allèles d'un même gène (on parle généralement d'allèles "mutants", bien que cette terminologie soit contestée) : ce sont les "maladies génétiques". Afin de pouvoir traiter et, surtout, diagnostiquer ces maladies, il est important de savoir quel gène est impliqué (il arrive que ce ne soit pas toujours le même gène d'un patient à l'autre) et quel allèle (ou allèles) responsable est. .
Sans séquence complète du génome, la tâche est souvent très ardue : à partir d'études menées sur des familles touchées par ces maladies, les chercheurs remontent jusqu'à une « région » chromosomique porteuse de la mutation en question. Il faut alors chercher "à l'aveugle" parmi les centaines de gènes de cette région pour tenter de trouver le gène en cause. Avec la séquence complète annotée, si une région chromosomique est affectée, nous avons immédiatement la liste des gènes présents dans cette région. En se basant sur les propriétés connues (ou supposées par analogie) de ces gènes, on peut alors très rapidement orienter les études vers les quelques gènes "candidats" qui ont le plus de chances d'être impliqués dans la pathologie étudiée (mais parfois que le gène affecté est un gène qu'aucun indice ne pouvait suggérer et qui ne pouvait donc impliquer que l'étude génétique, qui est toute la puissance de cette approche de « clonage positionnel »). L'ensemble de l'analyse peut ainsi être effectué plus rapidement et à moindre coût.
Cela devrait donc conduire à l'isolement de nombreux gènes responsables de maladies héréditaires dans un futur proche. Ces découvertes pourraient alors être la première étape dans le développement de meilleurs traitements pour ces maladies, voire des propositions de thérapies définitives. Ainsi, un traitement prometteur de l'ataxie de Friedreich a été développé en 1999 par une équipe française de l'hôpital Necker, issu directement de la connaissance du gène et de sa fonction.
Diagnostiquer-ADN
Ainsi, connaître le génome humain dans son ensemble permet de connaître les allèles des gènes responsables des maladies génétiques. Cela pourrait faciliter le développement de tests de diagnostic à partir de l'ADN.
Dans le cas des maladies les plus graves, des diagnostics génétiques peuvent être réalisés dans les familles à risque avant la naissance. De manière générale, le développement des diagnostics génétiques permet une identification plus précise de la maladie affectant le patient ; Cela ne peut que conduire à une meilleure prise en charge de cette maladie.
recherche de vulnérabilité
Connaître le génome humain et étudier les positions variables d'une personne à l'autre permettra d'identifier plus facilement les facteurs génétiques de susceptibilité à de nombreuses maladies.
Par exemple, des maladies telles que le diabète ou l'artériosclérose ont une composante génétique qui correspond à une variété de facteurs. Chaque facteur ne contribue qu'en petite partie à la maladie finale. De plus, les maladies sont en fait causées par l'interaction complexe de ces facteurs et des conditions environnementales. Tout cela rend encore extrêmement difficile de dire à ce stade ce qui cause ces maladies...
L'identification des facteurs génétiques impliqués et le décryptage de ce brin devraient permettre de mieux comprendre la genèse de ces maladies, conduisant ainsi à de nouveaux traitements et à des mesures préventives plus efficaces.
Puces à ADN et transcriptome
La connaissance de génomes complets et annotés permet la réalisation de puces à ADN et donc l'étude du transcriptome au-delà du génome. Les puces à ADN sont des outils pour mesurer et visualiser rapidement les différences d'expression entre les gènes au niveau d'un génome entier. Il s'agit donc d'une étude directe et qualitative du transcriptome, i. H de tout le matériel génétique exprimé dans une cellule donnée.
Les puces à ADN (qui n'ont absolument rien à voir avec les ordinateurs et les micropuces !) sont des lames recouvertes de sondes qui correspondent à des gènes faisant partie du génome d'un organisme. Chaque sonde, c'est-à-dire chaque gène, est placée à l'endroit exact et identifiée sur la plaque. La puce permet alors la comparaison de l'expression des gènes entre deux souches cellulaires (une souche sert de contrôle, l'autre correspond à l'étude réalisée) : dans ce but, l'ARN de ces cellules est extrait, l'ADN transcrit en reverse et marqué avec un fluorochrome (vert pour une souche, rouge pour l'autre). Le tout est ensuite incubé avec la puce à ADN : les ADNc correspondant à l'ARN des cellules s'hybrident avec les sondes portées par la puce. La puce est ensuite lue gène par gène avec un laser. Ainsi, trois types de gènes sont « lus » : (1) les gènes plus fortement exprimés dans la première souche, dont les sondes ont fixé un plus grand nombre d'ADNc de la première souche et donc fluorescent essentiellement en vert ; (2) les gènes qui sont plus fortement exprimés et apparaissent plus rouges dans la seconde souche ; (3) Gènes qui sont exprimés à des niveaux comparables.
De nombreuses études avec ces puces à ADN ont déjà été réalisées chez la levure, dont le génome est maintenant connu depuis plusieurs années. De telles études sont à développer chez l'homme et pour toutes les espèces modèles dont le génome a été entièrement séquencé.
Certaines informations, illustrations, etc. se trouvent sur le site dePlateforme Transcriptome du Service de Génomique du Département de Biologie de l'École Normale Supérieure. Ce service mutualisé produit et utilise des puces à ADN pour le compte des laboratoires de biologie de l'École Normale Supérieure ou d'autres laboratoires du "Pôle Montagne Sainte-Geneviève", principalement à Paris (Institut Curie, École supérieure de physique et chimie industrielle).
Pour plus d'informations sur le séquençage du génome humain, visitez le site Web dede l'université d'Angers.
privilèges
Der Généthon. Informations et liens vers les banques d'ADN, les gènes, la recherche en thérapie génique.
Le génoscope. Centre national de séquençage français.
glossaire
BAC:
«Chromosome artificiel bactérien», chromosome artificiel des bactéries. Vecteur de grande capacité (environ 300 kilobases) possédant les séquences permettant sa réplication et son maintien dans une bactérieE coli.Cosmide:
Molécule d'ADN circulaire qui englobe des séquences virales (et peut donc être transportée dans des enveloppes virales). Il permet le clonage d'inserts jusqu'à 45 kilobases (45 000 paires de bases).Dé-restriction enzymatique:
Enzyme capable de digérer l'ADN (endonucléase) en un site avec une séquence précise spécifique à l'enzyme. La séquence d'ADN reconnue par l'enzyme de restriction est appelée "site de restriction". Ces sites de restriction peuvent être de 2 à une vingtaine de paires de bases. Exemple : L'enzyme EcoR I reconnaît et hydrolyse l'ADN au niveau des séquences GAATTC.Microsatellite:
Répète plusieurs fois une courte séquence de 2 à 6 paires de bases. Ces séquences d'ADN, présentes dans tout le génome humain, sont hautement polymorphes.Plasmide:
ADN circulaire de quelques dizaines de kilobases en général. On le trouve principalement dans les bactéries. Les vecteurs utilisés dans le clonage des gènes sont majoritairement des plasmides (pBR 322, pBluescript, etc.). Ils permettent le clonage d'inserts avec un maximum de 20 à 30 kilobases.polymorphe:
Un gène existe sous la forme de plusieurs allèles. Elle est dite polymorphe lorsqu'au moins deux allèles différents sont présents dans une population avec une fréquence d'au moins 1% (chacun). Si un fragment d'ADN (séquence répétée, microsatellite, etc.) se présente sous différentes formes (= séquences différentes) dans une population avec une fréquence d'au moins 1 %, il est dit polymorphe.RFLP:
«Polymorphisme de longueur de fragment de restriction". Il s'agit d'une technique de digestion de l'ADN génomique par des enzymes de restriction. La présence de différences de séquences entre individus entraîne des différences de sites de digestion entre ces individus. Après séparation des fragments obtenus par électrophorèse, on observe des fragments de tailles individuellement différentes. Ainsi , en comparaison, nous avons des marqueurs répartis dans tout le génome.YAC:
«Chromosome artificiel de levure», Chromosome artificiel de levure obtenu en combinant des séquences de centromères et de télomères de chromosomes de levure. Ces vecteurs acceptent de très gros inserts (1000 kilobases). Ils ont le grave défaut de subir un réarrangement une fois intégrés dans les cellules de levure.
crédits
Auteurs)
Gilles Furelaud
Professeur agrégé de SVT. De 2001 à 2004, il est directeur éditorial du site Planet Vie.
Yann Esnault
Instructeur SVT
éditeur
Francoise Jauzein
Professeur agrégé de SVT, actuellement à la retraite.
Licence de texte d'article
Partagez cet article
continuer la lecture
Ressources Planet Vie pour les programmes New High School et BCPST
Apprendre encore plus
Quitter la lecture zen