Le chromosome 20 est aujourd'hui le troisième chromosome dont la séquence est considérée comme achevée. Et avec 60 mégabases (millions de bases), soit 2 % du génome, c'est aussi le plus long des chromosomes déjà séquencés. Le point capital, dans cette nouvelle étape, est que le séquençage a pu être mené, une fois encore, sur la quasi-totalité du chromosome (99,4 %), avec une fiabilité de 99,99 %. Ce niveau de finition, qui avait été posé d'emblée comme une exigence par le Human Genome Project, avait déjà pu être obtenu pour les séquences des chromosomes 22 et 21, qui datent respectivement de deux ans et dix-huit mois. Mais il n'était nullement évident que ce « gold standard » pourrait être atteint à chaque fois. La finition d'une séquence est en effet la partie du travail la plus difficile et fastidieuse, puisqu'il faut reprendre les séquences incertaines une à une, clone par clone.
Un long travail de finition
Par rapport à la publication, en février 2000, du premier jet de la séquence du génome humain, il aura fallu presque un an pour achever le « polissage » des 5 dernières mégabases sur le chromosome 20. Comme le souligne un éditorial de « Nature », la finition aura demandé pratiquement autant d'effort que le premier jet. Ce délai est nécessaire pour atteindre la fiabilité exigée, et explique que l'on n'attend pas avant 2003, au mieux, la séquence finie de tout le génome. Mais au moins est-on maintenant à peu près certain, l'exemple du chromosome 20 venant après celui des chromosomes 22 et 21, que l'ensemble du génome pourra être séquencé avec une précision quasi-absolue.
Nouveauté par rapport aux chromosomes 22 et 21, la séquence du chromosome 20 a pu être affinée par comparaison avec les séquences nouvellement disponibles d'organismes modèles, en particulier la souris, dont la séquence génomique complète a été publiée en mai 2001 par le Mouse Sequencing Consortium, et le tétrodon, ou poisson-globe, dont le génome est analysé au Génoscope d'Evry (projet Exofish : Exon-FInding by Sequence Homology). La comparaison interspécifique des séquences a permis, pour la première fois, d'évaluer les performances de la recherche directe des séquences exprimées dans l'ADN humain. Et apparemment, les algorithmes sont bons, puisque plus de 97 % des exons portés par le chromosome 20 avaient bien été identifiés directement.
895 gènes
Au total, le chromosome 20 porterait quelque 895 gènes, dont 335 sont des gènes connus, le reste se partageant entre gènes « nouveaux », « présumés », et pseudogènes, selon des catégories définies par convention en fonction de la présence d'un ORF, d'homologies de séquence avec des gènes connus, et de la structure en introns-exons.
Pour la plupart de ces gènes, un gros travail d'identification reste à faire, en particulier pour les quelques 35 % d'entre eux qui semblent pouvoir coder plusieurs protéines par le biais de l'épissage alternatif. Pour ce qui intéresse la médecine, toutefois, on peut déjà relever la présence, sur le chromosome 20, du gène codant la protéine prion, du gène codant l'adénosine déaminase (dont l'absence est à l'origine d'un déficit immunitaire célèbre pour avoir été le premier à faire l'objet d'une thérapie génique), des gènes responsables de divers syndromes rares, tels les syndromes de Hallervorden-Spatz (dégénérescence neuronale) et d'Alagille (rétrécissement de l'artère pulmonaire), enfin, de gènes qui restent à identifier, à proximité de marqueurs associés à des affections multifactorielles fréquentes, comme le diabète de type 2, l'obésité, la cataracte, ou l'eczéma.
P. Deloukas et coll. (Wellcome trust - Sanger Institute), « Nature », vol. 414, des 20/27 décembre 2001.
Pause exceptionnelle de votre newsletter
En cuisine avec le Dr Dominique Dupagne
[VIDÉO] Recette d'été : la chakchouka
Florie Sullerot, présidente de l’Isnar-IMG : « Il y a encore beaucoup de zones de flou dans cette maquette de médecine générale »
Covid : un autre virus et la génétique pourraient expliquer des différences immunitaires, selon une étude publiée dans Nature