Bio-informatique
Note: L'orthographe bioinformatique, sans trait d'union, est erronée et est calquée de l'anglais bioinformatics.
| Sommaire |
L'analyse de séquence
Alors que de plus en plus de séquences de génome, de transcriptome ou de protéome sont disponibles, la signification de la plupart de ces séquences reste à comprendre. La première difficulté a été d'organiser cette énorme masse d'information et de la rendre disponible à l'ensemble de la communauté des chercheurs. Cela a été rendu possible grâce à différentes bases de données, accessibles en lignes, comme SwissProt, PDB, genBank, etc. (cf. liens en fin d'article).
Il faut ensuite développer des outils d'analyse de séquences afin de pouvoir déterminer leurs propriétés.
- Recherche de protéines à partir de la traduction de séquences nucléiques connues. Celle-ci passe par la détermination des phases ouvertes de lecture d'une séquence nucléique et de sa ou ses traduction(s) probables.
- Recherche de séquences dans une banque de données à partir d'une autre séquence ou d'un fragment de séquence. La technique la plus commune est le BLAST.
- Alignement de séquences : pour trouver les ressemblances entre deux séquences et déterminer leurs éventuelles homologies. Les alignements sont à la base de la construction de parentés suivant des critères moléculaires, ou encore de la reconnaissance de motifs particuliers dans une protéine à partir de la séquence de celle-ci.
La bio-informatique intervient aussi dans le séquençage, avec par exemple l'utilisation de puces à ADN ou biopuce.
La modélisation moléculaire
Les molécules de par leurs dimensions sont invisibles à tout moyen d'investigation direct tel que la microscopie. C'est par l'analyse de données indirectes que les chercheurs peuvent reconstituer un modèle moléculaire, c'est-à-dire une construction intellectuelle présentant la meilleure adéquation avec les résultats expérimentaux. Ces données sont issues principalement d'analyses cristallographiques (étude des figures de diffraction des rayons X par un cristal), ou de Résonance Magnétique Nucléaire. Elles représentent les contraintes expérimentales exercées sur le modèle. Le modèle moléculaire obtenu ensuite est un ensemble de coordonnées atomiques dans l'espace. L'informatique intervient dans toutes les étapes conduisant de l'expérimentation au modèle, puis ensuite dans l'analyse du modèle par la visualisation moléculaire (voir les protéines en 3D).
Elle est utilisée par exemple pour étudier les sites actifs d'une enzyme, mettre au point informatiquement une série d'inhibiteurs possibles pour cette enzyme, et ne synthétiser et ne tester que ceux qui semblent convenir. Cela permet de réduire les coûts de recherche et d'accélérer ces recherches.
La visualisation de la structure tridimensionnelle d'acides nucléiques (ARN et ADN) fait également partie de la palette des outils bio-informatiques très utilisés.
Il y a aussi la dynamique moléculaire, on essaye de voir le comportement d'une molécule dans son milieu en modélisant les différents champs de force entrant en jeu (force de van der Waals, etc.).
Encore un autre aspect est la prédiction de la structure 3D d'une protéine à partir de sa structure primaire (la liste des acides aminés qui la composent), en modélisant les différentes caractéristiques des acides aminés. Cela a un grand intérêt car la fonction, l'activité d'une protéine dépendent grandement de sa forme. De même, la modélisation des structures 3D d'acides nucléiques (à partir de leur séquence nucléotidiques) revêt la même importance que pour les protéines.
Construction d'arbres phylogénétiques
En supposant que les séquences de gènes homologues trouvées chez deux espèces proviennent d'un même gène ancestral présent chez la dernière espèce ancêtre commune à ces deux espèces, on peut quantifier la distance génétique entre ces deux espèces. Cette distance génétique est représentée par le nombre de mutations qui séparent les gènes de ces deux espèces, du gène ancestral.
Appliquée à un nombre plus important d'êtres vivants, cette méthode permet d'établir une matrice des distances génétiques entre plusieurs espèces. Les arbres phylogénétiques rapprochent les espèces qui ont la plus grande proximité. Plusieurs algorithmes différents sont utilisés pour tracer des arbres à partir des matrices de distance. Ils reposent chacun sur des modèles de mécanismes évolutifs différents. Les deux méthodes les plus connues sont la méthode UPGMA et la méthode du Neighbour Joining.
La construction d'arbres phylogénétiques est utilisée par les programmes d'alignements multiples de séquences afin d'éliminer une grande partie des alignements possibles et de limiter ainsi les temps de calcul.
La modélisation de population
Voir aussi
Liens externes
Bases de données
- EMBL (nucléotides): http://www.ebi.ac.uk/embl/
- GenBank (nucléotides): http://www.ncbi.nlm.nih.gov/Genbank/index.html
- UniProt Knowledgebase (protéines): http://www.ebi.ac.uk/uniprot/
- SwissProt (protéines): http://www.expasy.org/
- PDB - The Protein DataBank (structures tridimensionnelles de macromolécules biologiques) : http://www.rcsb.org/pdb/
- The Genome Database : http://www.gdb.org/
Logiciels et programmation
- BLAST (recherche de séquences dans les bases de données) : http://www.ncbi.nlm.nih.gov/BLAST/
- CLUSTAL (alignement de séquences) : http://www.ebi.ac.uk/clustalw/
- DbClustal (alignement utilisant comme ancres les résultats de blast) : http://www-igbmc.u-strasbg.fr/BioInfo/
- Bioinformatics.org (ensemble de projets libres) : http://www.bioinformatics.org
- The Open Bioinformatics Foundation (promotion de logiciels libres pour la bio-informatique) : http://open-bio.org/
- EMBOSS (ensemble d'outils libres pour l'analyse de séquences) : http://www.emboss.org/
- BioPerl (Perl et la bio-informatique) : http://bioperl.org
- BioPython (Python et la bio-informatique): http://biopython.org
- BioJava (Java et la bio-informatique): http://biojava.org
- Phylogène (initiation à la phylogénie): http://www.inrp.fr/Acces/biotic/evolut/phylogene/accueil.htm
Instituts et ressources en bio-informatique
- Centre de Ressources Infobiogen (CRI) : http://www.infobiogen.fr/
- Institut européen de bio-informatique : http://www.ebi.ac.uk/
- Pôle Bio-Informatique Lyonnnais (PBIL) : http://pbil.univ-lyon1.fr/
- Ensembl (génomes complets séquencés) : http://www.ensembl.org/
| Image manquante Symbole-ordinateur.png | Portail Informatique - Accédez d'un seul coup d’œil à toute la série des articles de Wikipédia concernant l'informatique. |
| Domaines généraux de la biologie |
|---|
| Anatomie | Biochimie | Bio-informatique | Biologie cellulaire | Biologie de l'évolution | Biologie humaine | Biologie marine | Biologie moléculaire | Botanique | Écologie | Exobiologie | Génétique | | Microbiologie | Origines de la vie | Paléontologie | Parasitologie | Physiologie | Taxonomie | Zoologie |
