MENEZO-SCHLOSSER: Modélisation bioinformatique, reconnaissance d'une protéine

De Ensiwiki
Aller à : navigation, rechercher
Cornues.png
Titre du projet Modélisation bioinformatique du motif de reconnaissance d'une protéine clé de la différenciation sexuelle chez S. pombe
Cadre IRL

Labo TIMC-IMAG
Équipe BCM
Encadrants [mailto: Nicolas.Thierry-Mieg@imag.fr Nicolas Thierry-Mieg]

Etudiante

Céline Menézo-Schlosser, 2A filière MMIS

Contexte

Levure S.Pombe

La levure S. Pombe vit habituellement sous forme haploïde (les chromosomes sont chacun en un seul exemplaire) mais dans un environnement spécifique (vis-à-vis de l'alimentation dans la cellule par exemple) une différenciation sexuelle va aboutir à la formation de deux types de cellules qui, après accouplement, vont engendrer la sporulation. Ce phénomène constitue une phase critique et très régulée de la reproduction. Des études récentes chez la levure S. pombe montrent qu'une protéine, Mmi1, inhibe la différenciation sexuelle en se fixant à des ARNs et en induisant leur dégradation. A ce jour, certaines cibles ARNs de Mmi1 ont été identifiées mais pas de manière exhaustive. L'objectif de notre travail est de s'appuyer sur ces cibles connues pour construire un modèle qui permette d'identifier les autres cibles qui seront dégradées par la protéine.

La reconnaissance spécifique de ces ARNs dépend de la présence dans leurs séquences de sous-séquences particulières. Dans le cadre de cette étude, les biologistes nous avaient donné un motif consensus (un sixmer: suite de 6 nucléotides) comme supposé site de fixation de la protéine Mmi1: TNAAAC où, d'après la nomenclature IUPAC le N symbolise un nucléotide indéterminé (à cette position, les 4 nucléotides sont donc acceptées). On va ici chercher à affiner ce modèle et préciser le site de fixation de la protéine en se basant sur 15 ARNs identifiés comme cible de la protéine.


Choix d'un modèle adapté

On dispose de trois modèles possibles:

  1. Les séquences consensus se basant sur une expression régulière simple. Pour chaque nucléotide, on dispose donc d'une information de nature booléenne: une lettre est accepté ou non selon celle de la séquence consensus. Ce modèle ne permet pas de prendre en compte les préférences relatives pour certains nucléotides et encore moins les dépendances entre les nucléotides.
  2. Les matrices poids-positions (PWM) pouvant être de deux types, matrices fréquentielles et matrices de score.
  3. Les modèles de Markov caché (HMM) se basant sur un automate probabiliste.

Elaborer ce type de modèle nécessite de nombreux paramètres et compte tenu de la taille réduite de notre jeu de données (15 ARNs cibles ayant au maximum une dizaine de sites chacun), nous avons préféré nous focaliser sur les PWM.

Si l'on se place dans le cadre d'un modèle de Bernoulli, où les différentes positions sont indépendantes entres elles, une matrice poids-position permet de représenter l'information : en chaque position, on calcule la fréquence d'apparition de chacun des caractères. Pour chaque position i, on note nBi le nombre d'occurrences de la base B et N le nombre de séquences étudiées. Notons pBi la fréquence observée de la lettre B:

pBi = nBi/N

On approxime ainsi la probabilité de présence d'un nucléotide mesurée en une position i.

Il faut également savoir que les proportions de chaque nucléotide dans le génome ne sont pas équivalentes (les 4 n'ont pas une probabilité d'apparition de 0,25). Les probabilités présumées de chacun de nucléotides constituent le background model dont il faudra tenir compte dans les calculs. C'est le principe des matrices de score.

Definition du background (ici celui de la levure Schizosaccharomyces pombe)
l_seq.background = {'A': 0.32, 'C': 0.18, 'T': 0.32, 'G': 0.18}

On note backB la fréquence empirique observée sur le génome (en se basant sur le background). Le rapport pBi/backB mesure l'écart de la distribution observée à celle attendue aléatoirement. Pour que le score soit aisé à calculer, c'est à dire mette en jeu des additions plutôt que des multiplications, on prend généralement le logarithme du rapport, et pour une séquence S de longueur L on obtient le score :

score(S) = \sum_{i=1}^{L} log(pBi/backB)


Il peut potentiellement arriver qu'un caractère ne soit jamais présent en une position donnée dans les séquences. Dans ce cas, le score n'est plus défini car log (0) = -infini. Pour éviter ce cas, on corrige alors pBi à l'aide de pseudo-comptes de façon à ce que la probabilité ne soit jamais nulle:

pBi = (nBi+1)/(N+4)


Les grandes étapes de cette étude

On cherche à prédire les cibles potentielles de Mmi1 en construisant un modèle se basant sur les occurrences du sixmer dans les cibles connues.

  • On commence donc par détecter les sixmers dans les séquences cibles connues et à regarder les nucléotides voisins à ses sixmers afin de chercher à étendre notre site de fixation. On construit la PWM associée aux probabilités relevées pour ces sites.
  • On peut ensuite modifier les PWM pour relâcher les contraintes sur le sixmer afin de diminuer le poids relatif du sixmer par rapport aux autres positions.

On ne veut pas se restreindre aux match exacts au sixmer alors que, potentiellement, nous attendons que des séquences ne comportant pas le sixmer exact puissent être les cibles de la protéine Mmi1. Pour cela, nous considérons que la probabilité pour le nucléotide présent dans le sixmer est réduite de 1,0 à 0,85 et augmentée de 0 à 0.05 pour les autres. On pourra modifier ce modèle pour relacher les contraintes sur le sixmer afin de diminuer le poids relatif du sixmer par rapport aux autres positions.

On a la matrice de score relachée suivante:

Matrice de score relâchée avec mise en évidence du sixmer et des scores significatifs

On va pouvoir y relever des scores significatifs qui semblent favoriser l'apparition de A.

  • Avec cette matrice, on peut scanner les séquences des trois chromosomes de la levure S.pombe.

On va alors sommer les scores associés à chaque nucléotide pour toutes les positions adoptées par la matrice et associer ainsi un score à chaque position du génome.

Matrice de score relâchée avec mise en évidence du sixmer et des scores significatifs

Un pic pour des scores négatifs parait cohérent puisqu'il est fort probable que la majorité des motifs du génome ne soient pas des bons sites de fixation pour Mmi1

  • Enfin, il convient de déterminer le seuil au delà duquel on va considérer que les scores des sites sont suffisamment élevés pour considérer qu'il s'agit de sites de fixation de la protéine Mmi1. Pour cela, on va générer une séquence aléatoire de la même taille que nos séquences et tenant compte du background.

En comparant les résultats obtenus par cette séquence aléatoire et ceux du génome de la levure S.pombe, on va pouvoir déterminer à partir de quels scores on relève des différences et ainsi fixer un seuil adapté.

Comparaison entre les scores obtenus en scannant le chromosome 1 et ceux obtenus en scannant une séquence aléatoire de la même taille
  • Pour rendre le résultat facilement exploitable pour les biologistes, on pourra utiliser des bases de données permettant de faire une correspondance entre ces sites de fixation détectés et les gênes dans lesquels ils se trouvent ainsi que les propriétés associées à ces gênes. Il conviendra alors d'étudier les corrélations entre la fixation effective de la protéine Mmi1 et le nombre de sites cibles contenus dans un même gène et d'en tenir compte pour prédire les cibles.

Conclusion et perspectives

Nous avons finalement relevé des positions significatives en étendant le génome de sept nucléotides à droite du sixmer. En effet, l'apparition de trois A semble favorisée à 5 nucléotides à droite du sixmer connu. Un plus large jeu de données permettrait de confirmer ce résultat.

Par ailleurs, notre étude nous permet d'évaluer qu'un site du génome est considéré comme cible de la protéine Mmi1 pour un score supérieur à 5,5. Pour rendre nos résultats plus facilement exploitables par les biologistes, nous renvoyons un tableau associant pour chaque position cible de la protéine selon le seuil fixé le gène dans lequel elle se situe ainsi que les propriétés associées à ce gêne. Toutefois, on peut noter qu'un jeu de données plus fourni permettrait d'envisager l'utilisation des modèles de Markov caché et ainsi d'obtenir potentiellement des résultats plus précis tenant compte des dépendances entre les positions et laissant envisager des insertions ou délétions dans le motif.

D'autre part, nous avons étudié les corrélations entre la fixation effective de la protéine Mmi1 et le nombre de sites cibles contenus dans un même gène. Un gêne sera une cible de la protéine Mmi1 s'il a plus de 5 sites de fixation et étant donné le seuil que nous avons fixé un gène peut avoir jusqu'à 21 sites de fixation. Il pourrait être intéressant de tenir compte de plus de paramètres concernant les sites de fixation et notamment la distance entre chacun d'entre eux.

Références

Selective elimination of messenger RNA prevents an incidence of untimely meiosis [1]. Harigaya Y, et al, Nature. 2006, 442, 45-50.
Mmi1 RNA surveillance machinery directs RNAi complex RITS to specific meiotic genes in fission yeast [2]. Hiriart E, et al, EMBO J. 2012, 31, 2296-308
Inclusion of neighboring base interdependencies substantially improves genome-wide prokaryotic transcription factor binding site prediction [3]. Salama RA, Stekel DJ. Nucleic Acids Res. 2010 Jul;38(12):e135.

Documents complémentaires