Modélisation bioinformatique du motif de reconnaissance d'une protéine clé de la différenciation sexuelle chez S. pombe

De Ensiwiki
Aller à : navigation, rechercher


Modélisation bioinformatique du motif de reconnaissance d'une protéine clé de la différenciation sexuelle chez S. pombe

Labo TIMC-IMAG
Equipe Biologie Computationnelle et Mathématique
Encadrants Nicolas.Thierry-Mieg@imag.fr

Thème général

La régulation de l’expression des gènes est essentielle dans tous les processus biologiques. Elle peut avoir lieu à plusieurs niveaux: celui de la transcription bien sûr, via les facteurs de transcription qui régulent la production des ARN messagers, mais aussi par exemple au niveau post-transcriptionnel, où les ARN messagers peuvent être ciblés pour une dégradation rapide (au lieu d'être traduits en protéines, comme sur le schéma ci-dessous). On s'intéresse ici à ce second processus. La reconnaissance spécifique des ARN cibles qui seront dégradés dépend de la présence de sous-séquences particulières dans ces cibles. Traditionnellement, ces « motifs de reconnaissance » sont modélisés par des séquences consensus (expressions régulières).

Fig dogmeCentral 2.png


Sujet

Des études récentes chez la levure S. pombe montrent qu’une protéine, Mmi1, inhibe la différenciation sexuelle (ou gamétogénèse) en se fixant à des ARN messagers et en induisant leur dégradation. A ce jour, certaines cibles ARNs de Mmi1 ont été identifiées mais pas toutes. L'objectif est de s'appuyer sur ces cibles connues pour construire un modèle qui permettre d'identifier ses autres cibles. On souhaite aller au-delà de la simple recherche d'une séquence consensus, car il s'agit d'un modèle assez grossier: il ne permet pas de prendre en compte les préférences relatives pour certains nucléotides (les "lettres" qui composent la séquence d'ARN), encore moins les dépendances entre nucléotides. Le stage consistera à étudier et implémenter des modèles plus fins (matrice poids-position [1] , modèle de Markov caché [2] ). Ces modèles pourront être évalués sur de nouvelles données expérimentales, en cours de production par séquençage massif Next-Generation (RNA-IP-seq).

Résultats attendus

Les modèles obtenus permettront de prédire de manière plus fiable les cibles potentielles de Mmi1 dans l'ensemble du génome. Plus généralement, cette étude pourrait mettre en évidence les limites du modèle "séquence consensus" traditionnellement utilisé, et contribuer à faire adopter par la communauté scientifique des modèles plus fins et plus expressifs.


Compétences attendues

Intérêt pour la recherche interdisciplinaire: ce sujet mêle assez étroitement informatique, statistique et biologie.

Contexte du travail

Le projet se déroule dans l'équipe BCM du laboratoire TIMC-IMAG, sur le site de l'Hopital Nord (La Tronche, Grand Sablon). Le travail sera réalisé en collaboration avec l'équipe d'André Verdel (Institut Albert Bonniot, en face du TIMC).

Biblio

En plus des liens wikipedia sur les modèles PWM et HMM, l'étudiant intéressé pourra jeter un oeil à:

Selective elimination of messenger RNA prevents an incidence of untimely meiosis [3]. Harigaya Y, et al, Nature. 2006, 442, 45-50.

Mmi1 RNA surveillance machinery directs RNAi complex RITS to specific meiotic genes in fission yeast [4]. Hiriart E, et al, EMBO J. 2012, 31, 2296-308

Inclusion of neighboring base interdependencies substantially improves genome-wide prokaryotic transcription factor binding site prediction [5]. Salama RA, Stekel DJ. Nucleic Acids Res. 2010 Jul;38(12):e135.