Théophile Batoz : Identification de signatures responsables d'erreurs systématiques en séquençage nouvelle génération

De Ensiwiki
Aller à : navigation, rechercher


Identification of signatures responsible for systemic errors in new generation sequencing of Exome

Labo TIMC-IMAG
Equipe Computational Biology and Mathematics
Encadrants Nicolas.Thierry-Mieg@imag.fr

Etudiant

Batoz Théophile - IF 2A

Introduction

Ce sujet d'introduction à la recherche en laboratoire a été réalisé sous la supervision de Nicolas Thierry-Mieg, au laboratoire TIMC-BCM, dans la continuité d'une thèse soutenue par Laure Sambourg intitulée : "Décrypter les données omiques : importance du contrôle qualité application au cancer de l'ovaire".

Ce travail de recherche s'inscrit dans le cadre du traitement des données massives produites par les séquenceurs nouvelle génération, qui ont permis de faire chuter le prix du séquençage, depuis 2007, grâce à un rendement plus élevé que les méthodes "Sanger" classiques. Ce haut rendement est toutefois obtenu au prix d'erreurs de séquençage plus fréquentes.

Le but de ce sujet était d'utiliser un jeu de données de séquençage produit par le consortium TCGA (the cancer genom atlas) pour mettre en évidence des comportements récurrents dans les séquences de nucléotides précédant une erreur de séquençage. Ces comportements pouvant être de natures diverses comme des mots fréquents sur l'alphabet {A, C, T, G} ou une fréquence d'apparition d'un nucléotide très supérieur aux autres à une position donnée.

Approche du problème

Nous avons envisagé 3 approches pour identifier des signatures caractéristiques en amont d'une erreur de séquençage:

- Des matrices poids position

- Des mots fréquents

- Un modèle de Markov caché

Finalement pour des raisons de temps et de facilité d'interprétation, nous avons choisi de ne pas implémenter de modèle de markov caché et de nous concentrer sur la détection de mots fréquent et le, calcul de matrice poids position de score.

Travail effectué

J'ai récupéré un script implémenté par Nicolas Thierry-Mieg que j'ai légèrement modifié pour construire un ensemble d'apprentissage contenant des séquences sujettes à erreur ainsi qu'un ensemble témoin contenant des séquences non sujettes à erreur. L'ensemble d'apprentissage a été classé par type d'erreur il y avait donc 12 sous ensembles correspondant au 12 cas possibles (A>C, A>T, A>G, T>C, T>G etc).

A partir de ce premier travail j'ai réalisé deux programmes l'un permettant de générer des matrices poids position, l'autre permettant de calculer les mots sur l'alphabet {A,C,T,G} plus fréquents dans l'ensemble d'apprentissage que dans l'ensemble témoin.


Résultats

On obtient en premier lieu que plus de 50% de l'ensemble d'apprentissage est constitué d'erreurs de type T>G et 77% d'erreurs de type [A,C,T]>G. A partir de la on a pu examiner les matrices poids position dont voici un exemple:

MatricePoidsPositionTG.jpg

Cette matrice est une matrice de score ou à chaque position de la matrice, on a la formule suivante :

m_{i,j} = log (\frac{f_{i,j}^{app}}{f_{i,j}^{tem}})

Ou f_{i,j}^{tem} et f_{i,j}^{app} sont les fréquences dans l'ensemble d'apprentissage et dans l'ensemble témoin de la lettre j à la position i. On observe en particulier que les deux lettres précédant une erreur de type T>G sont majoritairement G, en fait à la lumière des autres matrices poids position ce comportement peut se généraliser à [A,C,T]>G et on peut même affirmer que les deux lettres précédant l'erreur sont quasi déterminée par le type d'erreur.

Autrement dit avant une erreur de type X>Y on aura toujours une grande quantité de Y avant la position d'erreur et en particulier sur les deux nucléotides qui la précède.

En outre, les mots fréquents valident cette conclusion comme l'exemple ci dessous pour T>G le montre :

MOT...........Ratio

CGG________7.8

CGGG_______13.3

GGCGGG____59.9

Conclusion

Ce travail de recherche a été très fécond et indubitablement intéressant. Ce fut donc une expérience que je recommande à toute personnes ayant un tant soit peu de curiosité intellectuelle. En ce qui concerne mes résultats il faut toutefois nuancer leur qualité puisque les tests d'hypothèse effectués sur les mots fréquents ont des p-valeur plus faible que ce que la précision machine permet d'exprimer ce qui semble improbable.

Slides de présentation et Compte rendu