Mehdi BAHRI (avec Olivier François) : Modélisation et inférence probabiliste du sur-diagnostic : Différence entre versions

De Ensiwiki
Aller à : navigation, rechercher
Ligne 9 : Ligne 9 :
 
}}
 
}}
 
[[Catégorie:IRL]]
 
[[Catégorie:IRL]]
 
  
 
== Contexte et présentation ==
 
== Contexte et présentation ==
 +
 +
=== Équipe d'accueil ===
 +
Mon IRL s'est déroulé au laboratoire TIMC-IMAG (Techniques de l'Ingénierie Médicale et de la Complexité - Informatique, Mathématiques et Applications, Grenoble) au sein de l'équipe BCM (Biologie Computationnelle et Mathématique).
 +
 +
Le laboratoire TIMC-IMAG se spécialise dans l'application des techniques informatiques et mathématiques à l'ingénierie médicale. Il rassemble plusieurs équipes, chacune spécialisée dans un domaine particulier. L'équipe BCM s'intéresse au développement et à l'application de modèles mathématiques pour la biologie, la génomique, la génétique des populations etc. De nombreux thèmes de recherche s'articulent autour des statistiques et de l'apprentissage automatique, et c'est ce qui a motivé mon choix d'IRL car je souhaitais associer statistiques et apprentissage automatique à une thématique scientifique d'un autre style. La médecine et la biologie m'intéressent depuis longtemps, je fus donc immédiatement intéressé par ce sujet.
 +
 +
=== Le problème du sur-diagnostic ===
 +
 +
En épidémiologie, on considère qu'il y a sur-diagnostic ou sur-traitement lorsqu'un patient reçoit un traitement pour une pathologie pour laquelle il n'aurait pas développé de signes cliniques ou plus généralement qui n'aurait pas dégradé sa qualité de vie ni réduit son espérance de vie. Un des cas les plus emblématiques est celui du cancer chez le sujet âgé; l'activité métabolique réduite fait que la maladie évolue plus lentement que chez un patient plus jeune et peut rester asymptomatique pendant suffisamment longtemps pour que le patient décède d'une autre cause avant que la maladie ne devienne gênante. Le sur-diagnostic est un phénomène global qui n'est pas limité au seul domaine de l'oncologie, on le retrouve notamment en psychiatrie dans le diagnostic de l'hyperactivité.
 +
 +
Le sur-diagnostic présente différents problèmes. D'une part, une proportion non négligeable de patients recevra des soins alors que la maladie diagnostiquée n'aurait pas menacé leur vie ou dégradé leur quotidien. C'est par exemple le cas d'un patient âgé atteint d'un cancer mais dont le cancer n'aurait que très peu ou pas évolué et qui serait décédé d'une autre cause avant de décéder des suites de la pathologie. Ce cas est problématique car les effets secondaires des traitements peuvent être plus dangereux pour la qualité de vie du patient que la maladie elle-même quand celle-ci n'évolue que très peu. Dans le cas des cancers du sein, certaines femmes pourraient choisir de subir une mastectomie; un homme pourrait quant-à-lui se soumettre à une prostatectomie suite à un diagnostic de cancer de la prostate. Ces deux opérations sont lourdes de conséquences tant psychologiques (image du corps, identité sexuelle, mutilation), que physiologiques (risques d'incontinence et d'impuissance dans le cas de la prostatectomie). Il est donc souhaitable de les éviter tant que possible.
 +
 +
Le sur-diagnostic introduit de plus un biais dans les statistiques d'incidence et de survie des pathologies concernées : supposons que sans sur-diagnostic, 30 patients sur 600 survivent à une pathologie donnée. Le taux de survie est alors de 5%. Supposons maintenant que le diagnostic précoce de la pathologie fasse que 1000 patients supplémentaires soient diagnostiqués avec un taux de sur-diagnostic de 30%. Les 300 patients traités à tort auraient survécu sans traitement, mais ils sont tout de même comptés dans la statistique finale de survie qui donne alors un taux de 330/1600 = 20,6% tandis que la statistique d'incidence a elle aussi augmentée. Les travaux de Pohl Heiko et H. Gilbert Welch (2005) étudient le poids du sur-diagnostic dans les statistiques d'incidence de l'adénocarcinome de l’œsophage.
 +
 +
=== Objectifs ===
 +
 +
Le but de ce travail de recherche est de proposer un modèle simple permettant d'estimer le risque de sur-diagnostic au sein d'un échantillon de patients à partir d'une matrice de facteurs de risque (antécédents familiaux, habitudes alimentaires, comportements à risque, facteurs génétiques...) en tenant compte du risque individuel de chaque patient, de la proportion supposée de patients sur-diagnostiqués et de la proportion supposée de patients non traités alors qu'ils auraient besoin d'un traitement (que nous appellerons faux-négatifs). Les outils sont ceux de l'apprentissage bayésien et se placent dans la continuité du cours de ''Modèles Probabilistes pour l'Apprentissage'' du premier semestre de 2A MMIS. L'objectif a été d'implémenter puis de tester un algorithme de type mixte Monte-Carlo-Markov-Chain (MCMC) et estimation paramétrique, à la manière en quelque sorte de l'algorithme EM, utilisant la régression logistique pour estimer à chaque nouvelle itération le risque individuel de chaque patient.
 +
 +
== Description succinte du modèle ==
 +
 +
== Résultats ==
  
 
== Documents ==
 
== Documents ==
 
* [[Media:Rapport_IRL_Bahri_Mehdi.pdf|Rapport]]
 
* [[Media:Rapport_IRL_Bahri_Mehdi.pdf|Rapport]]

Version du 14 mai 2015 à 01:56

Cette page présente les résultats du sujet "Modélisation et inférence probabiliste du sur-diagnostic". Étudiant : Mehdi BAHRI (2A MMIS 2015)


Cornues.png
Titre du projet Modélisation et inférence probabiliste du sur-diagnostic
Cadre IRL

Labo TIMC-IMAG
Équipe BCM
Encadrants Olivier Francois

Contexte et présentation

Équipe d'accueil

Mon IRL s'est déroulé au laboratoire TIMC-IMAG (Techniques de l'Ingénierie Médicale et de la Complexité - Informatique, Mathématiques et Applications, Grenoble) au sein de l'équipe BCM (Biologie Computationnelle et Mathématique).

Le laboratoire TIMC-IMAG se spécialise dans l'application des techniques informatiques et mathématiques à l'ingénierie médicale. Il rassemble plusieurs équipes, chacune spécialisée dans un domaine particulier. L'équipe BCM s'intéresse au développement et à l'application de modèles mathématiques pour la biologie, la génomique, la génétique des populations etc. De nombreux thèmes de recherche s'articulent autour des statistiques et de l'apprentissage automatique, et c'est ce qui a motivé mon choix d'IRL car je souhaitais associer statistiques et apprentissage automatique à une thématique scientifique d'un autre style. La médecine et la biologie m'intéressent depuis longtemps, je fus donc immédiatement intéressé par ce sujet.

Le problème du sur-diagnostic

En épidémiologie, on considère qu'il y a sur-diagnostic ou sur-traitement lorsqu'un patient reçoit un traitement pour une pathologie pour laquelle il n'aurait pas développé de signes cliniques ou plus généralement qui n'aurait pas dégradé sa qualité de vie ni réduit son espérance de vie. Un des cas les plus emblématiques est celui du cancer chez le sujet âgé; l'activité métabolique réduite fait que la maladie évolue plus lentement que chez un patient plus jeune et peut rester asymptomatique pendant suffisamment longtemps pour que le patient décède d'une autre cause avant que la maladie ne devienne gênante. Le sur-diagnostic est un phénomène global qui n'est pas limité au seul domaine de l'oncologie, on le retrouve notamment en psychiatrie dans le diagnostic de l'hyperactivité.

Le sur-diagnostic présente différents problèmes. D'une part, une proportion non négligeable de patients recevra des soins alors que la maladie diagnostiquée n'aurait pas menacé leur vie ou dégradé leur quotidien. C'est par exemple le cas d'un patient âgé atteint d'un cancer mais dont le cancer n'aurait que très peu ou pas évolué et qui serait décédé d'une autre cause avant de décéder des suites de la pathologie. Ce cas est problématique car les effets secondaires des traitements peuvent être plus dangereux pour la qualité de vie du patient que la maladie elle-même quand celle-ci n'évolue que très peu. Dans le cas des cancers du sein, certaines femmes pourraient choisir de subir une mastectomie; un homme pourrait quant-à-lui se soumettre à une prostatectomie suite à un diagnostic de cancer de la prostate. Ces deux opérations sont lourdes de conséquences tant psychologiques (image du corps, identité sexuelle, mutilation), que physiologiques (risques d'incontinence et d'impuissance dans le cas de la prostatectomie). Il est donc souhaitable de les éviter tant que possible.

Le sur-diagnostic introduit de plus un biais dans les statistiques d'incidence et de survie des pathologies concernées : supposons que sans sur-diagnostic, 30 patients sur 600 survivent à une pathologie donnée. Le taux de survie est alors de 5%. Supposons maintenant que le diagnostic précoce de la pathologie fasse que 1000 patients supplémentaires soient diagnostiqués avec un taux de sur-diagnostic de 30%. Les 300 patients traités à tort auraient survécu sans traitement, mais ils sont tout de même comptés dans la statistique finale de survie qui donne alors un taux de 330/1600 = 20,6% tandis que la statistique d'incidence a elle aussi augmentée. Les travaux de Pohl Heiko et H. Gilbert Welch (2005) étudient le poids du sur-diagnostic dans les statistiques d'incidence de l'adénocarcinome de l’œsophage.

Objectifs

Le but de ce travail de recherche est de proposer un modèle simple permettant d'estimer le risque de sur-diagnostic au sein d'un échantillon de patients à partir d'une matrice de facteurs de risque (antécédents familiaux, habitudes alimentaires, comportements à risque, facteurs génétiques...) en tenant compte du risque individuel de chaque patient, de la proportion supposée de patients sur-diagnostiqués et de la proportion supposée de patients non traités alors qu'ils auraient besoin d'un traitement (que nous appellerons faux-négatifs). Les outils sont ceux de l'apprentissage bayésien et se placent dans la continuité du cours de Modèles Probabilistes pour l'Apprentissage du premier semestre de 2A MMIS. L'objectif a été d'implémenter puis de tester un algorithme de type mixte Monte-Carlo-Markov-Chain (MCMC) et estimation paramétrique, à la manière en quelque sorte de l'algorithme EM, utilisant la régression logistique pour estimer à chaque nouvelle itération le risque individuel de chaque patient.

Description succinte du modèle

Résultats

Documents