Dauvilliers Clément : Synthèse GAN d'images ultrasons en neurochirurgie

De Ensiwiki
Aller à : navigation, rechercher
Cornues.png
Titre du projet Synthèse GAN d'images ultrasons en neurochirurgie
Cadre IRL

Labo TIMC-IMAG

Encadrants Matthieu Chabanas

Introduction

L'imagerie ultrason (US Imaging) est une technologie clef pour les neurochirurgiens, notamment lors d'opérations de résection de tumeurs du cerveau. Lors de différents phases de l'opération, une sonde est placée au niveau de l'ouverture crânienne et permet par émission-réception d'ondes ultrasons de visualiser la zone sondée du cerveau. Les chirurgiens utilisent cette visualisation pour localiser la tumeur ou les objets anatomiques à éviter. Des travaux comme [1] visent à compléter l'imagerie ultrason en segmentant automatiquement les images obtenues (Figure 1). Ces travaux utilisent pour cela des modèles de Deep Learning, qui nécessitent beaucoup de données. Cependant, les images US venant de patients réels sont rares et difficiles à obtenir; en outre la segmentation manuelle de ces images est longue et requière d'être validée par des experts médicaux.

L'objectif de cet IRL, qui est la continuation du travail de M. Donnez et M. Chabanas dans [2], est de génerer des images synthétiques réalistes à partir de la segmentation. En employant des segmentations artificielles qui sont nettement plus simples à créer, ces images pourraient servir d'augmentation de données aux modèles évoqués précedemment. Un autre intérêt de cette méthode est par exemple de remplacer sur une image une tumeur par la cavité post-résection, afin de simuler l'image post-opération.

Ce projet présente trois modèles basé sur l'architecture GAN qui permet dans ce cas d'entraîner un réseau convolutif dit "générateur" à générer des images réalistes, à l'aide d'un réseau visant à discerner les images vraies et fausses dit "discrimninateur".

Figure 1: Example d'image US et de sa segmentation. Les différents objets présents sont: A - Cavité de résection; B et C - Sulci; D - un Ventricule

Étude

Données

Les images US utilisées sont celles de 22 cas réels provenant des volumes ultrasons 3D du dataset RESECT [3]. Ces volumes ont été découpés en images, qui ont ensuite été traitées puis trier pour former un jeu de 6700 exemplaires. La segmentation a été réalisée manuellement par M. Chabanas et F-X. Carton dans le cadre de [1] sur ces mêmes cas.

Modèles

Trois modèles sont proposés:

- Un modèle pix2pix proposé par P. Isola dans [5], qui représente l'implémentation standard du GAN pour une transformation d'image-à-image;

- Un modèle pix2pix auquel a été rajouté des blocs de Self-Attention. Ces layers (Figures 2 et 3) introduits dans [6] et utilisées dans une étude similaire à la nôtre dans [7] permettent de mieux capter l'agencement spatial des images.

Figure 2: schéma d'un layer de Self-Attention. L'opération de transposition permet de mettre en relation des parties distantes de l'entrée. La fonction Softmax associe à chaque position une importance relative, l' "attention".
Figure 3: Placement des blocs de Self-Attention (rouge) dans le réseau UNet utilisé par pix2pix.

- Un modèle enchaînant deux GANs successifs inspiré de [8]. Un premier réseau génère des images US que le second réseau tente d'améliorer.

Conclusion

L'étude montre que le modèle pix2pix est capable de générer des motifs (Tumeurs, cavités, sulci, ..) réalistes. En particulier, celui-ci est capable de deviner des caractéristiques liées à la trajectoire de l'onde ultrason, comme la "footprint" de la sonde ultrason qui crée une bande lumineuse sur les bords des images (Figure 4). En contrepartie, le réseau perd en réalisme dans les zones ne comprenant que du tissu sans aucun objet anatomique (le "Speckle"), en générant des zones floues où incohérentes avec le reste de l'image.

Figure 4: Exemple d'image générée (milieu) à partir de la segmentation, versus image réelle (droite). Ce cas fait apparaître la footprint (encadrée en vert), que le réseau a correctement intégré à l'image synthétique malgré que la segmentation ne l'indique pas.

Le modèle avec Self-Attention donne des résultats prometteurs puisque celui-ci détecte tout autant les caractéristiques spatiales des images avec moins d'entraîment. Cependant, ce modèle demande pour être entraîné de manière optimale des ressources de calcul dépassant celles dont nous disposion au moment de l'étude. Enfin, le modèle utilisant deux GANs consécutifs a été un échec, pour une raison cette fois-ci méthodique: le premier GAN n'est pas entraîné à répliquer l'image cible, mais à générer des images réalistes. Ainsi les images créées par le premier réseau étaient trop différentes des images réelles pour pouvoir entraîner un réseau à transformer les premières en les secondes.

Finalement, la question se pose de savoir si les images artificielles actuelles sont déjà d'assez bonne qualité pour pouvoir servir d'augmentation de données. Cependant les résultats sont encourageants et montrent que cette technique est sans aucun doute envisageable dans le futur proche.

Rapport

Rapport (PDF)

Références

[1] François-Xavier Carton, Matthieu Chabanas, Florian Le Lann, Jack H. Noble, "Automatic segmentation of brain tumor resections in intraoperative ultrasound images using U-Net," J. Med. Imag. 7(3) 031503 (18 February 2020).

[2] Mélanie Donnez, François-Xavier Carton, Florian Le Lann, Emmanuel De Schlichting, Matthieu Chabanas, "Realistic synthesis of brain tumor resection ultrasound images with a generative adversarial network," Proc. SPIE 11598, Medical Imaging 2021: Image-Guided Procedures, Robotic Interventions, and Modeling, 115982F (15 February 2021).

[3] Xiao, Y., Fortin, M., Unsgård, G., Rivaz, H. and Reinertsen, I. (2017), REtroSpective Evaluation of Cerebral Tumors (RESECT): A clinical database of pre-operative MRI and intra-operative ultrasound in low-grade glioma surgeries. Med. Phys., 44: 3875-3882.

[4] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair,Aaron Courville, and Yoshua Bengio. Generative adversarial networks, 2014.

[5] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation withconditional adversarial networks. InProceedings of the IEEE Conference on Computer Vision andPattern Recognition (CVPR), July 2017

[6] Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augustus Odena. Self-attention generativeadversarial networks. In Kamalika Chaudhuri and Ruslan Salakhutdinov, editors,Proceedings of the36th International Conference on Machine Learning, volume 97 ofProceedings of Machine LearningResearch, pages 7354–7363. PMLR, 09–15 Jun 2019.

[7] Ahmed Z. Alsinan, Charles Rule, Michael Vives, Vishal M. Patel, and Ilker Hacihaliloglu. Gan-based realistic bone ultrasound image and label synthesis for improved segmentation. In Anne L.Martel, Purang Abolmaesumi, Danail Stoyanov, Diana Mateus, Maria A. Zuluaga, S. Kevin Zhou,Daniel Racoceanu, and Leo Joskowicz, editors,Medical Image Computing and Computer AssistedIntervention – MICCAI 2020, pages 795–804, Cham, 2020. Springer International Publishing.

[8] Francis Tom and Debdoot Sheet. Simulating patho-realistic ultrasound images using deep generativenetworks with adversarial learning. In2018 IEEE 15th International Symposium on BiomedicalImaging (ISBI 2018), pages 1174–1177, 2018.