Projet de spécialité - Système de recherche de contenus vidéo

De Ensiwiki
Aller à : navigation, rechercher


Tuteurs : Georges Quénot et Philippe Mulhem

Contexte

Le projet se situe dans le contexte des moteurs de recherche de contenus dans des collections de documents vidéos. C'est un des thèmes de recherche de l'équipe Modélisation et Recherche d'Information Multimédia du Laboratoire d'Informatique de Grenoble.

Objectif

L'objectif est de concevoir un système de recherche de vidéos par le contenu capable de participer à des challenges internationaux de type TRECVid [1][2] et/ou VBS [3].

On dispose d'une collection de 1000 heures de vidéos prédécoupées (automatiquement) en 1082657 "plans". Le système à développer doit prendre en entrée une requête en langage naturel combinant entre un et quatre éléments de type "personne", "action", "objet" ou "lieu" (exemple : "Find shots of one or more people driving snowmobiles in the snow") et fournir en sortie une liste d'au plus 1000 plans, ordonnée du plus probable au moins probable, satisfaisant la requête. Les challenges fournissent, en plus de la collection segmentée, une liste de "requêtes résolues", c'est à dire pour lesquelles on connait le résultat attendu, ce qui permet d'évaluer la performance d'un système et de comparer les systèmes entre eux.

Le système ne sera pas à faire de bout en bout. On utilisera de nombreuses ressources déjà disponibles, notamment des détecteurs de concepts prédéfinis dans des images (voir [2] pour des exemples). Il faudra combiner ces "composants sur étagère" avec plusieurs nouveaux éléments pour construire un système complet capable d'effectuer la tâche visée (on pourra reprendre des approches décrites dans [2]). Le système devra évidement être générique et pouvoir s'appliquer à n'importe quelle collection de vidéos de taille comparable.

Comme 1000 heures de vidéo représente déjà un gros volume pour nous et que les calculs de "deep learning" sont très volumineux, un accès sera fourni à des serveurs GPU de la grille de calcul Grid'5000 [4].

Une formation spécifique sera assurée sur les méthodes nécessaires. De bonnes compétences en programmation python, scipy, etc. et en mathématiques sont nécessaires.

Contact

Georges Quénot, Philippe Mulhem

Références

[1] https://www-nlpir.nist.gov/projects/tv2019/avs.html

[2] https://www-nlpir.nist.gov/projects/trecvid/eccv_tutorial/ECCV2018_AVS.pdf

[3] https://videobrowsershowdown.org/

[4] https://www.grid5000.fr/w/Grid5000:Home