Adrien Bustany - Construction d'une application d'annotation sémantique et d'extraction de métadonnées de fichiers multimédia - Résultats

De Ensiwiki
Aller à : navigation, rechercher


Construction d'une application d'annotation sémantique et d'extraction de métadonnées de fichiers multimédia

Labo LIG
Equipe HADAS
Encadrants marie-christine.rousset@imag.fr remi.tournaire@imag.fr, marie-christine.rousset@imag.fr

Etudiant

Bustany, Adrien

Introduction

Le but de ce TER était de développer une application permettant de collecter des données en vue d'évaluer les performances d'un algorithme de découverte de mappings entre ontologies. Une ontologie est un outil pour classifier et décrire l'information de façon structurée. Pour décrire un certain domaine d'information, on se restreint à un vocabulaire donné et on associe à chaque terme un sens précis. On définit de cette façon des classes (chaque classe correspond à un ensemble dans la population décrite) et des relations entre ces classes.

Le problème de la correspondance entre différentes ontologies vient du fait qu'internet est un media décentralisé, et qu'on observe donc la création de différentes ontologies pour décrire des domaines d'information semblables. Ces divergences empêchent une machine d'accéder de façon unifiée à l'information, à moins de rentrer toutes les ontologies existantes manuellement dans l'algorithme. On cherche donc des algorithmes capables de trouver des correspondances entre deux ontologies de façon automatisée.

Rémi Tournaire développe un algorithme de recherche de mappings (correspondances) entre ontologies. Des tests sur des données synthétiques ont été effectués pour étudier le comportement de l'algorithme de façon théorique, mais une évaluation sur des données réelles est nécessaire. Il a donc été décidé de demander à des utilisateurs de classer leur musique dans des ontologies créées par eux mêmes. Une étude des solutions existantes a rapidement montré qu'aucune application ne répondait à notre cahier des charges (application mixte de classement de fichiers multimédia/éditeur d'ontologies), il a donc été décidé de créer une nouvelle application.

Éléments de pré requis

Les technologies sémantiques introduisent un certain nombre de concepts qu'il est nécessaire de maitriser afin d'appréhender le sujet correctement.

Ontologie

Ensemble de classes et de relations permettant de décrire un domaine d'information donné. Par exemple, une ontologie très simplifiée pour décrire des média pourrait ressembler à :
Classes :

 Media
  |- Musique
  |- Livre
  |- Film

Relations :

 artiste (domaine : Media)
 titre (domaine : Media)
 compositeur (domaine : Musique)
 nombre de pages (domaine : Livre)
 réalisateur (domaine : Film)

On appelle instance un individu d'une classe.

Mapping

Un mapping est une correspondance entre deux classes de deux ontologies différentes. Une correspondance complète entre deux ontologies est donc un ensemble de mappings.

Travail réalisé

J'ai développé une application permettant à l'utilisateur d'importer ses média et de les classer dans une ontologie personnelle. Le cahier des charges était le suivant :

  • Permettre à l'utilisateur d'importer ses fichiers et les classer par métadonnées
  • Permettre à l'utilisateur de créer une ontologie et de placer ses fichiers dedans
  • Permettre à l'utilisateur d'exporter l'ontologie (et ses instances) créée au format OWL
  • Garder une interface la plus simple possible
  • Développer une application déployable facilement sur toutes les plates-formes majeures.

L'application finale répond à tous ces critères, en intégrant de plus la vérification de certaines contraintes sur l'ontologie créée par l'utilisateur (pas de cycles, pas de relations redondantes...).

Screenshot musicsorter.png

L'application est utilisée par le laboratoire pour collecter des données qui permettront d'évaluer les performances de l'algorithme de recherche de mappings de Rémi Tournaire.

Conclusions

Le développement de l'application a soulevé des questions intéressantes à la fois sur le protocole d'évaluation de l'algorithme et sur la façon dont des concepts complexes (ontologie...) sont présentés à l'utilisateur. La version actuelle de l'application remplit son rôle (elle est utilisée de façon réelle pour générer des ontologies personnelles), toutefois certaines évolutions seraient envisageables :

  • Écran d'accueil guidant l'utilisateur pour les opérations de base
  • Affichage de la hiérarchie du système de fichiers de l'utilisateur (actuellement seules les métadonnées sont prises en compte)
  • Envoi direct de l'ontologie sur internet

Par ailleurs, une intégration renforcée dans le protocole d'évaluation de l'algorithme serait intéressante. Actuellement, une chaine de pré-traitement des données importante est nécessaires avant d'arriver à un format de données exploitable par l'algorithme.

Références

cf. biblio du rapport

Documents additionnels