Français Anglais
Accueil Annuaire Plan du site
Accueil > Production scientifique > Thèses et habilitations
Production scientifique
Doctorat de

Doctorat
Equipe : Bases de Données

Data-intensive interactive workflows for visual analytics

Début le 01/10/2008
Direction : BENZAKEN, Véronique

Ecole doctorale :
Etablissement d'inscription : Université Paris-Saclay

Lieu de déroulement :

Soutenue le 12/12/2011 devant le jury composé de :
Encadrants :
Véronique Benzaken, Professeur, Université de Paris-Sud 11
Jean-Daniel Fekete, Directeur de recherche, INRIA Saclay-Île-de-France
Ioana Manolescu, Directeur de recherche, INRIA Saclay-Île-de-France

Rapporteurs:
Dominique Laurent, Professeur, Université de Cergy Pontoise
Guy Melançcon, Professeur, LaBRI, Université Bordeaux I

Examinateurs:
Alain Denise, Professeur, Université de Paris-Sud 11
Thérèse Libourel, Professeur, LIRMM, Université Montpellier II

Activités de recherche :

Résumé :
L'expansion du World Wide Web et la multiplication des sources de données (capteurs, services Web,
programmes scientifiques, outils d'analyse, etc.) ont conduit à la prolifération de données hétérogènes
et complexes. La phase d'extraction de connaissance et de recherche de corrélation devient ainsi de plus
en plus difficile. Typiquement, une telle analyse est effectuée en utilisant les outils logiciels qui combinent:
des techniques de visualisation, permettant aux utilisateurs d'avoir une meilleure compréhension
des données, et des programmes d'analyse qui effectuent des opérations d'analyses complexes et longues.
La visualisation analytique (visual analytics) vise à combiner la visualisation des données
avec des tâches d'analyse et de fouille. Etant donnée la complexité et la volumétrie importante des données
scientifiques (par exemple, les données associées à des processus biologiques ou physiques, données des réseaux
sociaux, etc.), la visualisation analytique est appelée à jouer un rôle important dans la gestion des données
scientifiques. La plupart des plateformes de visualisation analytique actuelles utilisent des mécanismes en mémoire centrale
pour le stockage et le traitement des données, ce qui limite le volume de données traitées. En outre, l'intégration
de nouveaux algorithmes dans le processus de traitement nécessite du code d'intégration ad-hoc. Enfin, les plate-formes
de visualisation actuelles ne permettent pas de définir et de déployer des processus structurés, où les utilisateurs
partagent les données et, éventuellement, les visualisations.


Ce travail, à la confluence des domaines de la visualisation analytique interactive et des bases de données,
apporte deux contributions. (i) Nous proposons une architecture générique pour déployer une plate-forme de
visualisation analytique au-dessus d'un système de gestion de bases de données (SGBD). (ii) Nous montrons comment
propager les changements des données dans le SGBD, au travers des processus et des visualisations qui en font partie.
Notre approche permet à l'application de visualisation analytique de profiter du stockage robuste et du déploiement
automatique de processus à partir d'une spécification déclarative, supportés par le SGBD.

Notre approche a été implantée dans un prototype appelé EdiFlow, et validée à travers plusieurs applications.
Elle pourrait aussi s'intégrer dans une plate-forme de workflow scientifique à usage intensif de données, afin
d'en augmenter les fonctionnalités de visualisation.