Français Anglais
Accueil Annuaire Plan du site
Accueil > Production scientifique > Thèses et habilitations
Production scientifique
Doctorat de

Doctorat
Equipe : Parallélisme

Nouveaux protocoles de tolérance aux pannes pour les applications de calcul haute performance

Début le 01/10/2008
Direction : CAPPELLO, Franck

Ecole doctorale :
Etablissement d'inscription : Université Paris-Saclay

Lieu de déroulement : LRI

Soutenue le 06/12/2011 devant le jury composé de :
André Schiper (Rapporteur), Professeur, EPFL
Pierre Sens (Rapporteur), Professeur, Université Paris 6

George Bosilca (Examinateur), Research Assistant and Adjunct Assistant Professor, ICL, Univeristy of Tenessee
Claude Puech (Examinateur), Professeur, Université Paris Sud
Jean-Louis Roch (Examinateur), Maître de Conférences, IMAG
Frédéric Vivien (Examinateur), Directeur de Recherche, INRIA

Marc Snir (Invité), Professeur, University of Illinois at Urbana Champaign

Franck Cappello (Directeur de thèse), Directeur de Recherche, INRIA

Activités de recherche :

Résumé :
Avec l'évolution des machines parallèles, l’utilisation des protocoles de
tolérance aux fautes devient nécessaire. Les techniques utilisées devront
permettre de minimiser les effets des défaillances tout en garantissant de
bonnes performances en exécution sans faute. Les protocoles de tolérance aux
fautes existants nécessitent soit un redémarrage global (protocoles de sauvegarde
de points de reprise coordonnés) soit l’enregistrement de l’ensemble des messages
(protocoles à enregistrement de messages) et ne sont donc pas adaptées à ces
architectures.

Nous avons étudié les caractéristiques des protocoles existants. Dans un premier
temps, nous avons étudié le déterminisme des applications, étant donné que les
protocoles existants supposent des exécutions non déterministes (protocoles de
sauvegarde de points de reprise) ou déterministes par morceaux (protocoles à
enregistrement de messages). Dans notre étude, nous nous sommes intéressés au
modèle par échange de messages, et plus précisément aux applications MPI. Nous
avons analysé 26 applications MPI et avons mis avant une nouvelle
caractéristique appelée "déterminisme des émissions" qui correspond à
la majorité des applications étudiées. Dans un second temps, nous nous sommes
intéressés aux schémas de communications des applications afin d'étudier
l'existence des groupes de processus dans ces schémas. L'étude a montré que
pour la plupart des applications, il est possible de créer des groupes de
processus de façon à minimiser la taille des groupes et le volume des messages
inter-groupe.

A partir de là nous avons proposé deux protocoles de tolérance aux fautes.
Le premier est un protocole de sauvegarde de points de reprise non coordonnés
pour les applications à émissions déterministes qui évite l'effet domino en
n'enregistrant qu'un sous ensemble des messages de l'application. Nous avons
également adapté le protocole pour l'utiliser sur des groupes de processus. Par
la suite, nous avons proposé HydEE, un protocole hiérarchique fondé sur le
déterminisme des émissions et les groupes de processus. Il combine un protocole
de sauvegarde de points de reprise coordonnés au sein des groupes à un
protocole à enregistrement de messages entre les groupes. Ces deux protocoles
ont été mis en œuvre dans la bibliothèque MPICH2 et l’évaluation de leurs
performances montrent que ces deux protocoles ont un faible impact sur les
performances des applications.