Français Anglais
Accueil Annuaire Plan du site
Accueil > Production scientifique > Thèses et habilitations
Production scientifique
Doctorat de

Doctorat
Equipe : Bioinformatique

Algorithmes de graphes pour la recherche de motifs recurrents dans les structures tertiaires d'ARN

Début le 01/12/2006
Direction : DENISE, Alain

Ecole doctorale :
Etablissement d'inscription : Université Paris-Saclay

Lieu de déroulement : Universite Paris-Sud 11

Soutenue le 07/12/2009 devant le jury composé de :
M. GOUYOU-BEAUCHAMPS DOMINIQUE, President
M. DENISE ALAIN, Directeur,
M. LEONTIS NEOCLES, Rapporteur ,
M. GUENOCHE ALAIN, Rapporteur,
M. KONIG JEAN-CLAUDE, Rapporteur.

Activités de recherche :

Résumé :
Le repliement d'une molécule d'ARN non-codant est initié et stabilisé par ce qu'on appelle les motifs tertiaires. Ces motifs sont présents de manière récurrente dans les ARN de différents organismes vivants; ce qui suggère que leur rôle biologique a été conservé à travers l'évolution. Un recensement exhaustif et détaillé de ces motifs récurrents, incluant nombre d’occurrences et variantes, est donc une étape essentielle pour une meilleure compréhension du phénomène de repliement. Ce recensement peut être obtenu de manière efficace grâce à des méthodes automatiques d'extraction. Un inconvénient majeur des méthodes existantes est que la récurrence d'un motif est démontrée lorsque les occurrences trouvées sont strictement identiques. Dans la réalité, ces occurrences ne sont pas toujours identiques mais similaires en ce sens qu'elles possèdent une sous-structure commune ayant des propriétés biologiques spécifiques.

Dans notre approche, une structure tertiaire d’ARN est modélisée par un graphe général étiqueté sur les sommets et les arêtes. Les sommets représentent les nucléotides étiquetés par leur base et leur numéro dans la séquence. Les arêtes représentent les interactions entre les bases étiquetées par leur type d’interaction. Les occurrences d’un motif récurrent deviennent, selon ce modèle, des sous-graphes similaires dont la structure commune est a priori inconnue. Ce type de recherche fait appel au problème du sous-graphe commun maximum bien connu en complexité algorithmique pour être NP-difficile et inapproximable.

Ce travail propose (1) une nouvelle mesure de similarité de graphe permettant d'identifier des occurrences similaires d'un motif tertiaire potentiel. Cette mesure est obtenue par un algorithme de calcul d'un sous-graphe commun maximum ayant des propriétés structurales spécifiques, (2) une nouvelle méthode automatique d'extraction et de classification de (familles de) motifs d'ARN récurrents utilisant la nouvelle mesure de similarité.

Il existe deux types de motifs tertiaires récurrents : les motifs locaux incrustés dans des éléments de structure secondaire et les motifs d'interaction faisant intervenir deux ou plusieurs éléments de structure secondaire. La méthode d'extraction et classification proposée a été appliquée à un échantillon représentatif de structures d'ARN. Les résultats obtenus ont été expertisés par des biochimistes de l’Institut de Biologie Moléculaire et Cellulaire (IBMC) de Strasbourg.