À la recherche de mots de fréquence exceptionnelle dans les génomes
Abstract
La compréhension de l’information génétique portée par les génomes est un défi pour les biologistes, les biophysiciens, les informaticiens et les mathématiciens. Un des problèmes classiques en bioinformatique est l’identification de « mots » qui apparaissent avec une fréquence inattendue dans ces longues suites de lettres à valeur dans l’alphabet acgt que sont les séquences d’ADN. Ces mots exceptionnels peuvent en effet être liés à des mécanismes biologiques cruciaux pour la cellule. Nous présentons ici la démarche du statisticien face à cet enjeu.