IA et applications

Traitement de données biologiques

L’accroissement des volumes de données “omics” produites par
les nouveaux dispositifs d’acquisition (séquençage haut débit …)
soulèvent de nombreux défis dans les domaines du traitement de
données, du calcul et du stockage. Dans ce contexte général, notre
projet se focalise sur la définition d’outils d’aide à la décision,
en particulier en ce qui concerne la prédiction et l’identification
de propriétés biologiques et la modélisation de systèmes. Ces deux
aspects constituent deux volets totalement complémentaires, le
premier visant à aider une décision à court terme (diagnostic ou
pronostic par exemple), le second permettant d’alimenter les
connaissances globales et de faire progresser les méthodes d’analyse
et les cibles utilisées pour la prise de décision. Cette action se
développera dans le contexte de projets structurants à l’échelle
régionale (notamment les projets GRIOTE et Symetric en cours) ou
nationale dans les domaines de la biologie végétale – en particulier
pour l’identification de propriétés phénotypiques – et de la médecine
personnalisée – en particulier pour définir des outils de pronostic
dans le contexte de la leucémie aiguë. Ce projet se développera avec
nos partenaires locaux (INRA Angers et CHU Angers). Dans ce cadre,
nous aborderons différentes problématiques. Dans la continuité des
travaux déjà menés, l’analyse logique de groupes de données constitue
une approche complémentaire des méthodes de classification
statistiques usuelles qui permet aux biologistes d’obtenir des
justifications exploitables de caractères communs de groupes
d’individus, sous la forme de combinaisons logiques de caractères.
Dans cette optique, il nous faut définir des approches de
visualisation et de présentation des résultats facilitant leur
utilisation. Pour ce faire, nous proposons d’étendre la recherche de
solutions via des techniques multi-critères. De plus, certaines
contraintes, en plus de contraintes de minimisation de la taille des
solutions, peuvent être considérées (par exemple dépendances
fonctionnelles entre caractères liés à des interactions biologiques).
Enfin, cette approche peut se coupler aisément à des outils de
classification via des pipelines de traitement (e.g., Galaxy) pour
permettre une meilleure interaction entre la constitution de groupes
d’individus (classification) et la sélection de marqueurs permettant
leur identification (caractérisation/diagnostic/pronostic). Les
algorithmes doivent en outre toujours évoluer pour faire face au
challenge consistant à traiter in fine des génomes entiers.