Apprentissage et Représentation des Connaissances

Apprentissage Artificiel et Représentation des Connaissances

Membres du thème

AIT EL MEKKI Touria Maître de conférences
AMGHAR Tassadit Maître de conférences / HDR
DA MOTA Benoit Maître de conférences
DUVAL Béatrice Professeur
GENEST David Maître de conférences
GOUDET Olivier Maître de conférences
GUTOWSKI Nicolas Maître de conférences
HÛ Olivier Maître de conférences
LOISEAU Stéphane Professeur
BAKKI Aïcha Enseignant-chercheur contractuel
JAMIN Antoine Enseignant-chercheur contractuel
LEGUY Jules Doctorant
LETARD Alexandre Doctorant
RANDRIATSITOHAINA Tsanta Ingénieur de recherche

Les travaux du thème ARC proposent des solutions à base de modèles de représentation des connaissances et de méthodes d’apprentissage artificiel pour l’analyse et la compréhension de problèmes scientifiques ou applicatifs (livret détaillé). Concernant la représentation des connaissances, les apports concernent notamment les données liées (linked data) et les modèles graphiques pour l’élicitation et le raisonnement sur les connaissances métiers d’un domaine. Concernant l’apprentissage, les travaux portent, d’une part, sur les systèmes de recommandation, et d’autre part sur l’inférence de connaissances à partir de données dans le domaine de la biologie et de la chimie moléculaire. En collaboration avec le thème MOC, des travaux sont également menés pour intégrer des méthodes d’apprentissage et de fouile de données au sein des recherches méta-heuristiques

Représentation et interrogation dans les modèles du web des données et des cartes cognitives

Deux types de travaux ont été menés autour de ces problématiques. D’une part, le web des données est aujourd’hui particulièrement populaire pour stocker des connaissances avec RDF et OWL. Les contributions de nos travaux ont consisté d’abord à fournir une approche plus performante pour interroger en SPARQL des bases (par l’usage d’aperçus des bases interrogées), ensuite à proposer une méthodologie permettant de faire évoluer les bases tout en garantissant la non-dégradation de celles-ci, enfin en proposant une nouvelle approche visuelle et algorithmique pour construire des requêtes SPARQL en s’inspirant des travaux de graphes conceptuels. Ces travaux ont été présentés dans les conférences EGC (2015) et RFIA (2016). D’autre part, les cartes cognitives sont un modèle visuel de représentation des connaissances d’influence. Les contributions des travaux menés ont porté sur l’extension du modèle à des connaissances temporelles de type intervalles périodiques, et sur la proposition d’un langage et d’un moteur de requêtes des cartes qui permettent d’analyser les cartes. Une partie de ce travail a été mené à partir d’une application réelle de 50 cartes produites par des marins pêcheurs de la région pays de la Loire.

Systèmes de recommandation

Les travaux sur ce sujet sont consacrés à deux problèmes, la recommandation contextuelle de services d’une part, et l’apprentissage multi-critères guidé par les besoins des utilisateurs d’autre part. Les algorithmes de bandits-manchots pour les systèmes de recommandation sensibles au contexte font l’objet de nombreuses études. Afin de répondre aux enjeux de cette thématique, nos contributions se sont organisées autour de 3 axes : les systèmes de recommandation, les algorithmes de bandits-manchots (contextuels et non contextuels), et le contexte. La première partie des contributions a porté sur les algorithmes de bandits-manchots pour la recommandation. Elle aborde la diversification des recommandations visant à améliorer la précision individuelle. La seconde partie a porté sur la capture de contexte, le raisonnement contextuel pour les systèmes de recommandation d’événements culturels dans la ville intelligente, et l’enrichissement dynamique de contexte pour les algorithmes de bandits-manchots contextuels. Ces travaux ont été réalisés dans le cadre d’une thèse et ont donné lieu à une preuve de concept dans le cadre d’un projet financé par la région. Concernant l’apprentissage multi-critères guidé par les besoins des utilisateurs, ces travaux visent la construction d’un système de navigation de plaisance intelligent et se positionnent dans le cadre des systèmes de recommandation. Ils portent sur l’utilisation de bandits manchots combinatoires (COM-MAB) pour lesquels nous avons proposé de pouvoir utiliser un vecteur de récompenses partiel quand l’acquisition d’un vecteur complet nécessitant alors des sollicitations directes et trop fréquentes de l’utilisateur, semble difficile. C’est le cas dans un environnement maritime. L’approche que nous avons proposée permet de maintenir une précision globale proche de celle obtenue par les méthodes utilisant des vecteurs complets. Ces travaux font l’objet d’une collaboration industrielle.

Intelligence artificielle et chimie moléculaire

La découverte de molécules possédant des propriétés particulières est un objectif majeur en chimie, et depuis quelques années, de nombreux travaux ont étudié l’intérêt de guider ce processus par des méthodes d’intelligence artificielle. Concernant la génération de molécules prometteuses pour les matériaux moléculaires, qui intéresse notre partenaire chimiste, de nombreux verrous scientifiques sont à lever. En effet, l’espace chimique est gigantesque et peu connu alors même que certains îlots ont été largement explorés. De plus, le calcul des propriétés des molécules est un processus très coûteux ; certains travaux essaient donc d’estimer les propriétés cibles par apprentissage artificiel. Après avoir proposé une méthode d’apprentissage supervisé pour prédire des distances interatomiques, nous avons démontré que les jeux de données disponibles, rares et peu diversifiés, ne permettent pas à ces méthodes de correctement généraliser. Nous avons alors défini une mesure de diversité, chimiquement pertinente, afin de générer de nouveaux jeux de données d’apprentissage. Une plateforme de calcul collaboratif et un système d’information de type Big Data permettent de calculer et partager nos résultats, de les curer et les mettre en forme. La génération de molécules est abordée comme un problème d’optimisation de la propriété cible sous contraintes (stabilité, synthétisabilité et préférences du chimiste). A l’opposé de certaines méthodes de la littérature basées sur des architecture complexes d’apprentissage profond, nous proposons un générateur moléculaire, flexible et interprétable, dont le cœur est un algorithme évolutionnaire opérant sur une représentation graphe des molécules. Les résultats obtenus sur des benchmarks de natures diverses, mais explorant un espace encore réduit, sont comparables à l’état de l’art, et permettent donc d’envisager l’hybridation de ce générateur avec des méthodes d’apprentissage lui permettant une exploration plus large de l’espace moléculaire. Ces travaux ont été financés par la commission recherche de l’Université d’Angers et par la région Pays de la Loire et son dispositif RFI Atlanstic 2020 (projet AIQU) dans le cadre de la bourse postdoctorale de Marta Glavatskikh en 2019 et par une bourse doctorale ministérielle dans le cadre de la thèse de Jules LEGUY (2019-2022). Ces travaux sont réalisés en collaboration avec l’UMR de chimie MOLTECH-Anjou. Des outils libres sont mis à disposition de la communauté scientifique et le projet communique avec le public et l’implique à travers sa plateforme de calculs collaboratifs quchempedia@home.

Inférences de connaissances biologiques

Un des problèmes actuels en bio-informatique est de comprendre les mécanismes de régulation au sein d’une cellule ou d’un organisme en exploitant les données issues de plateformes de biologie moléculaire. En collaboration avec l’Institut de Recherche en Horticulture et Semences (IRHS), nous avons étudié les réseaux de co-expression de gènes chez le pommier avec la particularité d’y intégrer les transcrits anti-sens qui sont des ARN généralement non-codants, dont les différents modes d’action sont encore mal connus. Dans notre étude exploratoire du rôle des anti-sens, nous avons proposé d’une part une analyse fonctionnelle différentielle qui met en évidence l’intérêt de l’intégration des données anti-sens en transcriptomique. D’autre part, concernant les réseaux de gènes pour lesquels de nombreuses méthodes d’apprentissage ont été développées, nous avons proposé de limiter l’inférence à un cœur de réseau qui identifie les interactions majeures au sein du réseau. De plus, nous avons introduit une méthode d’analyse différentielle de réseaux qui a fourni des pistes pertinentes pour l’étude de voies de signalisation impactées par les anti-sens. Ces travaux ont été portés par le projet régional GRIOTE

Autres contributions

  • Inférence causale

    En collaboration avec l’équipe TAU de l’INRIA à Paris Saclay, nous avons développé des méthodes d’inférences de réseaux de causalité à partir de données d’observation dont la méthode SAM (Structural Agnostique Model). SAM met en jeu des outils d’apprentissage profond pour apprendre un modèle fonctionnel causal qui a vocation à être un outil d’aide à la décision afin de comprendre et prédire les effets d’interventions sur le système étudié. Ces méthodes ont été intégrées dans une nouvelle librairie pour Python, CausalDiscoveryToolbox, disponible en ligne.

  • Évaluation des dispositifs numériques de médiation culturelle Les outils de médiation numériques sont en pleine expansion tant dans le domaine culturel que touristique. Nos travaux visent entre autres la constitution d’une grille multi-critères d’évaluation prenant en considération les dimensions d’accessibilité, d’utilisabilité, d’émotion et de persuasion des interfaces, et de corréler cette évaluation avec l’étude de l’expérience vécue par les usagers. Ces travaux ont été financés par la région Pays-de-la-Loire et ses dispositifs RFI TourismLab et RFI Ouest Industrie Créative et ont donné lieu au financement d’une bourse post-doctorale en 2018/2019. Ces travaux ont fait l’objet d’une publication dans le colloque international « Méthodes visuelles dans les recherches sur la communication » en 2018, et dans différents colloques comme “Innovation dans le patrimoine” en 2018.

  • Intelligence artificielle pour l’archivistique La messagerie électronique est une archive au sens mémoriel comme au sens informatique et l’ensemble des messageries d’un organisme sont une archive de cet organisme. L’objet de ce projet est de tester des stratégies d’évaluation archivistique sur les messageries électroniques, pour aboutir à une méthodologie d’exploration et d’aide à la décision de sélection des messages sur la base de critères de pertinence et de représentativité. Le projet fait appel à des compétences croisées en matière d’évaluation archivistique et d’intelligence artificielle (TALN et apprentissage artificiel). Ce travail mené en collaboration avec le laboratoire Temos UMR CNRS 9016-Université d’Angers et le centre Jean Mabillon (École nationale des Chartes) fait l’objet du projet ANR BALise dans le cadre de l’AAP 2020 Révolution numérique : rapports au savoir et à la culture. Le projet est en phase deux de réponse aux experts.

Recent Posts