Information Extraction for the Seed Development Regulatory Networks of Arabidopsis thaliana - INRAE - Institut national de recherche pour l’agriculture, l’alimentation et l’environnement Accéder directement au contenu
Thèse Année : 2017

Information Extraction for the Seed Development Regulatory Networks of Arabidopsis thaliana

Extraction d’Information pour les réseaux de régulation de la graine chez Arabidopsis thaliana.

Résumé

This work proposes Information Extraction (IE) as an efficient approach for producing structured, usable information on biology, by presenting a complete IE task on a model biological organism, Arabidopsis thaliana. Information Extraction is the process of extracting meaningful parts of text and identifying their semantic relations. In collaboration with experts on the plant A. Thaliana, a knowledge model was conceived, with the goal of providing a formal representation of the knowledge that is necessary to sufficiently describe the domain of grain development. This model contains all the entities and the relations between them which are essential and it can directly be used by algorithms. In parallel, this model was tested and applied on a set of scientific articles of the domain. These documents constitute the necessary corpus for training machine learning algorithms, annotated by experts using the entities and relations of the model. This corpus and this model are the first available for grain development and among very few on A. Thaliana, despite the latter’s importance in biology. This model manages to answer both needs of being complex enough to describe the domain well, and of having enough generalization for machine learning. A relation extraction approach (AlvisRE) was also elaborated and developed. AlvisRE’s approach is based on textual similarity and it uses all types of information available: lexical, syntactic and semantic. In the tests conducted, AlvisRE had results that are equivalent or sometimes better than the state of the art. Additionally, AlvisRE has the advantage of being modular and adaptive by using semantic information that was produced automatically. This last feature allows me to expect similar performance in other domains.
Ce travail propose l’Extraction d’Information (EI) comme une approche efficace pour la production de l’information structurée, utilisable sur la biologie, en présentant une tâche complète d’EI sur un organisme modèle, Arabidopsis thaliana. Un système d’EI se charge d’extraire les parties de texte les plus significatives et d’identifier leurs relations sémantiques. En collaboration avec des experts biologistes sur la plante A. thaliana un modèle de connaissance a été conçu danns l’objectif de formaliser la connaissance nécessaire pour bien décrire le domaine du développe- ment de la graine. Ce modèle contient toutes les entités et relations les connectant qui sont essentielles et peut être directement utilisé par des algorithmes. En parallèle ce modèle a été testé et appliqué sur un ensemble d’articles scientifiques du domaine, le corpus nécessaire pour l’entraînement de l’apprentissage automatique, annoté en utilisant les entités et relations du modèle. Le modèle et le corpus annoté sont les premiers proposés pour le développement de la graine, et parmi les rares pour A. thaliana, malgré son importance biologique. Ce modèle réconcilie les besoins d’avoir un modèle assez complexe pour bien décrire le domaine, et d’avoir assez de généralité pour pouvoir utiliser des méthodes d’apprentissage automatique. Une approche d’extraction de relations (AlvisRE) a également été élaborée et développée. L’approche AlvisRE est basée sur la similarité textuelle et utilise à la fois des informations lexiques, syntactiques et séman- tiques. Dans les expériences réalisées, AlvisRE donne des résultats qui sont équivalents et parfois supérieurs à l’état de l’art. En plus, AlvisRE a l’avantage de la modularité et adaptabilité en utilisant des informations sémantiques produites automatiquement. Cette dernière caractéristique lui permet d’attendre des performances équivalentes dans d’autres domaines.
Fichier non déposé

Dates et versions

tel-02786135 , version 1 (04-06-2020)

Identifiants

  • HAL Id : tel-02786135 , version 1
  • PRODINRA : 402573

Citer

Dialekti Valsamou. Information Extraction for the Seed Development Regulatory Networks of Arabidopsis thaliana. Artificial Intelligence [cs.AI]. Université Paris Saclay (COMUE), 2017. English. ⟨NNT : ⟩. ⟨tel-02786135⟩
12 Consultations
0 Téléchargements

Partager

Gmail Mastodon Facebook X LinkedIn More