Predicative Analysis for Information Extraction: application to the biology domain
Analyse prédicative pour l’extraction d’information : application au domaine de la biologie
Résumé
The abundance of biomedical information expressed in natural language has resulted in the need for methods to process this information automatically. In the field of Natural Language Processing (NLP), Information Extraction (IE) focuses on the extraction of relevant information from unstructured data in natural language. A great deal of IE methods today focus on Machine Learning (ML) approaches that rely on deep linguistic processing in order to capture the complex information contained in biomedical texts. In particular, syntactic analysis and parsing have played an important role in IE, by helping capture how words in a sentence are related. This thesis examines how dependency parsing can be used to facilitate IE. It focuses on a task-based approach to dependency parsing evaluation and parser selection, including a detailed error analysis. In order to achieve a high quality of syntax-based IE, different stages of linguistic processing are addressed, including both pre-processing steps (such as tokenization) and the use of complementary linguistic processing (such as the use of semantics and coreference analysis). This thesis also explores how the different levels of linguistics processing can be represented for use within an ML-based IE algorithm, and how the interface between these two is of great importance. Finally, biomedical data is very heterogeneous, encompassing different subdomains and genres. This thesis explores how subdomain adaptation can be achieved by using already existing subdomain knowledge and resources. The methods and approaches described are explored using two different biomedical corpora, demonstrating how the IE results are used in real-life tasks.
La thèse s'inscrit dans le contexte décrit précédemment : il s'agit d'explorer des techniques d'acquisition de connaissances lexicales à partir de textes, à des fins tant théoriques qu'applicatives. l'analyse portera plus particulièrement sur le prédicat verbal et ses nominalisations car celui-ci joue un rôle essentiel pour les applications de tal (repérage d'événements, extraction d'information, etc.). on s'intéressera par exemple à l'acquisition de cadres de sous-catégorisation et de restrictions de sélections afin de déterminer des familles de verbes ayant un comportement syntaxico-sémantique proche. la stratégie envisagée est fortement inspirée des travaux de z. harris et de ses collègues (harris 1951, 1988 ; harris et al., 1989). celui-ci a montré que les textes techniques n'utilisent pas toute la complexité de la langue mais font au contraire usage de « sous-langages ». un sous-langage a un vocabulaire spécialisé et une syntaxe simplifiée par rapport à la langue courante. les textes de spécialités font donc apparaître des régularités qui peuvent s'analyser par analyse distributionnelle (en simplifiant : les éléments apparaissant dans des contextes similaires ont des sens similaires, ou tout au moins proches). seulement, l'analyse distributionnelle en peut fonctionner que si le texte a été « nettoyé » des variations linguistiques de surface. une pré-analyse des textes est donc cruciale.