Adaptation and combination of bio-inspired and text mining approaches for text descriptor selection
Adaptation et combinaison d'approches bio-inspirées et de fouille de textes pour la sélection de descripteurs textuels
Résumé
Semantic textual similarity is considered to be the backbone of text understanding and an important element for many natural language processing tasks. Its principle on a set of textual data is to identify the existence of a semantic similarity or to assess the degree of similarity between them, these textual data generated from different sources are examples of unstructured data. Unstructured data does not fit perfectly into the traditional structure of relational databases, they are complicated and difficult to handle and require a preparation step, this preparation allows us to generate better textual descriptors, which they lead us to effective treatment. The objective of this thesis is to present a state of the art on the methods of the three phases of data preparation : The pre-processing, the vector representation and the features selection, by analyzing their impact on the task of semantic similarity evaluation between textual entities, for the same purpose, efficient, simple and robust bio-inspired approaches have been proposed. Within the framework of this thesis, we propose different contributions. The first contribution is an approach based on the extraction of linguistic descriptors from a text and terms specific to a thesaurus by applying a specific semantic weighting. The second contribution is an unsupervised approach based on a combination of bio-inspired approaches and text mining for an efficient search of the optimal subsets of the characteristics of text documents, the contribution of this approach lies in the adaptation of a quantum inspired genetic algorithm. The third contribution represents a supervised version of the already proposed bio-inspired approach, while examining the impact of widely used preprocessing techniques on the semantic similarity task. We finish by integrating "Document Embedding" techniques as data representation methods, while evaluating the impact of preprocessing on these methods. An empirical comparison is made, taking semantic similarity as a case study. These proposals were tested on data made up of different sources or standard datasets. The results obtained proved the effectiveness of the proposed methods.
La similarité textuelle sémantique est considérée comme la pierre angulaire de la compréhension des textes et un élément important pour de nombreuses tâches de traitement du langage naturel. Son principe sur un ensemble de données textuelles est d'identifier l'existence d'une similarité sémantique ou d'évaluer le degré de similarité entre eux, ces données textuelles générées à partir de différentes sources sont des exemples de données non structurées. Les données non structurées ne s'intègrent pas parfaitement dans la structure traditionnelle des bases de données relationnelles, elles sont compliquées et difficiles à manipuler et nécessitent une étape de préparation, cette préparation permet de générer des meilleurs descripteurs textuels, qu'ils nous conduisent à un traitement efficace. L'objectif de cette thèse est de présenter un état de l'art sur les méthodes des trois phases de préparation des données : Le pré-traitement, la représentation vectorielle et la sélection des caractéristiques, en analysant leur impact sur la tâche de l'évaluation de similarité sémantiques entre entités textuelles, dans le même but, des approches bio-inspirées efficaces, simples et robustes ont été proposé. Dans le cadre de cette thèse, nous proposons différentes contributions. La première contribution est une approche fondée sur l'extraction de descripteurs linguistiques issus d'un texte et des termes propres à un thésaurus en appliquant une pondération sémantique spécifique. La deuxième contribution est une approche non-supervisée basée sur une combinaison d'approches bio-inspirées et de fouille de textes pour une recherche efficace des sous-ensembles optimales des caractéristiques des documents texte, la contribution de cette approche se réside dans l'adaptation d'un algorithme génétique inspiré du quantique. La troisième contribution représente une version supervisée de l'approche bio-inspirée déjà proposée, tout en examinant l'impact des techniques de pré-traitement largement utilisées sur la tâche de similarité sémantique. On termine par l'intégration des techniques de plongement de documents comme méthodes de représentation des données, tout en évaluant l'impact de pré-traitement sur ces méthodes. Une comparaison empirique est réalisée, en prenant la similarité sémantique comme étude de cas. Ces propositions ont été expérimentées sur des données constituées des sources différentes et des datasets standards. Les résultats obtenus ont prouvé l'efficacité des méthodes proposées.
Mots clés
fouille de textes
analyse de données
traitement de l'information
classification (information)
indexation d'information
taxonomie (gestion de l'information)
Traitement automatique du langage naturel
Similarité sémantique
Pré-traitement
Représentation vectorielle
Plongement lexical
Algorithme génétique inspiré du quantique
Domaines
Informatique [cs]
Fichier principal
Yahi_Adaptation et combinaison d'approches bio-inspirées et de fouille de textes pour la sélection de descripteurs textuels_2021.pdf (2.02 Mo)
Télécharger le fichier
Origine | Fichiers produits par l'(les) auteur(s) |
---|