S'informer sur les médias sociaux via l'élaboration d'information synthétique - Gestion des Données Accéder directement au contenu
Thèse Année : 2022

Getting information from social media through the elaboration of synthetic information

S'informer sur les médias sociaux via l'élaboration d'information synthétique

Résumé

Social media are full of information, which can be useful, of interest. However, the large amount of data present can require the reader to make a tedious effort to access the relevant information. A synthesis of this information appears useful or even necessary for the user to be informed. In this work, we focus on the development of summaries from the social media Twitter. The state of the art of automatic summarization today uses neural language models, as do many Natural Language Processing (NLP) tasks. However, these models are not used for automatic tweet stream summarization. This can be explained by : (i) the difficulty to create training sets of sufficient size and adequate for these models, (ii) the size of the text to be summarized, which does not allow the models to be applied directly as in the case of usual summarization. In this work, our contributions are as follows : - We propose two collections of tweets that can be used for training neural models. The first one, containing more than 80 million tweets, is built with a method that is also part of our contributions, involving little human effort. The second, not subject to the problem of tweets deletion, is an adaptation of a dataset originally used for information filtering. - We present a model for automatic tweet stream summarization based on a neural language model. We add the frequency of the stream tokens to represent the stream context of tweets. - Finally, in order to better understand the mechanisms involved in summarization and to enable the development of future, more efficient summarization methods, we explore pre-established state-of-the-art representations for automatic summarization of tweet streams.
Les médias sociaux regorgent d'informations qui peuvent être utiles et d'intérêt. Cependant, la trop grande quantité de données présentes peut demander au lecteur un effort fastidieux afin d'accéder à l'information pertinente. Une synthèse de cette information apparaît utile voir nécessaire pour l'utilisateur afin de s'informer sans être submergé. Nous nous penchons ainsi dans ces travaux sur l'élaboration de résumés à partir du média social Twitter. L'état de l'art du résumé automatique utilise aujourd'hui des modèles de langue neuronaux, comme beaucoup de tâches du Traitement Automatique des Langues (TAL). Cependant, ces modèles ne sont pas utilisés pour le résumé automatique de flux de tweets. Ceci peut être expliqué par : (i) la difficulté de créer des jeux d'apprentissage de taille suffisante et adéquats pour ces modèles, (ii) la taille du texte à résumer, qui ne permet pas d'appliquer directement les modèles comme dans le cas de résumé classique. Dans ces travaux, nos contributions sont les suivantes : - Nous proposons deux corpus de tweets pouvant être utilisés pour l'apprentissage des modèles neuronaux. Le premier, de plus de 80 millions de tweets, est construit avec une méthode faisant également partie de nos contributions, mettant en œuvre peu d'efforts humains. Le second, non soumis au problème de la suppression de tweets, est une adaptation d'un jeu de données utilisé à l'origine pour le filtrage d'information. - Nous présentons un modèle de résumé automatique de flux de tweets basé sur un modèle de langue neuronal. Nous ajoutons la fréquence des tokens du flux pour représenter le contexte flux de tweets. - Enfin, afin de mieux comprendre les mécanismes mis en place lors du résumé et de permettre le développement de futures méthodes de résumé plus efficaces, nous explorons les représentations pré-établies de l'état de l'art pour le résumé automatique de flux de tweets.
Fichier principal
Vignette du fichier
2022TOU30222a.pdf (5.09 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04047847 , version 1 (27-03-2023)

Identifiants

  • HAL Id : tel-04047847 , version 1

Citer

Alexis Dusart. S'informer sur les médias sociaux via l'élaboration d'information synthétique. Sciences de l'information et de la communication. Université Paul Sabatier - Toulouse III, 2022. Français. ⟨NNT : 2022TOU30222⟩. ⟨tel-04047847⟩
87 Consultations
101 Téléchargements

Partager

Gmail Facebook X LinkedIn More