Automatic Hate Speech Detection on Social Media

Patricia Chiril

Résumé

This dissertation is focused on two objectives: (I) Hate Speech detection and (II) Sexism detection in social media. (I) Hate Speech and harassment are widespread in online communication, due to users' freedom and anonymity and the lack of regulation provided by social media platforms. Hate speech is topically-focused (misogyny, sexism, racism, xenophobia, homophobia, etc.) and each specific manifestation of hate speech targets different vulnerable groups based on characteristics such as gender (misogyny, sexism), ethnicity, race, religion (xenophobia, racism, Islamophobia), sexual orientation (homophobia), and so on. Most automatic hate speech detection approaches cast the problem into a binary classification task without addressing either the topical focus or the target-oriented nature of hate speech. In this dissertation, we propose to tackle, for the first time, hate speech detection from a multi-target perspective. We leverage manually annotated datasets, to investigate the problem of transferring knowledge from different datasets with different topical focuses and targets. (II) Sexism is a type of hate speech. It can be defined as prejudice or discrimination based on a person's gender. It is based on the belief that one sex or gender is superior to another. We believe that it is important not only to be able to automatically detect messages with a sexist content but also to distinguish between real sexist messages and messages which relate sexism. Indeed, whereas messages could be reported and moderated in the first case as recommended by European laws, messages relating sexism experiences should not be moderated. We experimented with different neural models, in particular models that are able to detect the presence of gender stereotypes in order to improve sexism detection. Our results are encouraging and constitute a first step towards automatic sexist content moderation and demonstrate that multi-target hate speech detection from existing datasets is feasible, which is a first step towards hate speech detection for a specific topic/target when dedicated annotated data are missing.

Cette thèse se concentre sur deux objectifs : (I) la détection des discours haineux et plus particulièrement (II) la détection du sexisme dans les réseaux sociaux. (I) Le discours de haine et le harcèlement sont très répandus dans la communication en ligne, en raison de la liberté d'expression, de l'anonymat des utilisateurs et de l'absence de réglementation fournie par les réseaux sociaux. Le discours de haine est axé sur des thèmes précis (misogynie, sexisme, racisme, xénophobie, homophobie, etc.) et cible différents groupes en fonction de caractéristiques telles que le sexe (misogynie, sexisme), l'ethnie, la race, la religion (xénophobie, racisme, islamophobie), l'orientation sexuelle (homophobie), etc. La plupart des approches de détection automatique des discours de haine traitent le problème comme une tâche de classification binaire sans tenir compte de leur orientation thématique ou de leur nature ciblée. Dans cette thèse, nous proposons d'aborder, pour la première fois, la détection des discours de haine dans une perspective multi-cibles. Nous utilisons des ensembles de données annotées manuellement, afin d'étudier le problème du transfert de connaissances à partir de différents ensembles de données ayant des centres d'intérêt et cibles différents. (II) Le sexisme est un type de discours de haine. Il exprime un préjugé ou une discrimination fondée sur le sexe d'une personne. Il est fondé sur la croyance qu'un sexe ou un genre est supérieur à un autre. Nous pensons qu'il est important non seulement de pouvoir détecter automatiquement les messages à contenu sexiste postés sur les réseaux sociaux mais aussi de distinguer les véritables messages sexistes des messages qui relatent ou dénoncent le sexisme. En effet, alors que les messages pourraient être signalés et modérés dans le premier cas comme le recommandent les lois européennes, les messages relatant des expériences de sexisme ne devraient pas être modérés. Dans ce but, nous avons expérimenté différents modèles neuronaux, notamment des modèles permettant de détecter la présence de stéréotypes de genre dans le but d'améliorer la détection des contenus sexistes. Nos résultats, d'une part, sont encourageants et constituent un premier pas vers la modération automatique des contenus sexistes et, d'autre part, démontrent que la détection multi-cibles des discours haineux à partir des ensembles de données existants, préalablement annotés, est possible.

Automatic Hate Speech Detection on Social Media

Détection automatique des messages haineux sur les réseaux sociaux

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager