Le thésaurus INRAE : une ressource terminologique pour l’interopérabilité sémantique - Unité de recherche de Pathologie végétale Accéder directement au contenu
Poster De Conférence Année : 2022

Le thésaurus INRAE : une ressource terminologique pour l’interopérabilité sémantique

Sophie Aubin
Colette Cadiou
Véronique Decognet
Olivier Dupré

Résumé

Un outil pour interconnecter les informations textuelles et les données de l’institut dans un contexte de Science Ouverte. Le thésaurus INRAE est un référentiel thématique ouvert et partagé couvrant les domaines de recherche de l’Institut national de recherche pour l’agriculture, l’alimentation et l’environnement (INRAE). Il a été conçu comme un vocabulaire pivot pour l’interopérabilité sémantique des contenus scientifiques (textes et données) dans les systèmes d’information de l’institut. Ses concepts peuvent être utilisés directement pour décrire ou annoter de manière univoque des documents, des données, des pages web, des descriptions d’activités, ou tout autre contenu ou objet numérique. Cette ressource institutionnelle est administrée par un comité éditorial piloté par la Direction pour la Science Ouverte d’INRAE. Le thésaurus répond aux standards du web sémantique et est donc exploitable par les machines. Plus de 15 700 concepts sont représentés de manière hiérarchique selon le standard SKOS-XL et exposés en RDF/XML (SKOS et SKOS-XL) et JSON, avec des URI déréférençables. Le thésaurus contient également des alignements vers d’autres ressources externes comme Gemet, Agrovoc, Mesh ou d’autres ressources produites au sein de l’institut. Le thésaurus INRAE est administré à l’aide du logiciel VocBench 3. Il est consultable et interrogeable via une interface Skosmos, des API REST et des requêtes SPARQL, et affiche une licence ouverte Etalab. Le thésaurus vise une certaine richesse lexicale avec l’introduction de nombreux synonymes (termes alternatifs) et de traductions (à ce jour 66% des concepts sont traduits en anglais). Par ailleurs, 595 concepts sont d’ores et déjà enrichis par des définitions textuelles issues de sources validées scientifiquement. Le thésaurus est intégré dans le portail Hal-INRAE pour l’indexation des publications. Il est utilisé lors du dépôt ou de l’enrichissement des notices bibliographiques via une interface de saisie sur le portail. Le dépôt du texte intégral des publications est une pratique largement encouragée par les établissements de recherche pour répondre aux enjeux de la Science Ouverte[i]. Le thésaurus fait aussi l’objet de recommandations pour l’indexation des jeux de données dans l’espace Data INRAE de l’entrepôt Recherche Data Gouv. L’intégration informatique du thésaurus, rendue possible dans la dernière version de dataverse, est actuellement à l’étude. D’autres systèmes d’information de l’institut utilisent ou se préparent à utiliser le thésaurus. En effet, étendre l’indexation avec le thésaurus vise à faciliter la recherche mais aussi et surtout la capacité à intégrer les objets numériques variés portant sur un sujet commun. Cependant, ces objectifs vont de pair avec une diminution des ressources humaines sur ces activités. Face à ces enjeux, nous envisageons l’utilisation du thésaurus pour automatiser ou assister l’indexation des objets scientifiques numériques (document, image, données, etc.) de l’institut. [i]100% de publications en accès ouvert en 2030, c’est l’objectif fixé par la loi de programmation de la recherche. https://www.enseignementsup-recherche.gouv.fr/fr/le-plan-national-pour-la-science-ouverte-2021-2024-vers-une-generalisation-de-la-science-ouverte-en-48525. Consulté le 22/09/2022
Fichier principal
Vignette du fichier
Aubin_2022_Poster_GDRTAL.pdf (501.06 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
licence : CC BY - Paternité

Dates et versions

hal-03824794 , version 1 (21-10-2022)

Licence

Paternité

Identifiants

  • HAL Id : hal-03824794 , version 1

Citer

Sophie Aubin, Emilie Bernard, Sonia Bravo, Colette Cadiou, Eric Cahuzac, et al.. Le thésaurus INRAE : une ressource terminologique pour l’interopérabilité sémantique. Journée du GdR Traitement automatique des langues (GDR TAL), Oct 2022, Rennes, France. ⟨hal-03824794⟩
161 Consultations
41 Téléchargements

Partager

Gmail Facebook X LinkedIn More