Le thésaurus INRAE : une ressource terminologique pour l’interopérabilité sémantique - Archive ouverte HAL Access content directly
Conference Poster Year :

Le thésaurus INRAE : une ressource terminologique pour l’interopérabilité sémantique

(1) , (2) , (1) , (1) , (3) , (4) , (1) , (5) , (1) , (6) , (1) , (1) , (7)
1
2
3
4
5
6
7
Sophie Aubin
Colette Cadiou
Véronique Decognet
Olivier Dupré
  • Function : Author
  • PersonId : 771877
  • IdRef : 193522659

Abstract

Un outil pour interconnecter les informations textuelles et les données de l’institut dans un contexte de Science Ouverte. Le thésaurus INRAE est un référentiel thématique ouvert et partagé couvrant les domaines de recherche de l’Institut national de recherche pour l’agriculture, l’alimentation et l’environnement (INRAE). Il a été conçu comme un vocabulaire pivot pour l’interopérabilité sémantique des contenus scientifiques (textes et données) dans les systèmes d’information de l’institut. Ses concepts peuvent être utilisés directement pour décrire ou annoter de manière univoque des documents, des données, des pages web, des descriptions d’activités, ou tout autre contenu ou objet numérique. Cette ressource institutionnelle est administrée par un comité éditorial piloté par la Direction pour la Science Ouverte d’INRAE. Le thésaurus répond aux standards du web sémantique et est donc exploitable par les machines. Plus de 15 700 concepts sont représentés de manière hiérarchique selon le standard SKOS-XL et exposés en RDF/XML (SKOS et SKOS-XL) et JSON, avec des URI déréférençables. Le thésaurus contient également des alignements vers d’autres ressources externes comme Gemet, Agrovoc, Mesh ou d’autres ressources produites au sein de l’institut. Le thésaurus INRAE est administré à l’aide du logiciel VocBench 3. Il est consultable et interrogeable via une interface Skosmos, des API REST et des requêtes SPARQL, et affiche une licence ouverte Etalab. Le thésaurus vise une certaine richesse lexicale avec l’introduction de nombreux synonymes (termes alternatifs) et de traductions (à ce jour 66% des concepts sont traduits en anglais). Par ailleurs, 595 concepts sont d’ores et déjà enrichis par des définitions textuelles issues de sources validées scientifiquement. Le thésaurus est intégré dans le portail Hal-INRAE pour l’indexation des publications. Il est utilisé lors du dépôt ou de l’enrichissement des notices bibliographiques via une interface de saisie sur le portail. Le dépôt du texte intégral des publications est une pratique largement encouragée par les établissements de recherche pour répondre aux enjeux de la Science Ouverte[i]. Le thésaurus fait aussi l’objet de recommandations pour l’indexation des jeux de données dans l’espace Data INRAE de l’entrepôt Recherche Data Gouv. L’intégration informatique du thésaurus, rendue possible dans la dernière version de dataverse, est actuellement à l’étude. D’autres systèmes d’information de l’institut utilisent ou se préparent à utiliser le thésaurus. En effet, étendre l’indexation avec le thésaurus vise à faciliter la recherche mais aussi et surtout la capacité à intégrer les objets numériques variés portant sur un sujet commun. Cependant, ces objectifs vont de pair avec une diminution des ressources humaines sur ces activités. Face à ces enjeux, nous envisageons l’utilisation du thésaurus pour automatiser ou assister l’indexation des objets scientifiques numériques (document, image, données, etc.) de l’institut. [i]100% de publications en accès ouvert en 2030, c’est l’objectif fixé par la loi de programmation de la recherche. https://www.enseignementsup-recherche.gouv.fr/fr/le-plan-national-pour-la-science-ouverte-2021-2024-vers-une-generalisation-de-la-science-ouverte-en-48525. Consulté le 22/09/2022
Fichier principal
Vignette du fichier
Aubin_2022_Poster_GDRTAL.pdf (501.06 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
licence : CC BY - Attribution

Dates and versions

hal-03824794 , version 1 (21-10-2022)

Licence

Attribution - CC BY 4.0

Identifiers

  • HAL Id : hal-03824794 , version 1

Cite

Sophie Aubin, Emilie Bernard, Sonia Bravo, Colette Cadiou, Eric Cahuzac, et al.. Le thésaurus INRAE : une ressource terminologique pour l’interopérabilité sémantique. Journée du GdR Traitement automatique des langues (GDR TAL), Oct 2022, Rennes, France. ⟨hal-03824794⟩
11 View
2 Download

Share

Gmail Facebook Twitter LinkedIn More