Méthode de sirétisation ODR - 2023
Résumé
Le numéro SIRET est une variable clé dans les données individuelles d'entreprises. En effet, c'est aujourd'hui le seul identifiant d'entreprise commun à toutes les bases de données mises à disposition de l'US ODR par l'INAO (Institut national de l'origine et de la qualité), l'ASP (Agence de services et de paiement) ou encore la CCMSA (Caisse centrale de la mutualité sociale agricole). Cependant, il n'est pas toujours bien renseigné, voire manquant. La simplification du questionnaire du recensement agricole (RA) 2020 s'appuie sur une stratégie de récupération des données par ailleurs disponibles dans différentes sources administratives. Ainsi, sur les signes d'identification de qualité et d'origine (SIQO), l'ambition était d'enrichir les informations du RA sur les produits sous SIQO et l'activité de l'opérateur à l'aide des listes d'habilitation des opérateurs disponibles à l'INAO. Le numéro SIRET est essentiel pour réaliser ce rapprochement, mais n'est pas toujours disponible dans les données de l'INAO (environ 30% de manquants dans les données de fin 2019). Nous avons travaillé en amont sur le numéro SIRET afin de consolider les valeurs renseignées et compléter les informations manquantes, opération que nous appelons sirétisation. La méthode est développée avec le logiciel R à partir des données de l'INAO des opérateurs habilités à intervenir dans la production et la commercialisation des produits SIQO au 4e trimestre 2019. Elle repose sur des modèles de forêts aléatoires (random forest) appliqués à des indicateurs de dissimilarité entre les champs noms, adresses et codes commune des données INAO et des données Sirene (répertoire national d'identification des entreprises et de leurs établissements, géré par l'Insee).
Origine | Fichiers produits par l'(les) auteur(s) |
---|---|
Licence |