Accéder directement au contenu Accéder directement à la navigation
Communication dans un congrès

Classification de documents combinant la structure et le contenu

Résumé : La démocratisation et l’évolution des logiciels de traitements de texte ont révolutionné le monde du document. Les auteurs construisent des documents dits structurés c'est-à-dire dont le contenu textuel s’organise autours de balises. Toutefois, la classification traditionnelle de documents n’utilise que le contenu textuel des documents et ignore les informations de structure. Dans ce papier, nous proposons une nouvelle représentation des documents structurés basée sur un vecteur pondéré associant un mot et une balise. Les poids sont calculés en adaptant les formules TF-IDF et TF-IEF. Cette représentation est construite à partir d’une représentation synthétique du document appelé arbre résumé. Pour évaluer notre approche, nous avons mené plusieurs expérimentations avec un système de classification basé sur le classifieur SVMlight. Nous présentons les résultats de nos expérimentations menées sur les corpus REUTERS et INEX. / Developing the text processing applications has revolutionized the world of documents. The author constructs the document as structured document in which the textual content is organized around tags. However, the traditional document classification typically classifies the documents considering the text and ignoring its structural elements. In this paper, we propose a representation method which makes use of structural elements to create the vector of tag and word weighted by an extension of TF-IDF and TF-IEF formula. This representation is constructed from an aggregated tree of XML document. Several experimentations have been made using SVMlight as classifier on Reuters and INEX collections.
Type de document :
Communication dans un congrès
Liste complète des métadonnées

Littérature citée [12 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-00779799
Déposant : Import Ws Irstea <>
Soumis le : mardi 22 janvier 2013 - 16:00:24
Dernière modification le : jeudi 22 octobre 2020 - 11:30:08
Archivage à long terme le : : mardi 23 avril 2013 - 03:55:25

Fichier

cf2012-pub00037131.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : hal-00779799, version 1
  • IRSTEA : PUB00037131

Citation

S. Chagheri, Catherine Roussey, Sylvie Calabretto, C. Dumoulin. Classification de documents combinant la structure et le contenu. 8ème COnférence en Recherche d'Information et Applications CORIA 2012, Mar 2013, Bordeaux, France. p. 261 - p. 272. ⟨hal-00779799⟩

Partager

Métriques

Consultations de la notice

397

Téléchargements de fichiers

1007