Entreposage et analyse en ligne dans les nuages avec Pig - INRAE - Institut national de recherche pour l’agriculture, l’alimentation et l’environnement
Article Dans Une Revue Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information Année : 2011

Warehousing and OLAP on clouds with Pig

Entreposage et analyse en ligne dans les nuages avec Pig

Résumé

Data warehouses and OLAP systems are decision support technologies for online analysis of large volumes of data. Cloud computing, driven by large companies such as Google, Microsoft or Amazon, has recently attracted attention. Consider analysis OLAP and data warehousing in such infrastructure becomes a major issue. The problems to be considered are those of conventional systems widely distributed (query large volumes of data, semantic and structural heterogeneity or variability), but from a new point of view that takes into account the particularities of these architectures: pay as you go model, elasticity and user-friendliness. In this paper, we initially investigate data warehouse storage issues. We propose to use multidimensional arrays for the storage of cloud-based data warehouses. Then, we focus on OLAP analysis by proposing new operators and optimization rules. Initial experiments show the value of our contributions. Finally, we list research perspectives on the definition of a theoretical framework and implementation for multidimensional storage and online analysis in the clouds.
Les entrepôts de données et les systèmes OLAP sont des technologies d'aide à la décision qui permettent d'analyser à la volée de gros volumes de données. L'informatique dans les nuages, sous l'impulsion des grandes compagnies telles que Google, Microsoft ou encore Amazon, a récemment suscité une attention particulière. Considérer l'analyse OLAP et l'entreposage de données au sein de telles infrastructures devient alors un enjeu majeur. Les problèmes devant être considérés sont ceux classiques des systèmes largement distribués (interrogation de gros volumes de données, hétérogénéité sémantique et structurelle ou encore variabilité), mais d'un nouveau point de vue devant considérer les spécificités de ces architectures : facturation à l'utilisation, élasticité et facilité d'utilisation. Dans ce papier, nous abordons dans un premier temps les règles de facturation à l'utilisation pour le stockage des entrepôts de données. Nous proposons d'utiliser des techniques de stockage pour nuages à base de tableaux multidimensionnels. Ensuite, nous nous intéressons à l'analyse OLAP en proposant de nouveaux opérateurs et des règles d'optimisation. De premières expérimentations montrent l'intérêt de nos contributions. Enfin, nous listons des perspectives de recherche concernant la définition d'un cadre théorique et d'implémentation pour l'entreposage et l'analyse en ligne dans les nuages.

Mots clés

Dates et versions

hal-02595806 , version 1 (15-05-2020)

Identifiants

Citer

L. d'Orazio, S. Bimonte. Entreposage et analyse en ligne dans les nuages avec Pig. Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, 2011, 16 (6), pp.139-162. ⟨10.3166/isi.16.6.139-162⟩. ⟨hal-02595806⟩
29 Consultations
0 Téléchargements

Altmetric

Partager

More