15 avr. 2009

Entrepôts de données - Bases de données - Datamarts - Datamining - ETL - Cube OLAP

le texte suivant est extrait de l'article lien

1.A quoi correspond un entrepôt de données ? En quoi est-ce différent d'une base de données ?
Un entrepôt de données consolide l'information jugée stratégique pour l'entreprise dans une même base de données appelée entrepôt. Cette information décisionnelle est ensuite utilisée par les différents départements de l'entreprise généralement au niveau de la direction. Les données d'un entrepôt se présentent sous la forme d'indicateurs de pilotage quantitatifs ou qualitatifs.

Si un entrepôt de données utilise le principe des bases de données relationnelles, il s'en distingue par de nombreux points. Tout d'abord, il n'applique pas un modèle relationnel précis, car les tables n'ont pas toujours une structure commune. Les entrepôts de données servent justement à croiser des informations a priori non liées directement (exemple : rattacher les informations des systèmes de production avec celles du support client pour en tirer des requêtes qui font sens).

2.Quels sont les critères d'un entrepôt de données performant ?
Parvenir à fournir des informations clés aux décideurs si possible "à la volée". Cela implique non seulement d'avoir extrait ces informations, de s'être assuré qu'elles soient valides et fraîches, mais aussi que les requêtes qui en découlent s'exécutent rapidement. Afin d'établir des statistiques d'évolution, ou de construire des plans, les entrepôts de données conservent généralement un historique des données. Ajouté à cela la diversité des sources, cela provoque des bases de taille colossale, de quelques centaines de gigaoctets à plusieurs dizaines de teraoctets.

Un gros travail s'avère donc nécessaire pour optimiser la base de données, notamment en travaillant sur les index, la gestion des doublons, les procédures d'extractions et de transformation des données mais aussi sur la création de petits îlots optimisés, appelés datamarts.

3.Qu'est ce que les datamarts et le datamining ?
Le datamart est une extraction d'une partie d'un entrepôt de données pour répondre à une application dédiée (ex : le règlement de contentieux chez une banque). Pour ne pas multiplier l'espace de stockage réservé à l'entrepôt de données, la création de datamarts est souvent limitée. Cependant, elle permet de gagner parfois en efficacité sur le temps d'exécution des requêtes SQL.

Les datamarts sont aussi souvent utilisés lorsqu'une entreprise ne peut plus multiplier les optimisations sur son entrepôt de données sans pénaliser d'autres applications. Elle crée alors un nouvel environnement dédié à cette nouvelle application dont elle peut gérer librement les index. Le datamining regroupe toutes les solutions à même de piocher dans des données éparses pour en tirer des informations d'aide à la décision.

4.Pourquoi rattache-t-on les ETL des entrepôts de données ?
Une solution ETL correspond à la phase amont d'un entrepôt de données, celle qui consiste à collecter l'information. Un ETL extrait les données, les transforme et les charge dans la base finale. Cela nécessite des connecteurs particuliers car l'information dans l'entreprise est souvent disséminée entre les gros systèmes de type mainframe, l'intranet d'entreprise, les fichiers plats ou encore les documents papiers.

La transformation implique également de nouveaux enjeux, notamment celle de la normalisation des noms de champs, la suppression de doublons inutiles (certains étant conservés pour l'historique ou pour d'autres statistiques) et l'harmonisation du type de la donnée (taille, format...). Il existe de nombreux ETL sur le marché mais certaines entreprises préfèrent créer leur propre outil maison.

5.A quoi servent les outils décisionnels et pourquoi parle-t-on parfois de cube OLAP ?
Une fois l'information structurée, reste à mettre en place les rapports formatés (ou reporting) présentant ces informations. C'est le rôle des logiciels décisionnels qui se chargent aussi bien du datamining que de la présentation de ces données. Les cubes OLAP correspondent à une technique d'analyse particulière organisant les données sous forme de dimensions.

Dans le cas des entrepôts de données, OLAP offre aux décideurs plusieurs vues différentes sur une même information. Là encore, les calculs se montrent complexes et donc parfois lourds selon le nombre de dimensions différentes choisi. Le multidimensionnel est au coeur même des entrepôts de données. Il est soit présent directement au sein des bases de données (ces bases sont alors appelées bases de données multidimensionnelles et non plus relationnelles), soit au sein d'outils décisionnels qui émulent alors la technique d'analyse OLAP.

Source

Aucun commentaire: