Data Warehouse

Un data warehouse (DWH), ou entrepôt de données, est un référentiel centralisé optimisé pour les requêtes analytiques portant sur plusieurs systèmes sources — ERP, CRM, e-commerce, marketing, finance — par opposition aux schémas transactionnels des bases de données opérationnelles. L'entreposage de données est le socle de la business intelligence depuis les années 1990, les entrepôts nativement cloud (Snowflake, Google BigQuery, Amazon Redshift, Databricks) dominant les nouveaux déploiements depuis la fin des années 2010.

Architecture et modélisation

Deux paradigmes de modélisation dominent. La modélisation dimensionnelle de Kimball : des faits (mesures telles que ventes, quantités commandées) associés à des dimensions (attributs descriptifs comme le temps, le client, le produit) organisés en schémas en étoile. Cette approche est optimisée pour la performance des requêtes et la lisibilité par les utilisateurs métier. La corporate information factory d'Inmon : un entrepôt de données normalisé à partir duquel sont dérivés des data marts répondant à des besoins analytiques spécifiques. Plus rigide, mais offrant une structure de données d'entreprise plus propre. La pratique moderne des entrepôts cloud combine souvent les deux : une couche brute (données sources opérationnelles conservées), une couche de staging (données nettoyées et harmonisées) et une couche de présentation (dimensionnelle pour la consommation par les utilisateurs finaux). Des outils comme dbt (data build tool) ont standardisé les schémas de transformation SQL qui construisent ces couches.

Entrepôts de données cloud

Snowflake — nativement cloud, multi-cloud (AWS, Azure, Google), forte présence dans le mid-market et les grands comptes en France. Google BigQuery — serverless, facturation à la requête, intégration poussée du ML et de l'IA. Amazon Redshift — natif AWS, modèle d'entrepôt plus classique. Microsoft Azure Synapse Analytics (anciennement SQL Data Warehouse) et Microsoft Fabric — intégrés à la stack data de Microsoft, fréquents dans les organisations équipées de Microsoft 365. Databricks — plateforme de data lakehouse combinant les capacités d'entrepôt et de data lake. SAP Datasphere (anciennement Data Warehouse Cloud) — native SAP avec intégration directe à S/4HANA. Open source : Apache Druid, ClickHouse, DuckDB (analytique sur une seule machine). Pour une PME ou ETI française qui démarre de zéro, Snowflake et Microsoft Fabric sont les options les plus fréquemment évaluées.

Data lake versus lakehouse

Des catégories voisines qu'il convient de distinguer. Data lake : stockage de données brutes dans des formats flexibles (parquet, JSON, CSV) sur du stockage objet (S3, ADLS, GCS), prenant en charge les données non structurées et semi-structurées. Coût inférieur à celui d'un entrepôt, mais moins optimisé pour les requêtes SQL. Data lakehouse : combine un stockage de type data lake avec les transactions ACID et les performances SQL d'un entrepôt. Apache Iceberg, Delta Lake et Apache Hudi sont les formats de table ouverts qui rendent possibles les architectures lakehouse ; Databricks et Snowflake prennent tous deux en charge les schémas lakehouse. Pour l'analytique centrée sur l'ERP dans le mid-market français, le schéma classique de data warehouse convient à la plupart des cas d'usage ; le lakehouse devient pertinent lorsque des données non structurées (logs, IoT, documents) entrent dans le périmètre analytique.

Intégration ERP vers DWH

Les données de l'ERP alimentent l'entrepôt via des pipelines ETL ou ELT (voir ETL). Voici les schémas courants. (1) Réplication par CDC : des outils comme SLT (SAP), Debezium ou Fivetran capturent chaque modification de la base de données ERP et la diffusent vers l'entrepôt avec une latence de l'ordre de la minute. (2) Extractions par lots planifiées : des extractions par lots nocturnes ou horaires des enregistrements modifiés via OData ou les API de l'éditeur. (3) Hubs de données des éditeurs : SAP Datasphere, Oracle Autonomous Data Warehouse et Microsoft Dataverse fournissent des couches de données gérées par l'éditeur de l'ERP, qui simplifient l'intégration. En France, le mid-market combine généralement plusieurs outils : Fivetran ou Airbyte pour les sources SaaS, les connecteurs des éditeurs pour SAP et Oracle, et du Python sur mesure pour les ERP on-premise hérités. En aval, les outils de BI (Power BI, Tableau, Qlik) consomment l'entrepôt pour l'analytique et les tableaux de bord.

Data Warehouse

Architecture et modélisation

Entrepôts de données cloud

Data lake versus lakehouse

Intégration ERP vers DWH

Sujets connexes