Objectif d'un projet Big Data

Nous vous présentons dans cet article un exemple de réalisation d'un projet Big Data mené à l'aide d'une des solutions Big Data du marché : Google Cloud Platform ou GCP. L'objectif de ce projet Big data était de développer pour notre client un modèle de prévision énergétique (Analyse prédictive) permettant de disposer de résultats journaliers (A l'aide de données récoltées en temps réel).

Dans ce projet, le problème résidait dans les très grands volumes de données à traiter (Traitements des données collectées) pour parvenir à une prévision à l'échelle du territoire Français. L'utilisation d'un environnement Big Data répond parfaitement à cette problématique de données massives et permet l'analyse et la visualisation des données de l'entreprise.

Pourquoi un projet Big Data ?

Contrairement à la Business Intelligence ou décisionnel qui utilise des statistiques descriptives sur des données à forte densité en information, le Big Data utilise des statistiques inférentielles sur des données à faible densité en information mais dont le grand volume permet d’établir des lois donnant des capacités prédictives.

Dans le cadre de notre projet Big Data, le client souhaitait obtenir une prévision journalière pour l’ensemble du territoire Français.

  • L'environnement Big Data permet de traitement d'une quantité importante de données dans un laps de temps le plus court possible.
  • Cet environnement Big Data offre également la possibilité, à posteriori, d'analyser finement les consommations énergétiques, tout en conférant un accès rapide aux données.
  • Ces données sont par ailleurs optimisées pour une meilleure interprétation des différents facteurs pouvant être impliqués dans l'étendue de cette consommation.

Les étapes de la gestion de projet Big Data

Pour mener à bien ce projet Big Data, nous avons débuté par une évaluation du cahier des charges fonctionnel fourni par le client, afin de mettre en place un environnement Big Data adapté à la volumétrie analysée. Nous avons ensuite effectué la modélisation de la base de données nécessaire à la mise en place du calcul de la prévision.

La deuxième partie du projet Big Data correspondait au développement du modèle selon le cahier des charges finalisé, et à son implémentation dans l’environnement Big Data. Pour cela, une étape de data-mining a été réalisée, après intégration des sources de données. Nous avons ensuite procédé à différents tests (Analyse des données) afin d’éprouver le modèle et affiner les différents algorithmes mis en place. Des règles d’exclusion de certaines données qui ne pouvaient pas être intégrées au modèle ont également été définies.

Une fois le modèle validé, nous avons pu qualifier la prévision par différentes analyses prédictives afin de l'améliorer en ajustant les différents paramètres impliqués. Nous avons ainsi abouti à un modèle effectuant des prévisions fiables pour la majorité des données.

Méthodes et outils utilisées dans ce projet Big Data

Lors de la mise en place du modèle, nous avons utilisé la Google Cloud Platform comme environnement Big Data. Cette architecture Big Data est de type "Cloud Computing", ce qui permet de ne pas avoir la solution on-premise. Une machine virtuelle (Virtual Machine) a ensuite été créée afin d'héberger le modèle, avec la mise en place d'un script permettant de lancer automatiquement le modèle tous les jours. Nous avons utilisé l'environnement Google Big Query de la plateforme Google pour nous permettre un stockage de données à grande échelle avec une performance de requêtage importante.

Le modèle a quant à lui été développé sous R Studio. Ce logiciel libre de statistiques possède une librairie de fonctions importante, avec la possibilité de mettre en place une connexion vers la base de données Google Big Query, permettant une analyse fine et à grande échelle à moindre coût. De plus, R Studio permet également la création de Smartapps (A l'aide d'R Shiny) permettant notamment de réaliser des applications analytiques d'aide à la décision.

Enfin, Power BI nous a permis de visualiser les résultats de notre modèle, grâce à la mise en place de tables d'analyses comprenant tous les facteurs étudiés afin d'affiner notre prévision et de les restituer dans des tableaux de bord.

Pour aller plus loin, nous vous proposons une formation Etat de l'art du Big Data, qui vous donnera une vision globale sur les concepts théoriques du Big Data, les usages, les solutions du marché...

Un projet Big Data ? Nos consultants Next Decision sont là pour vous accompagner ! Rendez vous sur la page Contact