Objectif du projet Big Data : Optimiser un processus industriel
Nous vous proposons un retour d'expérience sur un projet Big Data : Optimiser un processus industriel.
Notre client travaille dans l’industrie du bâtiment. Pour mener à bien ses missions et ses projets, il dispose de plusieurs souffleries qui lui permettent notamment de simuler les effets du vents sur des infrastructures urbaines.
Les essais sont menés sur des maquettes équipées de capteurs qui envoient de la donnée sur un serveur. Le plateau tourne à 360° et des mesures sont prises tous les 10°. Il faut donc, pour chaque configuration, réaliser 36 captures de données. Pour tester toutes les combinaisons, il est également possible de changer de configuration. Dans ce cas précis, l’ingénieur en charge de l’essai peut être amené à modifier la configuration de la maquette, puis réaliser à nouveau 36 acquisitions de données.
À la fin de la journée, il est possible que 10 configurations différentes aient été testées, ce qui représente 10 * 36 acquisitions = 360. Chaque acquisition peut occuper plusieurs centaines de Mo. Il faut donc stocker toutes ces données sur une baie (Potentiellement plusieurs Go.
Enfin, l’ingénieur démonte l’installation et laisse la place à un de ses collègues, qui va maintenant pouvoir utiliser le banc de soufflerie, pour un autre projet.
Tout se passerait bien si on avait l’assurance que les données captées étaient de bonne qualité et significatives. Malheureusement, ce n’est pas toujours le cas : il arrive que des capteurs soient défectueux et captent mal la donnée. Si cela se produit, il faut que l’ingénieur réserve à nouveau le banc de soufflerie pour réaliser une nouvelle acquisition d’une configuration précise.
Cela conduit à un ensemble de problématiques pour notre client :
- Les délais de livraison des dossiers d’essai sont rallongés pour les clients
- Le banc de soufflerie est sollicité plus que nécessaire
- En cas de mauvaise acquisition, cela provoque des décalages de planning et peut conduire à une insatisfaction des clients
Le but du projet Big Data mené chez notre client est très simple : proposer une solution technologique permettant réunissant plusieurs critères stratégiques :
- Proposer une optimisation de son processus industriel (pour gagner en compétitivité)
- Proposer une solution de stockage centralisé et résilient (sécurisé) de la donnée. Cette solution doit pouvoir accepter n’importe quelles sources de données issues du système d’information
- Avoir la capacité à tester la qualité de la donnée en temps réel, sans avoir à attendre la fin d’un essai
- Proposer des interfaces de visualisation de la qualité de la donnée aux ingénieurs, afin qu’ils puissent surveiller / piloter le bon déroulement de leur essai de manière plus optimisée
- Idéalement proposer une solution en mode Cloud, pour gagner en temps projet (notamment sur la partie déploiement)
- Proposer des solutions qui, dans le futur, permettront l’intégration avec une brique analytique (Notamment par le biais d’outils de Business Intelligence (brique décisionnelle), pour créer des tableaux de bord, ou encore des reportings de type Data Visualisation)
Les étapes du projet Big Data
Le projet Big Data a débuté par la mise à disposition d’une plateforme de type DataOps, permettant de centraliser rapidement la donnée en un seul et même endroit.
Une fois la donnée mise à disposition, un de nos Data Engineers a eu pour mission principale de proposer une interface d’analyse en temps réel de la qualité des données remontées :
- Collecter les données des objets connectés (IoT ou Internet des objets)
- S’assurer que la donnée qui transite sur la plateforme reste sécurisée (résilience) pour faire face aux pannes en utilisant des supports technologiques en cluster
- Faire en sorte que les différents jobs intermédiaires soient dimensionnés pour supporter la charge de donnée
- Industrialisation (Automatisation) de la chaîne complète
Quand la partie du projet qui consistait à industrialiser la collecte des capteurs a été réalisée, un de nos Data Scientists a pu mettre en place un modèle statistique pour tester la qualité de la donnée.
Enfin, deux experts en développement Web ont pu créer une Smart App de pilotage / surveillance des essais, à destination des ingénieurs.
Les étapes d’après seront les suivantes :
- Datamining : Réaliser la fouille de données (data-mining) pour une approche exploratoire afin de rendre possible la mise en place du prédictif
- Enrichir la donnée avec de la donnée exogène (à l’aide de données collectées dans l’Open data)
- Mettre en place un algorithme (ou plusieurs algorithmes) d’Intelligence artificielle (Machine-Learning) pour, notamment, réaliser de l’analyse prédictive (prédiction et prévision via des modèles prédictifs).
Technologies utilisées dans le projet Big Data
L’intégralité du projet a été réalisée sur la plateforme Saagie (Une des solutions Big Data en mode cloud). Cette dernière offre une collection de technologies Open Source (Bases de données, NoSQL, datamart, Data lake, langages permettant de réaliser de la Data Science ou de l’analyse des données) permettant de mener à bien ce type de projets. Parmis les technologies qui ont été utilisées sur ce projet, nous pouvons citer :
- Python : Pour les outils d’analyse et les briques prédictives
- R : pour l’analyse statistique (analyser les données, création d’applications analytiques)
- Apache HDFS (Framework Hadoop)
- Apache Impala
- Apache Kafka : Pour la collecte des données en temps réel
- Apache Spark : Pour le traitement des données
- Talend : pour l’intégration des données
- Brique Gouvernance de Saagie : pour la partie gestion des données
L’autre atout majeur de la solution Saagie réside dans le fait que si une technologie manque, il est toujours possible de la Dockeriser (Docker). C’est ce qui a été fait dans le cadre du projet. En effet, des briques applicatives internes développées en Matlab et en Fortran ont été dockerisées pour être utilisées “telles quelles” sur la plateforme. Cela a permis de conserver le patrimoine développé par les services informatiques de notre client, de réduire les coûts de réécriture de ces briques dans un nouveau langage (Apache Spark par exemple) et de gagner du temps en déploiements.
Bilan du projet
Suite au succès du projet chez notre client, il lui a été possible d’améliorer l’expérience client et de mesurer un retour sur investissement (ROI). Une conduite de changement a été menée pour que les utilisateurs puissent se rendre compte du gain apportée par la solution. Enfin, les briques d’aide à la décision ont amélioré le processus interne des ingénieurs.
De plus, cette solution de type cloud computing a permis à la DSI de ne pas avoir à commander de nouveaux environnements dans le cadre de son projet, ni à mettre en place des comités chargés de définir les différentes architectures possibles.
La suite ? Mettre en place un projet décisionnel complet en s’appuyant sur ces nouveaux outils, pour améliorer la prise de décision avec cette solution Big Data !
Un projet Big Data ? Nos consultants Next Decision sont là pour vous accompagner ! Rendez vous sur la page Contact