Qu'est ce que le Big Data ?

Le Big Data n'est clairement pas, comme certains ont tendance à le croire, un phénomène de mode informatique et digitale pour start-up ! Le Big Data concerne aujourd'hui toutes les entreprises, de la PME aux grands groupes. 

Les technologies (Kafka, Hadoop, MongoDB, ElasticSearch, Apache Spark, Python…) faisant partie de l'écosystème Big Data représentent une véritable révolution. A la fois porteuses de nouveautés pour exploiter des données massives et financièrement accessibles, elles sont à la portée du système d'information du plus grand nombre d'entreprises. D'ici peu, il ne fait aucun doute qu'elles deviendront absolument incontournables sans pour autant supprimer les bases de données SQL ; c'est ce que nous nommons la persistance polyglotte.

L'usage des technologies de type NoSQL (Not Only SQL) ou l'usage de gros volumes de données, voire l'usage des deux conjointement, correspond à la définition du Big Data.

La donnée déstructurée ou les données disparates ne sont pas un critère obligatoire du Big Data, même si les technologies NoSQL peuvent pour la plupart supporter cette problématique.

La puissance de feu des technologies Big Data

Le Big Data repose véritablement sur des technologies innovantes issues des plus grands opérateurs du monde web (Google, Yahoo, Facebook). Elles ont permis, par un stockage et un traitement massivement parallèle à un moteur de recherche, d’indexer l’intégralité des sites web du monde.

Tombées dans le monde public, les solutions Big Data sont désormais disponibles pour tous les professionnels de l’informatique et les DSI. Mais implémenter une solution Big Data nécessite une infrastructure technique différente des solutions de base de données relationnelles. La scalabilité de la puissance de la base et du stockage, le sharding des données, l’exécution de traitements distribués de manière massivement parallèle et l’exploitation de ces solutions nécessitent des infrastructures dédiées, aussi bien d’un point de vue machines que réseau. L'architecture Big Data est singulière. Ce sujet s'analyse aussi désormais au regard du cloud computing, du SAAS et de ses plates-formes (Microsoft, Google, Amazon AWS mais aussi les frenchies comme Saagie).

Comprendre, restituer en Big Data

Un grand nombre de consultants se prévalant de connaître le Big Data ne parlent que de 3V pour définir cette discipline informatique : Volume, Vélocité et Variété (pas la musique, bien entendu).

Dont acte.

Nous estimons que ces personnes n'ont jamais traité un volume massif de données. En effet, le stockage de données est une chose, mais le véritable enjeu est de restituer l'information, la comprendre, la rendre explicite et compréhensible, à minima des directions marketing.

Aussi, nous comptons 4V : Volume, Vélocité, Variété mais surtout Véracité !

Et la problématique réside bien là. Collecter ce qui se passe sur les réseaux sociaux n'est pas une fin en soi. Comment faire le lien avec le référentiel produit de la société ? Comment savoir que la « ligne de train 4 », correspond à « Nantes -Tours », qui correspond lui-même à la « station Angers », qui correspond à la « direction Paris », mais surtout comment comprendre que l'utilisateur de ces réseaux va lui écrire « L4 », « Lig4 », « Train4 », « Train quatre », « Train Quat », etc.  Evidemment, des outils sont inclus dans les technologies dites « Big Data » comme SolR, ElasticSearch - Kibana, le bon vieux Map Reduce - Yarn… Mais quand bien même ces outils identifient ces mots, ils sont loin de les réconcilier avec le référentiel interne de la société, et ce quelques soient les langages de l'internaute.

Il faut donc ainsi bien parler du lien avec le Master Data Management (MDM) ! La qualité des données reste une des principales contraintes dans le traitement des données brutes. Exploiter les données générées par l'internet des objets n'est possible que si le Data Scientist possède les outils d'analyse permettant de comprendre les données lors de sa fouille.

Enfin, nous émettons aussi un 5ème V pour la valorisation des données. Stocker des énormes volumes de données sans que cela puisse créer de la valeur sous forme d'analyse prédictive, d'aide à la prise de décision ou de marketing digital, ne sert à rien et embarque les gestionnaires informatiques dans une forme de régression.

Big Data et décisionnel ?

Désormais, grâce aux technologies dites Big Data, nous sommes en mesure de stocker des grands volumes de données pour trouver des tendances et ainsi vous offrir une meilleure compréhension de vos clients.

Aujourd'hui, en liant le stockage massif des données avec le MDM, il est possible de faire parler ces données avec votre référentiel produit ou client.

L'étape suivante sera l'opportunité de lier les statistiques du décisionnel. Savoir, par exemple, que le produit qui dégage le plus de marge est aussi le plus consulté sur votre site web, mais qu'il est le moins vendu… Ainsi l'analyse comportementale des consommateurs va être de plus en plus pointue.

Gestion de projet Big Data

On le comprend, la gestion de projet de type Big Data ne peut pas être une gestion de projet comme une autre.

Tout d’abord, il convient de comprendre que l’effet de mode fait grand bruit dans les milieux marketing. Nombreux sont ceux qui souhaitent embrasser ces technologies mais n'ont ni la vision de ce qu'ils veulent stocker, ni celle de ce qu'ils obtiendront. Or c'est essentiel ! Le préalable à tout projet Big Data est l’identification précise de la finalité du projet : à quels besoins doit-il répondre ? Sans cette réflexion, le risque d'échec est élevé (4 projets Big Data sur 5 échouent).

Une fois l'objectif bien identifié, il convient de réunir une équipe Big Data composée d'experts en alimentation, en stockage et en datavisualisation / datascience. Le besoin en ressources humaines dépendant du volume de données, le chiffrage du projet s'avère être une phase délicate. Une évidence qu'il est toutefois utile de rappeler : un projet Big Data requiert un jeu de données conséquent sans quoi il est impossible de commencer les analyses statistiques. Enfin, il faut garder en tête que le Big Data appelle le Big Data. La croissance de l'environnement doit être maîtrisée et les choix d'évolution délimités, alors même que les utilisateurs s'attendent bien souvent à un environnement totalement ouvert.