Date de dernière mise à jour du plan : 19/10/2022

Durée : 1 jour

La formation "État de l'art du Big Data" est dispensée à Brest, Nantes, Lille, Bordeaux, Toulouse, Angers, Paris, Lyon, Montpellier, Rennes

La formation Etat de l'art du Big Data permettra aux participants de découvrir une multitude d'éléments autour du Big Data : De quoi s'agit-il exactement ? Pour quels usages ? Quelles sont les solutions du marché ?

Un grand focus est apporté sur Apache Hadoop, la solution la plus emblématique du Big Data. Notre formateur pourra décrire les différentes couches de Hadoop (HDFS, MapReduce, TEZ, Pig, Hive, Impala), le tout avec des exemples et quelques travaux pratiques pour mieux comprendre la logique. Un moment d'échanges permettra au formateur d'aider les participants à s'orienter dans leurs futurs projets de Big Data.

Objectifs de la formation État de l'art du Big Data

  • Comprendre la logique des concepts théoriques Big Data
  • Comprendre et assimiler toutes les couches logicielles de Hadoop, ainsi que son architecture
  • Pratiquer sur la solution Hadoop (Utilisation du HUE / Impala : Alimentation et interrogation de la donnée
  • Appréhender les différentes solutions du marché
  • Comprendre comment une solution Big Data pourrait s'intégrer dans un système d'Information

Prérequis de la formation État de l'art du Big Data

  • Les participants devront avoir quelques notions sur le décisionnel (Business Intelligence) et connaître le langage SQL (Structure Query Langage).

Public visé de la formation État de l'art du Big Data

  • Cette formation État de l'art du Big Data s'adresse aux DSI, directeurs techniques, chefs de projets, architectes, consultants, administrateurs de bases de données, etc.

Programme de la formation État de l'art du Big Data

Introduction au big data

  • Pourquoi aller vers le Big Data ? Volume, Variété, Vitesse !
  • Les limites de nos systèmes actuels
  • Les 3, 4 ou 5 V du Big Data

Big data : les solutions présentes sur le marché

  • Focus sur la solution Apache Hadoop
  • Pour stocker sur un DataLake : HDFS (Hadoop Distributed File System)
  • Pour distribuer les calculs : MapReduce ou TEZ
  • Pour stocker dans un Datamart : Hbase, MongoDB, etc.
  • Pour requêter : Pig, Hive, Impala
  • Pour administrer : Hue (Hadoop User Experience)
  • Pour collecter : Flume
  • Pour gagner du temps : les distributions (Cloudera, MapR, Hortonworks)
  • D'autres usages possibles : Lucene, Solr, Elasticsearch
  • La réponse des éditeurs traditionnels : les alternatives

Le match : on-premise vs cloud

  • Les différences entre Cloud privé et Cloud public
  • Les différents types de Cloud disponibles
  • Du Big Data dans le Cloud ? (Saagie, Hadoop, AWS, etc.)

Big data : ne pas oublier la qualité

  • Synergie entre MDM et Big Data
  • Les différents MDM (Master Data Management) du marché

Les nouveaux usages liés au big data

  • Data Mining
  • Machine Learning
  • IoT : Internet of Things
  • Un nouveau métier : Data Scientist

Les bénéfices des bases nosql

  • Le passage des SGBDR (Système de Gestion de Bases de Données Relationnelles) au mouvement NoSQL (Not Only SQL)
  • Les différents types de bases de données : Orienté document, orienté colonnes, orienté graphe)
  • Les bénéfices escomptés : navigation, recherche des données, nouveaux types de données, fédération des entrepôts de données existants

Cas d'usage et conclusion

  • L'anticipation, la sécurité et les recommandations
  • Exemples de cas d'utilisation

Big data en self service

  • Tour d'horizon sur les données Big Data déjà disponibles