Apache

Date de dernière mise à jour du plan : 7/01/2025

Durée : 3 jours

La formation Apache Hop est dispensée à Nantes, Brest, Angers, Toulouse, Montpellier, Bordeaux, Lyon, Paris, Lille

Cette formation Apache Hop permettra aux participants d'appréhender la notion d'extraction et transformation des données issues de sources hétérogènes afin d'alimenter des données cibles. Le transport de données devient une nécessité au sein des entreprises. Les stagiaires découvriront l’environnement de l’outil apache HOP et apprendront à en maîtriser les fonctionnalités.

Objectifs de la formation Apache Hop

  • Comprendre l’environnement HOP et son fonctionnement
  • Maîtriser l'utilisation d'un ETL (Extract Transform Load)

Prérequis de la formation Apache Hop

Une bonne connaissance du langage SQL (Structured Query Langage) est un plus pour bien suivre la formation.

Public visé de la formation Apache Hop

Toute personne amenée à gérer des flux de données inter-application et / ou ayant en charge l'alimentation d'une base de données décisionnelle.

Programme de la formation Apache Hop

Présentation

  • Pourquoi HOP ?
  • Historique et présentation au sens large
  • Installation et configuration de l'outil

Génération d'une première extraction de données

  • Les workflows et pipelines (ordonnancement)
  • De l'extraction à l'alimentation de données
  • Appréhender et gérer les flux de data
  • Exécution d'une pipeline et d’un workflow

Accéder aux données et cibles 

  • La notion de métadonnées
  • Configurer l’accès aux sources de données
  • Les sources / cibles supportées
  • Les liens entre les sources (jointures)
  • Alimentation en Insert / Update (Insertion / Mise à jour)

Manipuler les données

  • Trier son flux en ascendant ou descendant
  • Dédoubler son flux
  • Filtrer ses données selon plusieurs critères (alléger le flux)
  • Extraction d'informations à partir d'un champ (chaîne de caractères)
  • Remplacer une donnée par une autre
  • Gestion des opérateurs / opérations de calculs sur le flux
  • Bien utiliser le produit cartésien
  • Joindre les informations issues de données hétérogènes
  • Comparer des flux de données

Enrichir son flux de données

  • Génération de logs
  • Création et récupération des variables (dates, numériques, alphanumériques)
  • Utilisation du résultat d'un flux
  • Les propriétés d’un flux et de son ordonnanceur

Les boucles

  • Les problématiques
  • Les boucles avec paramètres et le composant « Copie lignes vers résultat »
  • Les boucles avec les composants « Copie lignes vers résultat » et « Récupération lignes depuis le résultat »

Exploitation

  • Gérer les erreurs
  • Générer des traces (logs)
  • Comprendre les erreurs et lancer des alertes (Débogage)
  • La parallélisation (exécution simultanée de plusieurs flux de données)
  • Import / export des développements
  • Automatisation des tâches / transformations
  • Documentation (mise en place des normes en cas d'erreurs ou de reprises)