Pentaho

Date de dernière mise à jour du plan : 10/01/2024

Durée : 3 jours

La formation Pentaho Data Integration est dispensée à Nantes, Paris, Montpellier, Lille, Lyon, Toulouse, Bordeaux, Angers, Brest, Rennes

Cette formation Pentaho Data Integration permettra aux participants d'appréhender la notion d'extraction et transformation des données issues de sources hétérogènes afin d'alimenter des données cibles. Le transport de données devient une nécessité au sein des entreprises. Les stagiaires découvriront l’environnement de l’outil Pentaho Data Integration et apprendront à maîtriser ses fonctionnalités. 

Objectifs de la formation Pentaho Data Integration

  • Comprendre l’environnement Pentaho et son fonctionnement
  • Maîtriser l'utilisation d'un ETL (Extract Transform Load)

Prérequis de la formation Pentaho Data Integration

  • Une bonne connaissance du langage SQL (Structured Query Langage) est un plus pour bien suivre la formation.

Public visé de la formation Pentaho Data Integration

  • Toute personne amenée à gérer des flux de données inter-application et / ou ayant en charge l'alimentation d'une base de données décisionnelle

Programme de la formation Pentaho Data Integration

Présentation

  • Pourquoi Pentaho Data Integration (PDI) ?
  • Historique et présentation au sens large
  • Installation et configuration de l'outil 

Génération d’une première extraction de données

  • Les transformations et tâches (ordonnancement des transformations)
  • De l'extraction à l'alimentation de données
  • Appréhender et gérer les flux de data
  • Exécution d'une transformation d'une tâche

Accéder aux données sources / cibles

  • La notion de métadonnées
  • Configurer l’accès aux sources de données
  • Les sources/cibles supportées
  • Les liens entre les sources (jointures) 
  • Alimentation en Insert / Update (Insertion / Mise à jour)

Manipuler les données

  • Trier son flux en ascendant ou descendant
  • Dédoubler son flux
  • Filtrer ses données selon plusieurs critères (alléger le flux de données)
  • Extraction d'informations à partir d'un champ (chaîne de caractères)
  • Remplacer une donnée par une autre
  • Gestion des opérateurs / opérations de calculs sur le flux 
  • Bien utiliser le produit cartésien
  • Joindre les informations issues de données hétérogènes
  • Comparer des flux de données
  • Utiliser les agrégations de valeurs (sommes, moyennes, maximum, etc.)

Enrichir son flux de données

  • Génération de logs 
  • Création / Récupération des variables (dates, numériques, alphanumériques) 
  • Utilisation du résultat d'un flux
  • Les propriétés d’un flux et de son ordonnanceur

Les boucles

  • Les problématiques
  • Les boucles avec paramètres et le composant « Copie lignes vers résultat »
  • Les boucles avec les composants « Copie lignes vers résultat » et « Récupération lignes depuis le résultat »

Exploitation

  • Gérer les erreurs
  • Générer des traces (logs)
  • Comprendre les erreurs et lancer des alertes (Débogage) 
  • La parallélisation (exécution simultanée de plusieurs flux de données) 
  • Import / export des développements
  • Automatisation des tâches / transformations
  • Documentation (mise en place des normes en cas d'erreurs ou de reprises)