Présentation en concept d’Apache HOP

Distribué sous licence Apache, HOP est un ETL open source arrivé sur le marché en 2022. Fondé par un ancien créateur de Pentaho Data Integration, il s’agit d’un fork de ce dernier et présente donc de nombreuses similitudes avec lui.

Apache HOP

Apache HOP est un ETL jeune sur le marché mais très dynamique, avec un rythme de sortie des nouvelles versions de 2 à 3 mois, ce qui lui permet d’être régulièrement à jour en termes de sécurité et d’adaptation aux nouvelles technologies.

Apache HOP est basé sur le langage Java et nécessite donc une JVM pour pouvoir s’exécuter. Cependant, aucune connaissance de développement en langage Java n’est nécessaire pour utiliser l’outil.

Fonctionnalités d’Apache HOP

Pipelines

Les pipelines sont l’essence même des projets Apache HOP et constituent les flux de données entre source(s) et cible(s).

De nombreux connecteurs sont disponibles :

  • Plus de 45 types de bases de données supportées (Oracle, SQL Server, PostgreSQL, Snowflake, MySQL, Mariadb,…)
  • Connecteurs NoSQL (MongoDB, Cassandra,…)
  • Connecteurs de type fichiers (Excel, csv, txt, Google sheets, Parquet,…)
  • Connecteurs applicatifs (Splunk, Salesforce, AWS,…)
  • Possibilité d’appeler des Web Services via des clients REST ou HTTP : permet de collecter des données de Sharepoint, CRM Dynamics,…
  • Utilisation de données géographiques (PostGIS) via un plugin disponible
  • Possibilité d’exécuter du code spécifique (PHP, Python, Javascript,..)

Les pipelines permettent d’effectuer de nombreuses opérations de transformation ou de calculs sur les données qui transitent (dédoublonnage, création de checksum, agrégations, recherches,…)

Apache HOP

Workflows

Les workflows permettent d’orchestrer les flux de données (pipelines) en les liant entre elles et en gérant la chaîne de traitement en fonction des résultats des étapes précédentes. La parallélisation des étapes est également possible.

Ils permettent aussi :

  • D’envoyer des emails (notification en cas d’erreur, transmission d’informations)
  • De gérer les fichiers (récupération via FTP / SFTP, gestion des répertoires, vérification de la présence d’un fichier,...)
  • Tester la connexion à une source de données (Web service, base de données) avant de lancer une pipeline.

Apache HOP

Migration depuis Pentaho Data Integration

Partageant initialement le même code source que Pentaho Data Integration, HOP possède un module d’import de projet Pentaho. Il est donc possible, en quelques clics seulement, de migrer ses tâches / transformations PDI vers des workflows / pipelines HOP.

Integration GIT

Apache HOP inclut par défaut les fonctionnalités de versionning de Git. Il est alors possible de gérer les versions et branches de développement, et de travailler en équipe sur un même projet de façon optimale et sécurisée. Des icônes dans l’explorateur de fichiers permettent de facilement gérer les push / pull / commit.

Apache HOP

Exécution en ligne de commande

Apache HOP possède un utilitaire d’exécution des projets en ligne de commande, hop-run. Il va permettre, une fois le projet développé, de l’exécuter sans passer par l’interface graphique de HOP et de l’intégrer dans un ordonnanceur (local ou distant) qui va gérer son exécution, de façon manuelle ou planifiée.

HOP Server

Apache HOP embarque HOP Server, serveur léger permettant d’exécuter des workflows ou pipelines à travers des appels REST.

Toutefois, ses fonctionnalités sont limitées et ne vont pas couvrir toutes les possibilités permises par un ordonnanceur externe.

Avantages de Apache HOP

Projet dynamique, les mises à jour régulières permettent de couvrir un large spectre de connexions et technologies et de se maintenir à jour par rapport aux outils pouvant faire leur apparition sur le marché.

Pour les personnes familières avec Pentaho Data Integration, le passage vers HOP est assez aisé car les composants sont les mêmes. Seule l’interface utilisateur diffère et nécessite un temps d’adaptation. La migration de projets PDI est d’ailleurs nativement prise en compte.

Le site de l’éditeur est riche, la documentation officielle permet de trouver beaucoup d’informations utiles et de tutoriels lors du développement de projets HOP.

La gestion des environnements d’exécution est nativement prise en compte et permet de passer facilement d’un environnement de développement à un environnement de production par exemple.

Apache HOP est capable de faire transiter de gros volumes de données : s’exécutant dans une JVM, il est possible d’ajuster les ressources de RAM allouées et ainsi moduler ses performances en fonction de la charge souhaitée. L’exécution des traitements est possible aussi bien sur un environnement Windows que Linux, et les workflows / pipelines ne nécessitent pas d’être compilés pour pouvoir être lancés.

Dans quel cas utiliser Apache HOP ?

Apache HOP représente une option sérieuse pour les PME / PMI souhaitant intégrer une solution ETL dans leur système d’information, à faible coût. Sous licence open source, HOP est gratuit et son inclusion dans la fondation Apache nous permet de penser qu’il le restera.

  • Implémentation d’un projet ETL : réalisation d’un entrepôt de données, d’un référentiel unifié,…
  • Implémentation d’échanges inter-applicatifs (EAI) : échanges de données entre différentes couches applicatives de votre SI, ou vers vos fournisseurs, prestataires,…
  • Contrôle de la qualité de vos données et supervision applicative : HOP peut vous permettre de requêter vos applications et de détecter les données incohérentes ou erronées.
  • Migration des données d’une base vers une autre.

Retour aux éditeurs "Intégration et flux de données"

Vous souhaitez bénéficier d'experts, de développeurs ou d'une formation sur les outils Talend ? Rendez vous sur la page Contact

Des Experts formateurs APACHE HOP à Nantes, Angers, Bordeaux, Le Mans, Brest, Rennes, Laval, Paris, Lyon, Grenoble, Saint-Etienne, Toulouse, La Rochelle, Agen, Bayonne, Montpellier, Marseille, Aix-en-Provence, La Roche-Sur-Yon…

Nous intervenons sur APACHE HOP en Pays de la Loire, Bretagne, Normandie, Région Parisienne, Ile de France, Occitanie, Provence-Alpes-Côte d'Azur et Nouvelle-Aquitaine.