Attention, nous vous informons que cette offre n'est plus commercialisée par Talend !

Le Master Data Management par Talend MDM

La gestion des données maîtres par Talend MDM (Master Data Management) est le processus qui permet de s'assurer qu'une organisation travaille et prend ses décisions en fonction d'une version des données « vraies », actuelles, souvent appelée « golden record ».

Cela semble simple, mais dans les environnements d’entreprises modernes, inondés de flux de données, la gestion des données maîtres peut constituer l’un des défis les plus complexes. L'acquisition de données provenant de diverses sources et leur diffusion comme source constante et fiable d'informations vérifiées et en temps réel nécessitent une combinaison de savoir-faire et d'outils.

Les impacts positifs de l'implémentation d'une plateforme Talend MDM

La mise en place d'une plateforme Talend MDM a plusieurs impacts positifs :

  • Coût total d'exploitation réduit du fait de l'unicité des données
  • Simplification de l'architecture applicative en éliminant les redondances
  • Des projets informatiques accélérés en phase de recette du fait de la qualité des données
  • Mise en conformité réglementaire simplifiée notamment dans le cas du RGPD du fait de l'unicité et de la qualité des données

Présentation de la plateforme MDM de Talend

Talend MDM Platform, développé par la société Talend, permet de développer des formulaires de saisie unifiée et centralisée sur un portail web collaboratif (Talend MDM), de réaliser des flux ETL permettant de stocker ces données en attente de traitement dans une base tampon et de réaliser des tâches de transformation (Talend Data Integration), de construire des process de dé-doublonnage (Talend Data Quality), de construire des workflows pour la gouvernance de la donnée (Bonita BPM) et de réaliser des flux de diffusion de la donnée sous formes de services web (Talend ESB).

Talend MDM Platform offre en outre des outils permettant le développement dans un studio unifié (Talend Studio), de stocker et versionner les sources (Repositories SVN et / ou Git), de réaliser des actions de déploiement et d’integration continue (Nexus), d’exécuter les bundles et jobs créés (Apache Karaf runtime) et de monitorer et ordonnancer les flux (Talend Administration Console).

Talend MDM

Fonctionnalités principales de Talend MDM Platform

La plateforme Talend MDM est dédiée à la conception de référentiels maîtres. Elle est composée des éléments suivants :

  • Quatre outils : Talend MDM pour la création des entités du référentiel en partie web, Talend ESB pour l’acquisition et la diffusion des données, Talend Data Integration pour la gestion du dé-doublonnage et de l’alimentation des bases de données du référentiel et Talend Data
  • Plusieurs serveurs : Le runtime Apache Karaf pour l’exécution des bundles OSGi (ESB et MDM), SVN ou Git pour la centralisation et le versionning des sources de développement, Apache Tomcat (serveur web) pour la TAC et le portail de gouvernance des données.
  • Deux portails web: pour la gestion technique de la plateforme (Talend Administration Console) et pour le profilage et le nettoyage des données du référentiel (Talend Data Quality Portal).

Création des entités et mise à disposition du formulaire de saisie Web unifié

La vue MDM du studio de développement Talend permet de définir l’entité et éventuellement une hiérarchie définissant les données maîtres du référentiel avec leur type, leur longueur, les règles de contrôle de surface en saisie et les droits…

Talend MDM

Gestion du dé-doublonnage

Des flux ETL sont réalisés dans la vue « Data Integration » du studio pour gérer le dé-doublonnage des données. Ces flux comparent en permanence les données entrantes stockées dans une base tampon avec les données qualifiées dans la base "Master". Lorsque des données similaires sont détectées, en se basant sur tous les champs du formulaire de saisie unifié, ces flux utilisent un composant de « matching » qui fait appel à des algorithmes très puissant de comparaison et de calcul de distance entre deux chaines (levenshtein, Jaro-Winkler, …). Selon les seuils définis, l’enregistrement peut être qualifié selon 3 cas :

  • Enregistrement unique et propre : il est envoyé dans la base : il est envoyé dans la base "Master" et on lui attribue une clé technique de substitution,
  • Enregistrement en doublon ou faux doublons (détection des similitudes et erreurs de saisies potentielles) : il ne sera pas envoyé en base « Master » puisqu'un enregistrement similaire et qualifié existe déjà dans le référentiel,
  • Enregistrement à qualifier : présentant des similitudes en dehors des seuils automatiques, il est alors envoyé dans le workflow de validation pour un traitement manuel par le « Data Steward ».

Gouvernance de la donnée maître avec Talend MDM

La gouvernance des données permet le profiling et le nettoyage des données.

Anciennement appelée Data Stewardship Console (DSC), la vue web Talend Data Management offre la possibilité à un administrateur de données de retrouver les tâches qui lui sont assignées, en effet, dans le cas d’une plateforme MDM regroupant plusieurs référentiels, il peut y avoir un "Data Steward" par domaine métier, de sélectionner la valeur pour chaque champs de l’entité, de « merger » des enregistrements afin d’envoyer dans la base de données "Master" du MDM une donnée qualifiée : c’est le golden record.

Ces tâches de "stewardship" sont proposées à un administrateur de données dès lors que les processus de dé-doublonnage automatiques n’ont pas pu effectuer une validation.

Talend MDM

Alimentation des tables du référentiel dans Talend MDM Platform

Des flux ETL sont réalisés à l’aide de l’outil de Data Integration fourni dans Talend MDM Platform. Ils permettent de transporter les données de la base tampon jusqu’à la base « Master » tout en réalisant les opérations classiques de transformation et de dé-doublonnage.

Diffusion des données du référentiel

Avant de mettre en oeuvre la diffusion des données, il convient de définir un contrat d’interface. C’est la cartographie des données que nous allons mettre à disposition des consommateurs.

La diffusion des données est réalisée à l’aide de l’outil Talend ESB. Il est possible de créer des services Web de type REST ou SOAP mais également de mettre en place des files d’attentes de type JMS.

Les applications consommatrices s’abonnent au flux de diffusion et récupère les données souhaitées.

Avantages de Talend MDM Plateform

  • De bonnes performances
  • Plateforme de développement unifiée
  • Facilité d'intégration dans l'infrastructure
  • Coût
  • Multi-outils
  • Portabilité sur toutes les architectures logicielles (Java)

Dans quel cas utiliser Talend MDM Plateform ?

  • Besoin de centraliser des données sous forme de référentiels
  • En présence de nombreuses données de sources hétérogènes
  • Pour que les utilisateurs puissent utiliser une donnée de référence propre et unique
  • Nécessité de données en temps réel ou en mode batch
  • En cas de présence de nombreux outils provenant d'éditeurs multiples dans le SI

Retour aux éditeurs MDM / PIM

Vous souhaitez bénéficier d'experts, de développeurs ou d'une formation sur Talend MDM ? Rendez vous sur la page Contact

Des solutions Talend MDM à Paris, Nantes, La Roche Sur Yon, Angers, Le Mans, Brest, Rennes, Niort, Laval, Lyon, Grenoble, Saint-Etienne, Bordeaux, Toulouse, La Rochelle, Agen, Bayonne, Montpellier, Perpignan, Toulon, Avignon, Ales...

Next Decision, votre référence Talend MDM en Région Parisienne, Ile de France, Pays de la Loire, Bretagne, Nouvelle-Aquitaine, Occitanie, Rhône, Ain, Isère, Loire, Languedoc-Roussillon et Provence-Alpes-Côte d'Azur.