Téléphone Next Decision02.34.09.31.70

Contact Next Decisioncontact@nextdecision.fr

Youtube facebook twitter
Instagram viadeo linkedin

Apache Spark

Apache Spark

RESTITUTION DE L'INFORMATION DÉCISIONNELLE

Spark est un framework, qui permet le travail sur les données de manière distribuée. C’est l’une des principales solutions de traitement de l’écosystème Hadoop. En liant Spark à Hadoop, il devient possible de répartir la charge de travail de données sur plusieurs serveurs, pour le stockage et le traitement. Cette configuration est très appréciée pour l’analyse de grands volumes de données.

Spark est un projet Open Source créé en 2009. Il a initialement été développé à l'Université de Californie, par l’AMPLab de Berkeley. En 2010, le code source a été remis à l’Apache Software Foundation qui est actuellement en charge de la maintenance du projet.

Tous les grands éditeurs de distributions Hadoop proposent un support pour Spark : Cloudera, MapR, Hortonworks.

LES COMPOSANTS SPARK :

  • Spark, pour travailler sur des données en Batch.
  • Spark Streaming, pour travailler sur des flux de données.
  • Spark MLlib, un ensemble d’algorithme pour faire du Machine Learning.
  • Spark SQL, permet de travailler les données avec du SQL.
  • Spark GraphX, permet de manipuler les données en mode graphe.

Apache Spark

Chaque facette du framework peut être complémentaire en fonction des différents cas d’usages. Il va vous permettre de tirer parti des données de votre entreprise, des données exogènes ou encore manipuler les données issues de l’internet des objets. Avec Hadoop, Spark permettra de construire un Datawarehouse ou un Data Lake. L’objectif étant de pouvoir restituer les données de manière efficace : sous forme de tableau de bord ou avec des systèmes d’analyses avancés.

LES AVANTAGES DE SPARK :

  • Permettre de travailler sur de grandes volumétries de données sans augmenter les temps traitement.
  • Faire évoluer le système en fonction des besoins.
  • Travailler avec des données de différents formats.
  • Implémentation des nouveaux types de traitements : Streaming, Machine Learning, Graphe.

LES AVANTAGES DE SPARK PAR RAPPORT À MAPREDUCE :

1 - Rapide :

  • 10x plus rapide sur disque.
  • 100x plus rapide en mémoire.

2 - Simplifie le développement :

  • Ecriture simplifié des programmes.
  • Plus de méthodes natives.
  • La possibilité de travailler avec un shell interactif.
  • Un code plus efficient.

3 - Plusieurs modes de déploiement :

  • Mesos.
  • Yarn.
  • Standalone.
  • Local.

4 - Différents modes de stockage :

  • HDFS.
  • Google Cloud Storage.
  • HBase.
  • Hive.

5 - Stack unifié : Il permet de travailler sur différentes structures de données :

  • Batch.
  • Streaming.
  • Analyses Interactives.

6 - Supporte plusieurs langages :

  • Scala.
  • Python.
  • Java.
  • R.

LES DIFFÉRENTS CAS D’USAGES :

Pour un opérateur télécom, Spark sert à mettre en place une solution d’alerte de sécurité à partir de différentes sources de données : les média sociaux, les enregistrements DNS, les logs des serveurs. Il peut rassembler ces différentes informations pour générer les rapports de sécurité pour ses clients. L’utilisation de Spark permet d’analyser des millions d’événements et gérer l’intégration de nouvelles données en temps réel.

Dans le domaine de la diffusion TV sur le câble, Spark peut analyser les audiences en fonction de la diffusion des programmes, et ce pour des chaînes retransmises sur différents continents. En analysant à la fois des données des programmes et des métadonnées des téléspectateurs, il permet au diffuseur d’adapter ses programmes et les campagnes publicitaires.

Spark est utilisé dans le médicale pour l’analyse du génome humain. Il a permis de réduire le traitement de plusieurs semaines à moins d’une heure.

DANS QUELS CAS UTILISER SPARK ?

Next Decision préconise l’utilisation de Spark dans la majorité des projets Big Data. C’est le couteau suisse du traitement de données, à la fois multifonction et performant.

Retour aux éditeurs de restitution

Vous souhaitez bénéficier d'experts, de développeurs ou d'une formation sur Apache Spark ? Rendez vous sur la page Contact

Analysez des millions de données avec Apache Spark à Paris, Brest, Rennes, Nantes, La Roche Sur Yon, Angers, Le Mans, Niort, Laval, Lyon, Grenoble, Saint-Etienne, Bordeaux, Toulouse, La Rochelle, Agen, Bayonne, Montpellier, Perpignan, Toulon, Avignon, Ales...

Réalisez vos projets Big Data avec Spark en Bretagne, Région Parisienne, Ile de France, Pays de Loire, Poitou-Charentes, Aquitaine, Midi-Pyrénées, Rhône, Ain, Isère, Loire, Languedoc-Roussillon et Provence-Alpes-Côte d'Azur.

Laissez-nous vos coordonnées et nous vous rappellerons sous 24 heures.

Web Demo

webconference

Suivez notre prochaine Web Demo sur la technologie :

Apache Spark

Le Mardi 25/09/2018 10:00:00

Inscrivez-vous

Les adresses
Next Decision