Apache Spark

Apache Spark

RESTITUTION DE L'INFORMATION DÉCISIONNELLE

Spark est un framework, qui permet le travail sur les données de manière distribuée. C’est l’une des principales solutions de traitement de l’écosystème Hadoop. En liant Spark à Hadoop, il devient possible de répartir la charge de travail de données sur plusieurs serveurs, pour le stockage et le traitement. Cette configuration est très appréciée pour l’analyse de grands volumes de données.

Spark est un projet Open Source créé en 2009. Il a initialement été développé à l'Université de Californie, par l’AMPLab de Berkeley. En 2010, le code source a été remis à l’Apache Software Foundation qui est actuellement en charge de la maintenance du projet.

Tous les grands éditeurs de distributions Hadoop proposent un support pour Spark : Cloudera, MapR, Hortonworks.

LES COMPOSANTS SPARK :

  • Spark, pour travailler sur des données en Batch.
  • Spark Streaming, pour travailler sur des flux de données.
  • Spark MLlib, un ensemble d’algorithme pour faire du Machine Learning.
  • Spark SQL, permet de travailler les données avec du SQL.
  • Spark GraphX, permet de manipuler les données en mode graphe.

Apache Spark

Chaque facette du framework peut être complémentaire en fonction des différents cas d’usages. Il va vous permettre de tirer parti des données de votre entreprise, des données exogènes ou encore manipuler les données issues de l’internet des objets. Avec Hadoop, Spark permettra de construire un Datawarehouse ou un Data Lake. L’objectif étant de pouvoir restituer les données de manière efficace : sous forme de tableau de bord ou avec des systèmes d’analyses avancés.

LES AVANTAGES DE SPARK :

  • Permettre de travailler sur de grandes volumétries de données sans augmenter les temps traitement.
  • Faire évoluer le système en fonction des besoins.
  • Travailler avec des données de différents formats.
  • Implémentation des nouveaux types de traitements : Streaming, Machine Learning, Graphe.

LES AVANTAGES DE SPARK PAR RAPPORT À MAPREDUCE :

1 - Rapide :

  • 10x plus rapide sur disque.
  • 100x plus rapide en mémoire.

2 - Simplifie le développement :

  • Ecriture simplifié des programmes.
  • Plus de méthodes natives.
  • La possibilité de travailler avec un shell interactif.
  • Un code plus efficient.

3 - Plusieurs modes de déploiement :

  • Mesos.
  • Yarn.
  • Standalone.
  • Local.

4 - Différents modes de stockage :

  • HDFS.
  • Google Cloud Storage.
  • HBase.
  • Hive.

5 - Stack unifié : Il permet de travailler sur différentes structures de données :

  • Batch.
  • Streaming.
  • Analyses Interactives.

6 - Supporte plusieurs langages :

  • Scala.
  • Python.
  • Java.
  • R.

LES DIFFÉRENTS CAS D’USAGES :

Pour un opérateur télécom, Spark sert à mettre en place une solution d’alerte de sécurité à partir de différentes sources de données : les média sociaux, les enregistrements DNS, les logs des serveurs. Il peut rassembler ces différentes informations pour générer les rapports de sécurité pour ses clients. L’utilisation de Spark permet d’analyser des millions d’événements et gérer l’intégration de nouvelles données en temps réel.

Dans le domaine de la diffusion TV sur le câble, Spark peut analyser les audiences en fonction de la diffusion des programmes, et ce pour des chaînes retransmises sur différents continents. En analysant à la fois des données des programmes et des métadonnées des téléspectateurs, il permet au diffuseur d’adapter ses programmes et les campagnes publicitaires.

Spark est utilisé dans le médicale pour l’analyse du génome humain. Il a permis de réduire le traitement de plusieurs semaines à moins d’une heure.

DANS QUELS CAS UTILISER SPARK ?

Next Decision préconise l’utilisation de Spark dans la majorité des projets Big Data. C’est le couteau suisse du traitement de données, à la fois multifonction et performant.

Retour aux éditeurs décisionnels de restitution

Vous souhaitez bénéficier d'experts, de développeurs ou d'une formation sur Apache Spark ? Rendez vous sur la page Contact

Analysez des millions de données avec Apache Spark à Paris, Brest, Rennes, Nantes, La Roche Sur Yon, Angers, Le Mans, Niort, Laval, Lyon, Grenoble, Saint-Etienne, Bordeaux, Toulouse, La Rochelle, Agen, Bayonne, Montpellier, Perpignan, Toulon, Avignon, Ales...

Réalisez vos projets Big Data avec Spark en Bretagne, Région Parisienne, Ile de France, Pays de Loire, Poitou-Charentes, Aquitaine, Midi-Pyrénées, Rhône, Ain, Isère, Loire, Languedoc-Roussillon et Provence-Alpes-Côte d'Azur.

Laissez-nous vos coordonnées et nous vous rappellerons sous 24 heures.

Web Demo

webconference

Suivez notre prochaine Web Demo sur la technologie :

Apache Spark

Le Mardi 28/02/2017 10:00:00

Inscrivez-vous

Les adresses
Next Decision

Next Decision Nantes

Tel : 02.34.09.31.70
31 Rue Fouré
44 000 NANTES
contact@nextdecision.fr

Next Decision Brest

Tel : 02.34.09.31.70
42 rue Glasgow
29 200 BREST
contact@nextdecision.fr

Next Decision Rennes

Tel : 02.34.09.31.70
2 Rue de la Mabilais
35000 RENNES
contact@nextdecision.fr

Next Decision Paris

Tel : 09.51.29.09.35
116 rue Lamarck
75 018 PARIS
contact@nextdecision.fr

Next Decision Bordeaux

Tel : 02.34.09.31.70
20 place Saint Martial
33 300 BORDEAUX
contact@nextdecision.fr

Next Decision Montpellier

Tel : 09.81.93.23.03
23 esplanade de l’Europe
34 000 MONTPELLIER
contact@nextdecision.fr

Next Decision Toulouse

Tel : 02.34.09.31.70
32 Rue Matabiau
31 000 TOULOUSE
contact@nextdecision.fr

Next Decision Lyon

Tel : 02.34.09.31.70
40b rue De La Villette
69 003 LYON
contact@nextdecision.fr

Next Decision Nice

Tel : 02.34.09.31.70
Les Aqueducs, 535 Route des Lucioles
06 560 Sophia Antipolis
contact@nextdecision.fr

Les actualités
Next Decision

13/10/2016 petit déjeuner à Nantes
Vous trouvez que votre exercice budgétaire est un calvaire ?

11/10/2016 petit déjeuner à Lyon
Choisir vos outils décisionnels.

15/03/2016 petit déjeuner à Nantes
Découvrez les Applications Google Apps.

26/01/2016 petit déjeuner à Bordeaux
Intégration , Administration simplifiée et Cartographie sous BO.