Venez en toute sécurité dans nos centres ! Voir notre dispositif sanitaire

> Formations > Technologies numériques > Développement logiciel > Python, C, C++ > Formation Spark Python, développer des applications pour le Big Data > Formations > Technologies numériques > Formation Spark Python, développer des applications pour le Big Data
Nouvelle formation

Spark Python, développer des applications pour le Big Data

Spark Python, développer des applications pour le Big Data

Télécharger au format pdf Partager cette formation par e-mail


Spark est un framework de calcul distribué permettant de manipuler des données volumineuses. Au départ conçu pour accélérer les traitements d'Hadoop, il est devenu un système autonome. Il peut se programmer avec quatre langages, dont Python qui en est devenu le prédominant. Ce cours vous fait découvrir Spark Python.


Inter
Intra
Sur mesure

Cours pratique en présentiel ou en classe à distance

Réf : QNC
Prix : 1990 € HT
  3j - 21h
Pauses-café et
déjeuners offerts




Spark est un framework de calcul distribué permettant de manipuler des données volumineuses. Au départ conçu pour accélérer les traitements d'Hadoop, il est devenu un système autonome. Il peut se programmer avec quatre langages, dont Python qui en est devenu le prédominant. Ce cours vous fait découvrir Spark Python.

Objectifs pédagogiques

À l’issue de la formation, le participant sera en mesure de :
  • Découvrir les concepts fondamentaux de Spark
  • Utiliser le concept des RDD de Spark
  • Exploiter des données avec Spark SQL
  • Effectuer de l’analyse temps réel avec Spark Streaming
  • Utiliser Spark avec les notebooks Jupyter et Zeppelin, utiliser la librairie Python Koalas (Pandas pour Spark)
  • Aborder le machine learning avec Spark, utiliser Spark sur un supercalculateur

Objectifs pédagogiques

Public concerné

Toute personne connaissant Python souhaitant appréhender le framework Spark de la fondation Apache.

Public concerné

Prérequis

Bonne pratique du langage Python. Connaissances en big data.

Prérequis

Pédagogie

Travaux pratiques
De nombreux exercices sont réalisés pour illustrer les sujets.
Méthodes pédagogiques
Chaque sujet est illustré par des démonstrations se déroulant sur un cluster dans le cloud et/ou sur un supercalculateur. Les participants réalisent des exercices après la présentation des concepts.

Pédagogie

Programme de la formation

Présentation d’Apache Spark
  • Historique du framework.
  • Les quatre principaux composants : Spark SQL, Spark Streaming, MLlib et GraphX.
  • Les outils et les librairies Python pour Spark : PySpark, notebooks Jupyter/Zeppelin, Koalas.
  • Les concepts de programmation de Spark.
  • Exécuter Spark dans un environnement distribué : cluster et HPC.
  • Historique du framework.
  • Les quatre principaux composants : Spark SQL, Spark Streaming, MLlib et GraphX.
  • Les outils et les librairies Python pour Spark : PySpark, notebooks Jupyter/Zeppelin, Koalas.
  • Les concepts de programmation de Spark.
  • Exécuter Spark dans un environnement distribué : cluster et HPC.
Travaux pratiques
Mise en place de l’environnement Python pour Spark. Mise en œuvre de scripts manipulant des concepts de Spark.

Utiliser Spark avec Python : les Resilient Distributed Dataset (RDD)
  • Configurer son environnement Python.
  • Se connecter à Spark avec Python : les contextes et les sessions.
  • Présentation des RDD. Créer, manipuler et réutiliser des RDD.
  • Les principales fonctions/transformations, mise en œuvre d’algorithmes de type map/reduce.
  • Accumulateurs et variables broadcastées.
  • Utiliser des partitions.
  • Utiliser les notebooks et soumettre des jobs Python.
  • Configurer son environnement Python.
  • Se connecter à Spark avec Python : les contextes et les sessions.
  • Présentation des RDD. Créer, manipuler et réutiliser des RDD.
  • Les principales fonctions/transformations, mise en œuvre d’algorithmes de type map/reduce.
  • Accumulateurs et variables broadcastées.
  • Utiliser des partitions.
  • Utiliser les notebooks et soumettre des jobs Python.
Travaux pratiques
Manipulation de contextes et de sessions. Création et réutilisation de RDD. Soumission de travaux.

Manipuler des données structurées
  • Présentation de Spark SQL et des DataFrames et datasets.
  • Les différents types/formats de sources de données.
  • Interopérabilité avec les RDD.
  • Utiliser la librairie Python Koalas.
  • Présentation de Spark SQL et des DataFrames et datasets.
  • Les différents types/formats de sources de données.
  • Interopérabilité avec les RDD.
  • Utiliser la librairie Python Koalas.
Travaux pratiques tutorés
Exécution de requêtes avec Spark SQL. Mise en œuvre de DataFrames et datasets. Manipulation de données avec la librairie Koalas.

Machine learning avec Spark
  • Introduction au machine learning.
  • Les différentes classes d'algorithmes.
  • Présentation de SparkML et MLlib.
  • Implémentations des différents algorithmes dans MLlib.
  • Introduction au machine learning.
  • Les différentes classes d'algorithmes.
  • Présentation de SparkML et MLlib.
  • Implémentations des différents algorithmes dans MLlib.
Travaux pratiques
Mise en œuvre d’apprentissage supervisé au travers d’une classification.

Analyser en temps réel avec Spark Streaming
  • Comprendre l’architecture du streaming.
  • Présentation des Discretized Streams (DStreams).
  • Les différents types de sources.
  • Manipulation de l'API (agrégations, watermarking...).
  • Machine learning en temps réel.
  • Comprendre l’architecture du streaming.
  • Présentation des Discretized Streams (DStreams).
  • Les différents types de sources.
  • Manipulation de l'API (agrégations, watermarking...).
  • Machine learning en temps réel.
Travaux pratiques
Création de statistiques en temps réel à partir d’une source de données et prédictions à l’aide du machine learning.

Théorie des graphes
  • Introduction à la théorie des graphes (nœuds, arêtes, graphes orientés, chemins, principaux algorithmes).
  • Utilisation de l’API.
  • Présentation des librairies GraphX et GraphFrame.
  • Introduction à la théorie des graphes (nœuds, arêtes, graphes orientés, chemins, principaux algorithmes).
  • Utilisation de l’API.
  • Présentation des librairies GraphX et GraphFrame.
Travaux pratiques
Mise en œuvre d’un algorithme de recherche du plus court chemin ou page rank et visualisation du graphe.


Programme de la formation

Solutions de financement

Selon votre situation, votre formation peut être financée par :
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation.
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • Pôle Emploi sous réserve de l’acceptation de votre dossier par votre conseiller Pôle Emploi.
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation.
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • Pôle Emploi sous réserve de l’acceptation de votre dossier par votre conseiller Pôle Emploi.
Contactez nos équipes pour en savoir plus sur les financements à activer.

Solutions de financement

Horaires

En présentiel, les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.
En classe à distance, la formation démarre à partir de 9h.
Pour les stages pratiques de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 15h30 le dernier jour.

Infos pratiques

Dates et lieux

Pour vous inscrire, sélectionnez la ville et la date de votre choix.
Du 10 au 12 janvier 2022
Lyon
S’inscrire
Du 10 au 12 janvier 2022
Lille
S’inscrire
Du 10 au 12 janvier 2022
Classe à distance
S’inscrire
Du 10 au 12 janvier 2022
Paris La Défense
S’inscrire
Du 26 au 28 janvier 2022
Sophia-Antipolis
S’inscrire
Du 26 au 28 janvier 2022
Aix-en-Provence
S’inscrire
Du 9 au 11 février 2022
Nantes
S’inscrire
Du 9 au 11 février 2022
Toulouse
S’inscrire
Du 9 au 11 février 2022
Strasbourg
S’inscrire
Du 9 au 11 février 2022
Bordeaux
S’inscrire
Du 14 au 16 mars 2022
Lyon
S’inscrire
Du 28 au 30 mars 2022
Nantes
S’inscrire
Du 28 au 30 mars 2022
Lille
S’inscrire
Du 28 au 30 mars 2022
Strasbourg
S’inscrire
Du 28 au 30 mars 2022
Paris La Défense
S’inscrire
Du 28 au 30 mars 2022
Classe à distance
S’inscrire
Du 30 mars au 1 avril 2022
Bordeaux
S’inscrire
Du 30 mars au 1 avril 2022
Toulouse
S’inscrire
Du 25 au 27 avril 2022
Aix-en-Provence
S’inscrire
Du 25 au 27 avril 2022
Sophia-Antipolis
S’inscrire
Du 23 au 25 mai 2022
Sophia-Antipolis
S’inscrire
Du 23 au 25 mai 2022
Lille
S’inscrire
Du 23 au 25 mai 2022
Aix-en-Provence
S’inscrire
Du 23 au 25 mai 2022
Classe à distance
S’inscrire
Du 23 au 25 mai 2022
Paris La Défense
S’inscrire
Du 13 au 15 juin 2022
Paris La Défense
S’inscrire
Du 13 au 15 juin 2022
Classe à distance
S’inscrire
Du 13 au 15 juin 2022
Toulouse
S’inscrire
Du 13 au 15 juin 2022
Bordeaux
S’inscrire
Du 15 au 17 juin 2022
Lyon
S’inscrire
Du 22 au 24 juin 2022
Nantes
S’inscrire
Du 22 au 24 juin 2022
Strasbourg
S’inscrire
Du 11 au 13 juillet 2022
Sophia-Antipolis
S’inscrire
Du 11 au 13 juillet 2022
Aix-en-Provence
S’inscrire
Du 11 au 13 juillet 2022
Lyon
S’inscrire
Du 18 au 20 juillet 2022
Toulouse
S’inscrire
Du 18 au 20 juillet 2022
Nantes
S’inscrire
Du 18 au 20 juillet 2022
Strasbourg
S’inscrire
Du 18 au 20 juillet 2022
Bordeaux
S’inscrire
Du 17 au 19 août 2022
Lille
S’inscrire
Du 17 au 19 août 2022
Classe à distance
S’inscrire
Du 17 au 19 août 2022
Paris La Défense
S’inscrire
Du 5 au 7 septembre 2022
Bordeaux
S’inscrire
Du 5 au 7 septembre 2022
Toulouse
S’inscrire
Du 7 au 9 septembre 2022
Nantes
S’inscrire
Du 7 au 9 septembre 2022
Strasbourg
S’inscrire
Du 14 au 16 septembre 2022
Lyon
S’inscrire
Du 21 au 23 septembre 2022
Aix-en-Provence
S’inscrire
Du 21 au 23 septembre 2022
Sophia-Antipolis
S’inscrire
Du 26 au 28 septembre 2022
Lille
S’inscrire
Du 26 au 28 septembre 2022
Paris La Défense
S’inscrire
Du 26 au 28 septembre 2022
Classe à distance
S’inscrire
Du 24 au 26 octobre 2022
Classe à distance
S’inscrire
Du 24 au 26 octobre 2022
Paris La Défense
S’inscrire
Du 2 au 4 novembre 2022
Strasbourg
S’inscrire
Du 2 au 4 novembre 2022
Sophia-Antipolis
S’inscrire
Du 2 au 4 novembre 2022
Aix-en-Provence
S’inscrire
Du 2 au 4 novembre 2022
Nantes
S’inscrire
Du 7 au 9 novembre 2022
Lyon
S’inscrire
Du 28 au 30 novembre 2022
Toulouse
S’inscrire
Du 28 au 30 novembre 2022
Bordeaux
S’inscrire
Du 19 au 21 décembre 2022
Lille
S’inscrire
Du 19 au 21 décembre 2022
Paris La Défense
S’inscrire
Du 19 au 21 décembre 2022
Classe à distance
S’inscrire

Dates et lieux