Traitement statistique des données à une dimension
- Type de données : qualitative ou quantitative.
- Données avec effectif : calcul de fréquences et interprétation.
- Tri et traitement des données : mise en forme statistique de différents exemples de données brutes.
- Représentations graphiques.
- Paramètres de position : moyenne, mode, médiane.
- Les paramètres de dispersion : étendue, quantiles, décile, variance.
- La variance : une moyenne "d'écarts".
Exercice
Transformation, tri et représentation des données. Mesure de leur dispersion.
Objets et notions de programmation R
- Les objets de type vecteurs, matrix, array, factor, data.frame, list.
- Manipulation des objets, classe d'objet, fonctions spécifiques, jointure.
- Sauvegarde, suppression de mémoire.
- Notions de boucle (for et while), condition (if), switch.
Exercice
Manipulation des types d'objets.
Les techniques de l’approche data mining
- Méthode basée sur la classification : identification de groupes d’individus statistiques.
- Méthode par association : mise en évidence d’une cause et d’une conséquence.
- Méthode de l’estimation : complément d’un effectif ou d’une fréquence d’un jeu de données.
- Apports du data mining pour le traitement des grandes volumétries de données.
- Méthode de segmentation : définition de critères, extension de la méthode de classification et principe des k-means.
- Méthode de prévision : importance de la temporalité et des hypothèses.
Travaux pratiques
Appréhender les différentes méthodes en fonction des besoins exprimés
Les technologies du big data
- Description de l'architecture et des composants de la plateforme Hadoop.
- Les modes de stockage (NoSQL, HDFS).
- Principes de fonctionnement de MapReduce, Spark, Storm...
- Principales distributions du marché (Hortonworks, Cloudera, MapR, Elastic Map Reduce, Biginsights).
- Installer une plateforme Hadoop.
- Les technologies du data scientist.
- Présentation des technologies spécifiques pour le big data (Tableau, Talend, Qlikview...).
Exercice
Installation d'une plateforme big data Hadoop (via Cloudera QuickStart ou autre).
Démarche de gestion de la qualité des données
- Périmètre de la démarche qualité.
- Niveau d'approche et de granularité.
- La place de la qualité dans la démarche de gouvernance.
- Les acteurs et l'organisation. L'exemple COBIT.
- Mise en œuvre de la démarche "projet".
- Le coût de la non qualité
Etude de cas
Les 10 actions à lancer par le comité de gouvernance.