Dans cette formation orientée développement d’applications pour le Big Data avec Apache Hadoop, apprenez à manipuler MapReduce, à comprendre et à utiliser HDFS, et à travailler avec YARN.
Profitez de nos travaux pratiques pour développer votre premier programme WordCount avec MapReduce, manipuler HDFS avec les commandes de base et l’API Java, et recréer un moteur de recherche avec Hadoop.
Acquérir la maîtrise de l’architecture et des concepts Hadoop, ainsi que l’optimisation et le tunning.
Apprenez à utiliser Python avec Hadoop Streaming pour répondre rapidement aux nouveaux besoins.
À l’issue de cette formation, vous serez capable de développer des applications de traitements distribués sur de gros volumes de données.
Programme détaillé
MapReduce en pratique
- Le " Hello World " BigData : WordCount
- Concepts
- Jobs, tasks, slots, splits …
- WebUI
- Input et Ouput Format
- Partitionner, Grouper, Trier
- Application, Jobs et Ordonnancement
- Configuration, tunning, optimisations
- Uses cases
- Bonnes pratiques et patterns
- Travaux pratiques :
-
- Développer le WordCount avec MapReduce
HDFS
- Architecture
- Patterns et usages
- Opérations et commandes
- WebHDFS, interfaces
- API Java
- Travaux pratiques :
-
- Manipuler HDFS avec les commandes de base
- Utiliser l'API Java pour lire/écrire des fichiers dans HDFS
YARN
- MRv1 vs YARN
- Architecture et composants
- Abstraction Tez : Pig, Hive, Cascading
- Travaux pratiques :
-
- Recréer un moteur de recherche avec Hadoop - Partie 1
Hadoop Streaming
- Python avec Hadoop Streaming
- Fonctionnement et configuration d'Hadoop Streaming
- Travaux pratiques :
-
- Transformer le WordCount avec Hadoop Streaming
- Recréer un moteur de recherche avec Hadoop - Partie 2