Cette formation approfondie sur Apache Hadoop vous offre des compétences solides en matière de configuration, de supervision et d’exploitation des services Hadoop.
Acquérez une compréhension détaillée de l’écosystème Hadoop, y compris MapReduce, Pig, Hive, Sqoop, et plus encore.
Apprenez à gérer les utilisateurs, la sécurité, et les services généraux Hadoop dans un environnement de cluster.
De plus, familiarisez-vous avec les outils de développement Hadoop et les techniques de monitoring, garantissant un fonctionnement optimal du cluster.
Programme détaillé
›
Le projet et les modules
- Hadoop Common, HDFS, YARN, MapReduce Oozie, Pig, Hive, HBase
- Les fonctionnalités du framework Hadoop
- Les différentes versions
- Les principales distributions et leurs spécificités : Apache, Cloudera, Hortonworks, EMR, MapR
- Architecture et principe de fonctionnement
- Terminologie : NameNode, DataNode, ResourceManager, NodeManager
- Rôle des différents composants
Administration Hadoop
- Etude des fichiers de configuration core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
- Gestion des utilisateurs pour les daemons hdfs et yarn
- Droits d'accès sur les exécutables et répertoires
- Architecture et gestion des services généraux Hadoop des utilisateurs pour les daemons hdfs et yarn
- HDFS
- YARN
- MapReduce
- HBase
- Monitoring du cluster Hadoop
- Suivi de charges
- Journaux (jConsole)
- Gestion des nœuds
- Accès JMX
- Mise en œuvre d'un client JMX
- Administration HDFS
- Stockage des fichiers : fsck, dfsadmin
- Gestion centralisée de caches avec Cacheadmin
- Sécurité
- Activation de la sécurité avec Kerberos dans core-site.xml, et hdfs-site.xml pour les NameNode et DataNode
- Gestion de la sécurité avec Apache Sentry
- Exploitation
- Supervision des éléments par le NodeManager
- Monitoring graphique avec Ambari, Kibana, Cloudera Manager
- Visualisation des alertes en cas d'indisponibilité d'un nœud
- Configuration des logs avec log4j
Développement Hadoop
- HDFS
- Architecture
- Commandes SHELL
- MapReduce
- Architecture de MapReduce
- Exécuter un code MapReduce
- Hue
- Introduction
- Fonctionnalités et utilisation
- HBase
- Architecture
- Commandes SHELL de création et d'interrogation de données
- Hive
- Architecture
- Méthodes d'accès à Hive
- HiveQL : création de bases de données/tables/vues, interrogation de données avec HiveQL, manipulation de fonctions définies par l'utilisateur (UDF), partitionner vos données, archivage de vos données
- Pig
- Introduction
- Méthodes d'exécution
- Pig Latin
- Communication entre Pig et Hive
- Sqoop
- Introduction
- Pour quels usages ?
- Méthodes d'utilisation
- Import et export des données
- Oozie
- Introduction
- Planification de workflows avec paramètres