Evolution MM

Formations à l'informatique
Découvrez la différence ENI

Lien accueil

Téléchargez le Calendrier des formations

Nantes, Rennes, Niort, Nice, Paris

jusqu'à juillet 2019

Rechercher
Rechercher une formation
 

Apache Hadoop - Présentation de l'écosystème

Cette formation permet d'acquérir les connaissances et compétences requises pour appréhender l'architecture d'un système Hadoop en détaillant les services principaux (MapReduce, Pig, Hive Sqoop), leur configuration, la sécurité au sein d'un cluster, et son exploitation.

Public :

  • Directeurs techniques, chefs de projets, architectes, consultants, administrateurs de bases de données, développeurs d'applications

Objectifs :

  • Avoir une vue d'ensemble d'Apache Hadoop et de ses principaux composants ;
  • Comprendre le rôle de chacun des composants et leurs interactions ;
  • Avoir une vue d'ensemble de la mise en œuvre d'une infrastructure Hadoop et de son administration et exploitation ;
  • Avoir une vue d'ensemble des possibilités de développement offerts par les composants Hadoop.

Pré-requis :

  • Connaissances générales des systèmes d'information.

Contenu pédagogique

Le projet et les modules

  • Hadoop Common, HDFS, YARN, MapReduce Oozie, Pig, Hive, HBase
  • Les fonctionnalités du framework Hadoop
  • Les différentes versions
  • Les principales distributions et leurs spécificités : Apache, Cloudera, Hortonworks, EMR, MapR
  • Architecture et principe de fonctionnement
  • Terminologie : NameNode, DataNode, ResourceManager, NodeManager
  • Rôle des différents composants

Administration Hadoop

  • Etude des fichiers de configuration core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
    • Gestion des utilisateurs pour les daemons hdfs et yarn
    • Droits d'accès sur les exécutables et répertoires
    • Architecture et gestion des services généraux Hadoop des utilisateurs pour les daemons hdfs et yarn
  • HDFS
  • YARN
  • MapReduce
  • HBase
  • Monitoring du cluster Hadoop
    • Suivi de charges
    • Journaux (jConsole)
    • Gestion des nœuds
    • Accès JMX
    • Mise en œuvre d'un client JMX
    • Administration HDFS
    • Stockage des fichiers : fsck, dfsadmin
    • Gestion centralisée de caches avec Cacheadmin
  • Sécurité
    • Activation de la sécurité avec Kerberos dans core-site.xml, et hdfs-site.xml pour les NameNode et DataNode
    • Gestion de la sécurité avec Apache Sentry
  • Exploitation
    • Supervision des éléments par le NodeManager
    • Monitoring graphique avec Ambari, Kibana, Cloudera Manager
    • Visualisation des alertes en cas d'indisponibilité d'un nœud
    • Configuration des logs avec log4j

Développement Hadoop

  • HDFS
    • Architecture
    • Commandes SHELL
  • MapReduce
    • Architecture de MapReduce
    • Exécuter un code MapReduce
  • Hue
    • Introduction
    • Fonctionnalités et utilisation
  • HBase
    • Architecture
    • Commandes SHELL de création et d'interrogation de données
  • Hive
    • Architecture
    • Méthodes d'accès à Hive
    • HiveQL : création de bases de données/tables/vues, interrogation de données avec HiveQL, manipulation de fonctions définies par l'utilisateur (UDF), partitionner vos données, archivage de vos données
  • Pig
    • Introduction
    • Méthodes d'exécution
    • Pig Latin
    • Communication entre Pig et Hive
  • Sqoop
    • Introduction
    • Pour quels usages ?
    • Méthodes d'utilisation
    • Import et export des données
  • Oozie
    • Introduction
    • Planification de workflows avec paramètres
Durée : 2 jour(s)
Tarif : Consultez-nous
Réf : T265-020

Dates des sessions

Nantes (44) Consultez-nous Rennes (35) Consultez-nous Paris (75) Consultez-nous Niort (79) Consultez-nous Nice (06) Consultez-nous in-class™