Dans notre cours de trois jours, apprenez à surveiller, dépanner et améliorer les performances de votre infrastructure et applications sur Google Cloud Platform (GCP).
Axé sur les principes de l’ingénierie de fiabilité du site (SRE), ce programme couvre des sujets clés tels que la surveillance full-stack, la gestion des journaux en temps réel, le débogage du code de production, le traçage des goulots d’étranglement des performances des applications et le profilage de l’utilisation du processeur et de la mémoire.
Vous apprendrez également à définir des indicateurs de niveau de service (SLI) et des objectifs de niveau de service (SLO), créer des tableaux de bord et des alertes de surveillance efficaces, et analyser et exporter les journaux d’audit Google Cloud.
L’optimisation des coûts de surveillance dans Google Cloud fait également partie du programme.
Programme détaillé
Introduction aux outils de surveillance Google Cloud
- Comprendre l’objectif et les capacités des composants Google Cloud axés sur les opérations: journalisation, surveillance, rapports d’erreur et surveillance des services
- Comprendre l’objectif et les capacités des composants Google Cloud composants axés sur la gestion des performances des applications : débogueur, traceur, et profileur
Éviter aux clients des situations douloureuses
- Construire une base de surveillance sur les quatre signaux d’or: latence, trafic, erreurs et saturation
- Mesurez la souffrance des clients avec les SLI
- Définir des mesures de performances critiques
- Créer et utiliser des SLO et SLA
- Atteindre l’harmonie des développeurs et des opérations avec les budgets d’erreur
Surveillance des systèmes critiques
- Choisir les meilleures pratiques de surveillance de projet d’architecture
- Différencier les rôles Cloud IAM pour la surveillance
- Utiliser les tableaux de bord par défaut de manière appropriée
- Créer des tableaux de bord personnalisés pour montrer la consommation des ressources et la charge d’application
- Définir des contrôles de disponibilité pour suivre la vitalité et la latence
Politiques d’alerte
- Développer des stratégies d’alerte
- Définir des politiques d’alerte
- Ajouter des canaux de notification
- Identifier les types d’alertes et les utilisations courantes de chacune
- Construire et alerter sur les groupes de ressources
- Gérer les politiques d’alerte par programmation
Journalisation et analyse avancées
- Identifier et choisir parmi les approches d’étiquetage des ressources
- Définir les récepteurs de journaux (filtres d’inclusion) et les filtres d’exclusion
- Créer des métriques basées sur les journaux
- Définir des métriques personnalisées
- Lier les erreurs d’application à la journalisation à l’aide du rapport d’erreurs
- Exporter les journaux vers BigQuery
Utilisation des journaux d’audit
- Journaux d’audit
- Journalisation des accès aux données
- Format d’entrée des journaux d’audit
- Bonnes pratiques
Configurer les services d’observabilité Google Cloud
- Intégrer des agents de journalisation et de surveillance dans les VM et les images Compute Engine
- Activer et utiliser la surveillance Kubernetes
- Étendre et clarifier la surveillance Kubernetes avec Prometheus
- Exposer des métriques personnalisées via du code et à l’aide de OpenCensus
Surveillance de Google Cloud VPC
- Collecter et analyser les journaux de flux VPC et les journaux des règles de pare-feu
- Activer et surveiller le Packet Mirroring
- Expliquer les capacités de Network Intelligence Center
- Utiliser les journaux d’audit des activités d’administration pour suivre les modifications apportées à la configuration ou aux métadonnées des ressources
- Utiliser les journaux d’audit d’accès aux données pour suivre les accès ou les modifications des données de ressources fournies par l’utilisateur
- Utiliser les journaux d’audit des événements système pour suivre les actions administratives de GCP
Gérer les incidents
- Définir les rôles de gestion des incidents et les canaux de communication
- Atténuer l’impact des incidents
- Dépanner les causes profondes
- Résoudre les incidents
- Documenter les incidents dans un processus post-mortem
Étude des problèmes de performances des applications
- Déboguer le code de production pour corriger les défauts de code
- Tracer la latence à travers les couches d’interaction de service pour éliminer goulots d’étranglement de performance
- Profilage et identification des fonctions gourmandes en ressources dans une application
Optimiser les coûts de surveillance
- Analyser l’utilisation des ressources pour surveiller les composants associés dans Google Cloud
- Mettre en œuvre les meilleures pratiques pour contrôler le coût de la surveillance au sein Google Cloud