Kurszusammenfassung
Professioneller Cloud-DevOps-Ingenieur
Professionelle Cloud-DevOps-Ingenieure implementieren Prozesse über den gesamten Lebenszyklus der Systementwicklung hinweg mithilfe von von Google empfohlenen Methoden und Tools. Sie entwickeln und implementieren Software- und Infrastrukturbereitstellungspipelines, optimieren und warten Produktionssysteme und -dienste und sorgen für ein ausgewogenes Verhältnis zwischen Servicezuverlässigkeit und Bereitstellungsgeschwindigkeit.
Die Prüfung zum Professional Cloud DevOps Engineer bewertet Ihre Fähigkeiten:
Bootstrapping einer Google Cloud-Organisation für DevOps
Erstellen und implementieren Sie CI/CD-Pipelines für einen Dienst
Wenden Sie Site Reliability Engineering-Praktiken auf einen Dienst an
Implementieren Sie Strategien zur Dienstüberwachung
Optimieren Sie die Serviceleistung
Abschnitt 1: Bootstrapping einer Google Cloud-Organisation für DevOps (~17 % der Prüfung)
1.1 Gestaltung der gesamten Ressourcenhierarchie einer Organisation. Zu den Überlegungen gehören:
● Projekte und Ordner
● Gemeinsam genutzte Netzwerke
● Identity and Access Management (IAM)-Rollen und Richtlinien auf Organisationsebene
● Erstellen und Verwalten von Dienstkonten
1.2 Infrastruktur als Code verwalten. Zu den Überlegungen gehören:
● Infrastruktur als Code-Tooling (z. B. Cloud Foundation Toolkit, Config Connector, Terraform, Helm)
● Vornehmen von Infrastrukturänderungen mithilfe der von Google empfohlenen Vorgehensweisen und Infrastruktur-als-Code-Blaupausen
● Unveränderliche Architektur
1.3 Entwurf eines CI/CD-Architektur-Stacks in Google Cloud-, Hybrid- und Multi-Cloud-Umgebungen. Zu den Überlegungen gehören:
● CI mit Cloud Build
● CD mit Google Cloud Deploy
● Weit verbreitete Tools von Drittanbietern (z. B. Jenkins, Git, ArgoCD, Packer)
● Sicherheit der CI/CD-Tools
1.4 Verwaltung mehrerer Umgebungen (z. B. Staging, Produktion). Zu berücksichtigen sind:
● Bestimmen der Anzahl der Umgebungen und ihres Zwecks
● Dynamisches Erstellen von Umgebungen für jeden Feature-Zweig mit Google Kubernetes Engine (GKE) und Terraform
● Konfigurationsverwaltung
Abschnitt 2: Erstellen und Implementieren von CI/CD-Pipelines für einen Dienst (~23 % der Prüfung)
2.1 Entwurf und Verwaltung von CI/CD-Pipelines. Zu den Überlegungen gehören:
● Artefaktverwaltung mit Artifact Registry
● Bereitstellung in Hybrid- und Multi-Cloud-Umgebungen (z. B. Anthos, GKE)
● CI/CD-Pipeline-Trigger
● Testen einer neuen Anwendungsversion in der Pipeline
● Konfigurieren von Bereitstellungsprozessen (z. B. Genehmigungsabläufen)
● CI/CD von serverlosen Anwendungen
2.2 Implementierung von CI/CD-Pipelines. Zu den Überlegungen gehören:
● Überwachung und Nachverfolgung von Bereitstellungen (z. B. Artifact Registry, Cloud Build, Google Cloud Deploy, Cloud Audit Logs)
● Bereitstellungsstrategien (z. B. Canary, Blue/Green, Rolling, Traffic-Splitting)
● Rollback-Strategien
● Fehlerbehebung bei Bereitstellungsproblemen
2.3 Verwalten der CI/CD-Konfiguration und Geheimnisse. Zu den Überlegungen gehören:
● Sichere Speichermethoden und Schlüsselrotationsdienste (z. B. Cloud Key Management Service, Secret Manager)
● Geheimverwaltung
● Build- versus Laufzeit-Geheimniseinfügung
2.4 Sichern der CI/CD-Bereitstellungspipeline. Zu den Überlegungen gehören:
● Schwachstellenanalyse mit Artifact Registry
● Binäre Autorisierung
● IAM-Richtlinien pro Umgebung
Abschnitt 3: Anwendung von Site Reliability Engineering-Praktiken auf einen Dienst (~23 % der Prüfung)
3.1 Abwägung von Änderungen, Geschwindigkeit und Zuverlässigkeit des Dienstes. Zu den Überlegungen gehören:
● SLIs ermitteln (z. B. Verfügbarkeit, Latenz)
● SLOs definieren und SLAs verstehen
● Fehlerbudgets
● Arbeitsautomatisierung
● Opportunitätskosten von Risiko und Zuverlässigkeit (z. B. Anzahl der „Neunen“)
3.2 Verwaltung des Service-Lebenszyklus. Zu den Überlegungen gehören:
● Servicemanagement (z. B. Einführung eines neuen Dienstes mithilfe einer Checkliste zur Onboardingvorbereitung, eines Einführungsplans oder eines Bereitstellungsplans, Bereitstellung, Wartung und Außerbetriebnahme)
● Kapazitätsplanung (z. B. Quoten- und Limitverwaltung)
● Automatische Skalierung mithilfe verwalteter Instanzgruppen, Cloud Run, Cloud Functions oder GKE
● Implementierung von Feedbackschleifen zur Verbesserung eines Dienstes
3.3 Sicherstellung einer reibungslosen Kommunikation und Zusammenarbeit im Betrieb. Zu den Überlegungen gehören:
● Burnout vorbeugen (z. B. durch Einrichten von Automatisierungsprozessen zur Burnout-Prävention)
● Förderung einer Kultur des Lernens und der Schuldlosigkeit
● Gemeinsame Verantwortung für Dienste schaffen, um Team-Silos zu beseitigen
3.4 Minderung der Auswirkungen von Vorfällen auf Benutzer. Zu den Überlegungen gehören:
● Kommunikation während eines Vorfalls
● Datenverkehr ableiten/umleiten
● Kapazität hinzufügen
3.5 Durchführung einer Obduktion. Zu den Überlegungen gehören:
● Dokumentieren der Grundursachen
● Erstellen und Priorisieren von Aktionselementen
● Kommunikation der Postmortem-Analyse an die Stakeholder
Abschnitt 4: Implementierung von Service-Monitoring-Strategien (~21 % der Prüfung)
4.1 Protokollverwaltung. Zu berücksichtigen sind:
● Sammeln strukturierter und unstrukturierter Protokolle von Compute Engine, GKE und serverlosen Plattformen mithilfe von Cloud Logging
● Konfigurieren des Cloud Logging-Agenten
● Sammeln von Protokollen von außerhalb der Google Cloud
● Anwendungsprotokolle direkt an die Cloud Logging API senden
● Protokollebenen (z. B. Info, Fehler, Debug, Fatal)
● Optimieren von Protokollen (z. B. mehrzeilige Protokollierung, Ausnahmen, Größe, Kosten)
4.2 Verwalten von Metriken mit Cloud Monitoring. Zu den Überlegungen gehören:
● Sammeln und Analysieren von Anwendungs- und Plattformmetriken
● Sammeln von Netzwerk- und Service-Mesh-Metriken
● Verwenden des Metrics Explorers für die Ad-hoc-Metrikanalyse
● Erstellen benutzerdefinierter Messwerte aus Protokollen
4.3 Verwalten von Dashboards und Warnmeldungen in Cloud Monitoring. Zu berücksichtigen sind:
● Erstellen eines Überwachungs-Dashboards
● Dashboards filtern und freigeben
● Konfigurieren von Warnmeldungen
● Definieren von Warnrichtlinien basierend auf SLOs und SLIs
● Automatisierung der Definition von Warnrichtlinien mit Terraform
● Verwenden des Google Cloud Managed Service für Prometheus zum Erfassen von Messdaten und Einrichten von Überwachung und Warnmeldungen
4.4 Verwalten der Cloud-Logging-Plattform. Zu berücksichtigen sind:
● Aktivieren von Datenzugriffsprotokollen (z. B. Cloud-Audit-Protokolle)
● Aktivieren von VPC-Flow-Protokollen
● Protokolle in der Google Cloud Console anzeigen
● Verwenden einfacher und erweiterter Protokollfilter
● Protokollausschluss versus Protokollexport
● Export auf Projektebene im Vergleich zu Export auf Organisationsebene
● Verwalten und Anzeigen von Protokollexporten
● Senden von Protokollen an eine externe Protokollierungsplattform
● Filtern und Schwärzen sensibler Daten (z. B. persönlich identifizierbare Informationen [PII], geschützte Gesundheitsinformationen [PHI])
4.5 Implementierung von Protokollierungs- und Überwachungszugriffskontrollen. Zu berücksichtigen sind:
● Einschränken des Zugriffs auf Prüfprotokolle und VPC-Flow-Protokolle mit Cloud Logging
● Einschränken der Exportkonfiguration mit Cloud Logging
● Ermöglichen des Schreibens von Metriken und Protokollen mit Cloud Monitoring
Abschnitt 5: Optimierung der Serviceleistung (~16 % der Prüfung)
5.1 Identifizierung von Problemen mit der Serviceleistung. Zu den Überlegungen gehören:
● Verwenden der Operations Suite von Google Cloud zur Ermittlung der Cloud-Ressourcenauslastung
● Interpretation der Service Mesh-Telemetrie
● Beheben von Problemen mit Rechenressourcen
● Fehlerbehebung bei Bereitstellungs- und Laufzeitproblemen mit Anwendungen
● Beheben von Netzwerkproblemen (z. B. VPC-Flow-Protokolle, Firewall-Protokolle, Latenz, Netzwerkdetails)
5.2 Implementierung von Debugging-Tools in Google Cloud. Zu den Überlegungen gehören:
● Anwendungsinstrumentierung
● Cloud-Protokollierung
● Cloud Trace
● Fehlerberichterstattung
● Cloud Profiler
● Cloud-Überwachung
5.3 Optimierung der Ressourcennutzung und der Kosten. Zu den Überlegungen gehören:
● Präemptive/Spot-virtuelle Maschinen (VMs)
● Rabatte für nutzungsgebundene Leistungen (z. B. flexibel, ressourcenbasiert)
● Rabatte bei kontinuierlicher Nutzung
● Netzwerkebenen
● Größenempfehlungen
Andere beliebte Kurse
Executive Cyber Risk-Zertifizierung (ECRC)
- Dauer: 2 Tage
- Sprache: Englisch
- Ebene: Fortgeschrittener
- Prüfung: ECRC
Kommunikations- und Präsentationstechniken meistern …
- Dauer: 4 Tage
- Sprache: Dänisch
- Ebene: Fortgeschrittener
- Prüfung: MCPT
Achtsamkeit der nächsten Generation
- Dauer: 1 Tage
- Sprache: Englisch
- Ebene: Stiftung
- Prüfung: NGM