Dans le cadre de notre développement, nous accompagnons nos clients grands comptes du secteur retail sur leurs projets de transformation cloud.
🔎 Votre rôle : Consultant SRE (Site Reliability Engineer) – Environnement GCP
En tant que SRE, vous interviendrez sur l’ensemble du cycle de vie des plateformes et serez garant de leur fiabilité, disponibilité et performance.
🎯 Vos missions détaillées :
🔧 Fiabilité & Performance des systèmes
- Garantir la haute disponibilité des applications critiques (SLA/SLO)
- Définir et suivre les indicateurs de performance (SLI)
- Identifier les goulots d’étranglement et proposer des optimisations (latence, throughput, scalabilité)
- Mettre en œuvre des stratégies de capacity planning et d’auto-scaling
⚙️ Automatisation & Industrialisation
- Automatiser les tâches récurrentes d’exploitation (run) via scripting (Python, Bash)
- Mettre en place des pipelines CI/CD robustes et sécurisés
- Déployer et maintenir des infrastructures via Infrastructure as Code (Terraform)
- Participer à la standardisation des environnements (templates, modules réutilisables)
☁️ Expertise Cloud GCP
- Concevoir, déployer et maintenir des architectures sur Google Cloud Platform
- Administrer des environnements Kubernetes (GKE)
- Optimiser l’utilisation des services GCP (compute, storage, networking)
- Assurer la gestion des coûts (FinOps / optimisation budgétaire)
📊 Monitoring & Observabilité
- Mettre en place et améliorer les outils de monitoring, logging et tracing
- Configurer des alertes pertinentes et réduire le bruit (alert fatigue)
- Exploiter des outils comme Cloud Monitoring, Prometheus, Grafana
- Mettre en place des dashboards orientés métier et technique
🚨 Gestion des incidents & amélioration continue
- Participer aux astreintes et à la gestion des incidents de production
- Conduire des analyses post-incidents (post-mortem, RCA)
- Mettre en place des plans d’actions pour éviter la récurrence
- Définir et améliorer les processus d’exploitation (runbooks, playbooks)
🔐 Sécurité & conformité
- Intégrer les bonnes pratiques de sécurité cloud (IAM, gestion des accès, secrets)
- Participer aux audits et à la mise en conformité des environnements
- Assurer la résilience face aux incidents de sécurité
🤝 Collaboration & culture DevOps
- Travailler en étroite collaboration avec les équipes Dev, Ops et Architectes Cloud
- Accompagner les équipes dans l’adoption des pratiques SRE / DevOps
- Participer aux rituels Agile (daily, sprint, retrospective)
- Documenter les architectures et les प्रक्रess techniques
🛠️ Environnement technique :
- Cloud : GCP (Google Cloud Platform)
- Conteneurisation : Kubernetes (GKE), Docker
- IaC : Terraform
- CI/CD : GitLab CI, Jenkins ou équivalent
- Monitoring : Prometheus, Grafana, Cloud Monitoring (Stackdriver)
- Scripting : Python, Bash