Descrição do trabalho
Sobre a vaga
Estamos em busca de um Especialista de SRE (Site Reliability Engineering) para integrar nossa equipe responsável pela confiabilidade e resiliência de nossos produtos.
O profissional será peça-chave na sustentação e evolução de soluções críticas, garantindo alta disponibilidade, desempenho, observabilidade e automação em um ambiente complexo e de grande escala.
Responsabilidades
- Atuar como referência técnica em SRE para os produtos de Identity & Fraud, apoiando equipes de desenvolvimento e operações.
- Definir, implementar e monitorar SLIs, SLOs e SLAs alinhados aos objetivos de negócio.
- Conduzir análises de incidentes, propondo ações preventivas e corretivas para evitar recorrências.
- Automatizar processos de provisionamento, deploy, escalabilidade e recuperação de falhas.
- Projetar e manter soluções de observabilidade (logs, métricas, traces e alertas).
- Participar da engenharia de capacidade e performance, garantindo que os sistemas suportem a demanda de forma previsível.
- Apoiar a evolução arquitetural para resiliência, escalabilidade e segurança dos sistemas de Identity & Fraud.
- Promover boas práticas de infraestrutura como código, CI/CD e gestão de mudanças seguras.
- Atuar em operações críticas, realizando troubleshooting e mitigação de problemas em tempo real.
Requisitos
- Experiência sólida em SRE, DevOps ou Engenharia de Produção em ambientes de missão crítica.
- Domínio em Kubernetes, Docker e plataformas de nuvem (AWS, OCI, Azure e GCP).
- Conhecimentos avançados em automação e infraestrutura como código (Terraform, Ansible, etc.).
- Experiência com monitoramento e observabilidade (Prometheus, Grafana, ELK, Datadog, etc.).
- Vivência em pipelines de CI/CD e boas práticas de versionamento e deploy.
- Forte capacidade de análise de performance, troubleshooting e otimização de sistemas distribuídos.
- Conhecimentos em bancos de dados relacionais e não relacionais.
- Habilidade para trabalhar em parceria com times de desenvolvimento, produto e operações.
- Boa comunicação, visão sistêmica e foco em resolução de problemas complexos.
Desejável
- Experiência com resiliência em sistemas de identidade e fraude.
- Certificações em cloud (AWS, OCI, Azure ou GCP).
- Experiência com engenharia de caos e testes de resiliência.
- Conhecimentos em segurança de aplicações e infraestrutura.