Descrição do trabalho
Sobre a vaga
Estamos em busca de um Analista de SRE II (Site Reliability Engineering) para integrar nossa equipe responsável pela confiabilidade e resiliência de nossos produtos.
Você fará parte do time responsável pela confiabilidade, escalabilidade e segurança dos produtos de prevenção a fraude. Atuamos com sistemas críticos, de alta disponibilidade, com forte integração entre APIs, microsserviços e plataformas cloud-native.
Responsabilidades
- Garantir a alta disponibilidade, performance e resiliência dos serviços
- Definir, implementar e evoluir SLIs, SLOs e SLAs dos serviços
- Atuar na resposta a incidentes (on-call), análise de causa raiz (RCA) e implementação de melhorias contínuas
- Criar e manter dashboards, alertas e observabilidade ponta a ponta (logs, métricas e traces)
- Automatizar processos operacionais (runbooks, auto-healing, deploys, testes de resiliência)
- Trabalhar em conjunto com times de desenvolvimento para melhorar a confiabilidade desde o design (shift-left reliability)
- Apoiar estratégias de capacity planning e testes de carga (ex: K6)
- Garantir práticas de segurança e conformidade, especialmente em fluxos de autenticação e antifraude
- Evoluir pipelines CI/CD com foco em qualidade, segurança e redução de falhas em produção
Requisitos
- Experiência com práticas de Site Reliability Engineering (SRE)
- Conhecimento em cloud (AWS, OCI, Azure ou GCP)
- Experiência com containers e orquestração (Docker / Kubernetes)
- Vivência com ferramentas de observabilidade (ex: Prometheus, Grafana, ELK, Datadog)
- Experiência com automação (Python, Bash ou similar)
- Conhecimento em CI/CD (Bitbucket Pipelines, GitHub Actions, etc.)
- Experiência com troubleshooting em ambientes distribuídos
- Conhecimentos em bancos de dados relacionais e não relacionais.
- Habilidade para trabalhar em parceria com times de desenvolvimento, produto e operações.
- Boa comunicação, visão sistêmica e foco em resolução de problemas complexos.
Desejável
- Experiência com soluções de prevenção à fraude
- Conhecimento em testes de carga (ex: Grafana K6)
- Experiência com segurança em APIs (rate limiting, WAF, bot protection)
- Vivência com ferramentas de scanning de vulnerabilidades (ex: Trivy, Wiz)
- Experiência com bancos NoSQL (ex: DocumentDB, DynamoDB)