Dans le cadre du développement du DatahubV2, nous recherchons un Data Engineer confirmé maßtrisant les environnements Java, Spark et les architectures Data modernes.
Vous interviendrez au sein de l'Ă©quipe Socle Data et serez responsable de la construction, lâoptimisation et la fiabilisation des pipelines data, tout en garantissant les bonnes pratiques de dĂ©veloppement et de performance.
Vos missions principales :
- Concevoir, développer et optimiser des pipelines de données performants (batch, calcul distribué).
- Développer des traitements Spark 3 instanciés sur Kubernetes (Spark as a Service).
- Manipuler les données du DatahubV2 via Starburst (Trino) en SQL.
- Construire et orchestrer des workflows Data sur Astronomer / Apache Airflow en Python.
- Réaliser les intégrations applicatives en Java (et potentiellement Scala selon les applications).
- Assurer la qualité, la performance et la fiabilité des jobs Data.
- Contribuer Ă la mise en place et Ă la maintenance des pipelines DevOps (Gitlab, Jenkins, ArgoCDâŠ).
- Suivre et analyser les logs applicatifs via ELK (Log as a Service).
- CoopĂ©rer avec lâĂ©quipe Socle Data, utiliser et faire Ă©voluer les librairies Python internes.
- Participer à la documentation et à l'amélioration continue des pratiques Data du DatahubV2.
𧰠Technologies & Compétences requises
Compétences Data / Big Data
- Spark 3 â Java ou Scala â AvancĂ©
- Traitements distribués, performance, optimisation, exécution sur Kubernetes.
- Starburst (Trino) â SQL â Moyen
- RequĂȘtage SQL interactif, combinaison multi-sources, comprĂ©hension du SEP.
- Apache Airflow / Astronomer â Python â Moyen
- Création, planification et supervision de DAGs, orchestration de workflows.
Compétences Cloud / Infrastructure
- Kubernetes, COS (S3), Vault â Bas
- Compréhension des environnements cloud de la DMZR.
- Log as a Service (ELK) â Moyen
- Dashboarding, gestion et analyse des logs.
Compétences DevOps
- Gitlab, Jenkins, ArgoCD, Ansible â Go / Yaml â Bas
- Gestion et évolution de pipelines CI/CD basés sur des templates existants.
Langages
- Java â Moyen
- SQL â Moyen
- Python â Moyen
- Scala â Moyen