Contexte
Au sein dâun environnement dĂ©fense Ă fortes contraintes (sĂ©curitĂ©, traçabilitĂ©, disponibilitĂ©), vous intĂ©grez une Ă©quipe data en charge de construire et fiabiliser une plateforme de donnĂ©es et des pipelines industrialisĂ©s pour des cas dâusage Ă fort impact opĂ©rationnel.
Vos missions
Concevoir et dĂ©velopper des pipelines dâingestion / transformation robustes (batch et selon besoin, streaming).
Industrialiser lâorchestration (planification, dĂ©pendances, relances, SLA) via un orchestrateur type Airflow.
Traiter et transformer la donnĂ©e Ă lâĂ©chelle via Spark / PySpark (performance, partitionnement, optimisation).
Structurer les couches de transformation et la qualitĂ© des donnĂ©es avec une approche âdata productsâ (tests, documentation, rĂšgles de qualitĂ©), potentiellement via dbt si pertinent.
Mettre en place lâobservabilitĂ© : logs, mĂ©triques, alerting, dashboards, suivi de qualitĂ© et traçabilitĂ©.
Contribuer aux choix dâarchitecture (formats, stockage, modĂšles, conventions, outillage), en gardant en tĂȘte les contraintes sĂ©curitĂ© / conformitĂ©.
Travailler en transverse avec les équipes logiciel, infra et cyber (revues, durcissement, bonnes pratiques).
Environnement technique
On sâaligne sur des briques Ă©prouvĂ©es data engineering modernes; le mix exact dĂ©pendra de lâarchi projet, mais lâADN reste : Python / industrialisation / data platform.
Langages : Python (expert), SQL
Orchestration : Apache Airflow (DAGs, scheduling, monitoring)
Processing : Apache Spark / PySpark (batch + éventuel streaming)
Transformation : dbt (optionnel mais trÚs apprécié)
Data stack : formats colonne (Parquet), lake/lakehouse (selon contexte), API / fichiers / bases
Ops : Git, CI/CD, Docker (Kubernetes apprécié), tests (pytest), qualité (Great Expectations apprécié)
Monitoring : Grafana/Prometheus/ELK
alten