L'analyste en intégration de données jouera un rôle clé dans le développement de flux de travail de traitement des données évolutifs et automatisés afin de soutenir les initiatives de science des données en cours. Ce rôle implique la création de pipelines d'ingestion dans Azure Databricks, la conception de flux de travail de nettoyage et de validation des données basés sur Python et PySpark, ainsi que la mise en œuvre des normes de l'entreprise pour garantir une traçabilité complète, une provenance claire des données et des processus reproductibles.
Vos responsabilités :
- Développer des flux de travail automatisés de nettoyage et de validation des données à l'aide de notebooks Python et PySpark, ainsi que de pipelines Databricks, pour soutenir un projet de science des données.
- Créer des pipelines d'ingestion robustes dans Databricks pour charger, traiter et préparer efficacement les données en vue de l'analyse et de la modélisation en aval.
- Garantir la traçabilité complète des méthodologies de nettoyage des données en concevant des flux de travail conformes à l'architecture Medallion (Bronze → Argent → Or), en maintenant une provenance claire et la reproductibilité.
- Mise en place de normes d'entreprise pour les carnets de nettoyage de données afin d'améliorer la lisibilité, la cohérence, la maintenabilité et la facilité de partage entre les équipes.
- Développement de fonctions réutilisables et bien documentées (le cas échéant), lisibles, modulaires et dotées de mécanismes de gestion des erreurs robustes pour garantir un traitement des données évolutif et fiable.