Data Engineer (MLOPS) - Plateforme Données Massives AP-HP F/H

Référence : APHP_2024-12480

  • Fonction publique : Fonction publique Hospitalière
  • Employeur : Siège de l'AP-HP
  • Localisation : Paris (75), France

Partager la page

Veuillez pour partager sur Facebook, Twitter et LinkedIn.

  • Nature de l’emploi Emploi ouvert aux titulaires et aux contractuels
  • Expérience souhaitée Non renseigné
  • Rémunération (fourchette indicative pour les contractuels) Non renseigné
  • Catégorie Non renseigné
  • Management Non renseigné
  • Télétravail possible Non renseigné

Vos missions en quelques mots

Nous recherchons un.e ingénieur de la donnée (Data Engineer) passionné.e, avec une spécialisation en MLOps, pour rejoindre notre équipe dédiée à la conception, l'intégration et au déploiement des données massives au sein de l'Environnement de Données de Santé de l'AP-HP. Vous jouerez un rôle crucial pour garantir que les données sont sécurisées et optimisées pour divers projets de recherche, pilotage stratégique et aide à la décision au siège de l'AP-HP.
En tant qu’expert.e en MLOps, vous assurerez la robustesse, la reproductibilité et l’évolutivité des modèles de machine learning, en étroite collaboration avec l’équipe Data Science.
Vous interviendrez sur l’ensemble du cycle de vie des données, de leur ingestion à leur exploitation, tout en participant à l'industrialisation des processus sur notre infrastructure Kubernetes.
Votre quotidien sera rythmé par des missions variées, parmi lesquelles :
- Conception et développement de solutions de traitement de données : Concevoir et développer des pipelines complexes pour la collecte, la transformation, la standardisation, et le stockage des données, tout en tenant compte de leur typologie spécifique (imagerie, voix, signaux physiologiques, etc.).
- Intégration d'algorithmes ML/Deep Learning : Incorporer des algorithmes d’analyse avancés et des méthodes de Machine Learning/Deep Learning au sein des pipelines de données, en fonction des besoins des utilisateurs.
- Optimisation de la performance dans un contexte Big Data : Améliorer la performance des pipelines de traitement de données en pour gérer efficacement des volumes massifs de données.
- Sécurisation et conformité : Veiller à la sécurisation des outils et applications développés, en assurant la protection des données sensibles et le respect des réglementations en vigueur (pseudonymisation, RGPD, etc.).
- Maintenance opérationnelle : Assurer la disponibilité et la performance continue des outils développés, en mettant en place les outils nécessaires à leur maintenance en condition opérationnelle.
- Documentation technique et utilisateur : Rédiger et maintenir à jour la documentation technique ainsi que la documentation utilisateur pour garantir une compréhension et une utilisation optimale des solutions mises en place.
- Contribution à la communauté Open Source : Participer activement à l’animation de la communauté Open Source autour des projets développés (gestion des bugs, suggestions d’améliorations, pull requests, etc.).
- Conception d'outils d'annotation de données médicales : Collaborer à la création d'outils dédiés à l'annotation de données médicales pour soutenir l’entraînement de modèles ML/Deep Learning et favoriser l’émergence de l’intelligence artificielle au sein de l'AP-HP.
- Veille technologique et transfert de compétences : Assurer une veille technologique régulière pour rester à la pointe des innovations dans le domaine et diffuser ces connaissances au sein de l’équipe, renforçant ainsi notre expertise collective.

Profil recherché

Diplôme : École d’ingénieur, informatique, data science, ou domaine connexe. (Bac +5)
Niveau d’expérience : Minimum 5 ans d'expérience en tant que Data Engineer, avec une spécialisation en MLOps et une expérience significative dans des environnements Big Data.

Compétences requises :
- Développement logiciel : Très bonne maitrise des langages de programmation Python et Scala. Également des langages de “scripting” comme Bash.
- Gestion des pipelines de données : Capacité à concevoir, développer et optimiser des pipelines de traitement de données à grande échelle, en utilisant des technologies comme Apache Spark, Polars, ou équivalent.
- Infrastructure et DevOps : Expérience avec des environnements on-premise (et optionnellement Cloud) et des outils DevOps (Docker, Kubernetes, Terraform) pour le déploiement et la gestion des infrastructures.
- Gestion et exploitation des bases de données/des systèmes de stockage : Maîtrise des solutions de stockage et gestion des bases de données (Hive, Hbase, Solr, Kafka, PostgreSQL, S3, etc.), adaptées à des données structurées et non structurées. Très bonne maitrise également des langages associés comme SQL, Lucene, etc.
- Backend/API : Connaissance des architectures backends/API et des solutions associées comme Spring Boot, Fast API, etc.
- Intégration et déploiement de modèles ML/AI : Expérience dans l’intégration de modèles de machine learning et deep learning dans des pipelines de production, avec une attention particulière à la scalabilité et à l’optimisation. Maîtrise des concepts et outils MLOps, tels que CI/CD pour ML, déploiement de modèles, surveillance, et maintenance de pipelines ML.
- Sécurisation des données et conformité : Connaissance approfondie des meilleures pratiques de sécurisation des données, en conformité avec les réglementations en vigueur (notamment RGPD).
- Gestion de projet en méthodologie Agile : Expérience dans la gestion de projets utilisant des méthodologies Agile (Scrum, Kanban), incluant la planification des sprints, la gestion du backlog, l'animation des cérémonies Agile (daily stand-ups, rétrospectives, etc.), et la collaboration étroite avec les équipes pour garantir des livraisons incrémentales et de haute qualité.
- Documentation technique et fonctionnelle : Capacité à rédiger des documentations techniques claires et détaillées, ainsi que des guides utilisateurs, pour assurer une bonne compréhension et utilisation des outils développés.
- Veille technologique

Apprécié :

- Connaissance du standard d’interopérabilité HL7-FHIR et autres protocoles et standards en informatique de santé (HL7 v2, Dicom, etc.)
- Connaissances en administration d’environnements Linux
- Connaissance en statistiques
- Connaissance des bonnes pratiques de sécurité informatique
- Connaissance dans le domaine de la santé

Savoir-faire et savoir être :
- Autonomie
- Capacité à challenger
- Esprit collaboratif
- Orientation solution et service utilisateur
- Innovation et créativité

À propos de l'offre

  • Cheffe / Chef de projet maitrise d'œuvre SI

D'autres offres pourraient vous intéresser

  • Directeur de projet ''Cadrage''

    • Numérique

    • Localisation : Paris (75)
    • Fonction publique : Fonction publique de l'État
    • Employeur : AC/SG
    • En ligne depuis le 03 octobre 2024
    Ministère de l'Agriculture, de la Souveraineté alimentaire et de la Forêt
  • Chargé de valorisation de l'offre de service du SNUM

    • Numérique

    • Localisation : Paris (75)
    • Fonction publique : Fonction publique de l'État
    • Employeur : AC/SG
    • En ligne depuis le 17 octobre 2024
    Ministère de l'Agriculture, de la Souveraineté alimentaire et de la Forêt
  • Analyste en réponse en incidents

    • Numérique

    • Localisation : Paris (75)
    • Fonction publique : Fonction publique de l'État
    • Employeur : AC/SG
    • En ligne depuis le 17 octobre 2024
    Ministère de l'Agriculture, de la Souveraineté alimentaire et de la Forêt