
Thèse sur le développment d'un système de gestion et de réutilisation de pipelines analytiques guidé pa
Référence : UMR5217-SIHAME-014
- Fonction publique : Fonction publique de l'État
- Employeur : Centre national de la recherche scientifique (CNRS)
- Localisation : 38058 ST MARTIN D HERES (France)
Partager la page
Veuillez pour partager sur Facebook, Twitter et LinkedIn.
- Nature de l’emploi Emploi ouvert uniquement aux contractuels
- Nature du contrat Non renseigné
- Expérience souhaitée Non renseigné
-
Rémunération Fourchette indicative pour les contractuels La rémunération est d'un minimum de 2200,00 € mensuel € brut/an Fourchette indicative pour les fonctionnaires Non renseignée
- Catégorie Catégorie A (cadre)
- Management Non renseigné
- Télétravail possible Non renseigné
Vos missions en quelques mots
Sujet de thèse :
L'exploration de données est le processus d'interrogation progressive d'un ensemble de données. L'approche la plus courante consiste à générer des pipelines d'opérateurs dont le but est de transformer les données pour accomplir une tâche. Ces opérateurs incluent des actions d'exploration et de synthèse, ainsi que des appels aux modèles pré-entraînés tels que les modèles de langue et l’apprentissage par renforcement. Il existe de nombreuses méthodes d'apprentissage par renforcement dont le but est de générer une politique d'exploration produisant un pipeline [1, 2, 3]. Par exemple, dans le cas de l'éducation, un pipeline servirait un objectif d'apprentissage spécifique, c'est-à-dire une tâche, comme la réduction des écarts d'apprentissage [4]. L’entraînement des modèles est coûteux tant sur le plan temporel que monétaire. De plus, les modèles, et plus généralement, les pipelines qui les utilisent, ont un impact non négligeable sur l’environnement.
L’objectif de cette thèse est de développer un système et des algorithmes de gestion de pipelines analytiques qui favorisent la réutilisation de pipelines pour de futures tâches d’exploration de données. Ce travail se distingue par son focus sur la caractérisation de ces pipelines par des méta-donnés reflétant les résultats de leur évaluation Data/System/Human. Pour ce faire, les contributions scientifiques seront : (1) le design d’opérateurs expressifs pour représenter les pipelines analytiques [ADD REF DocETL] (2) le design d’un backend de stockage et d’extraction des pipelines (3) la formalisation et la résolution de problèmes d’optimisation multi-objective (impliquant les dimensions Data/System/Human) pour la recherche et la réutilisation de pipelines permettant d’exécuter une tâche (4) la validation empirique de ce travail pour une variété de tâches d'exploration de données.
Etat de l’art : Le travail de recherche de cette thèse est lié à deux axes de recherche actuels : (1) la réutilisabilité de modèles ML, et (2) les systèmes déclaratifs de définition et d’exécution de pipelines. Concernant (1), les travaux concernent la réutilisabilité des modèles ML lors de l’entraînement, comme les systèmes AutoML/VirnyFlow, ou lors de l’inférence. Concernant (2), il s’agit des systèmes tels que PALIMPZEST et LOTUS qui proposent un langage déclaratif pour faciliter la spécification de pipelines et une approche pour optimiser leur exécution. Cette thèse se place dans le cadre de la réutilisabilité lors de l’inférence dont elle se distingue en ajoutant une couche d’optimisation afin de choisir parmi les pipelines à réutiliser.
Tâches :
Etat de l’art sur (1) la réutilisabilité dans l'inférence des politiques en apprentissage par renforcement, (2) les systèmes AutoML/VirnyFlow dédiés à l’entraînement de modèles ML, et (3) systèmes déclaratifs de définition et d’exécution de pipelines tels que PALIMPZEST et LOTUS
Design de tâches d’exploratio
Voir plus sur le site emploi.cnrs.fr...
Profil recherché
Contraintes et risques :
Le poste est situé dans une zone soumise à la législation française relative à la protection du potentiel scientifique et technique (PPST) et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du ministère de l'Enseignement supérieur et de la Recherche (MESR).
Niveau d'études minimum requis
- Niveau Niveau 7 Master/diplômes équivalents
- Spécialisation Formations générales
Langues
- Français Seuil
Qui sommes-nous ?
Le Centre national de la recherche scientifique est un organisme public de recherche pluridisciplinaire placé sous la tutelle du ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation.
C’est l’une des plus importantes institutions publiques au monde : 33 000 femmes et hommes (dont plus de 16 000 chercheurs et plus de 16 000 ingénieurs et techniciens), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines.
Depuis plus de 80 ans, le CNRS développe des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit entre ses missions de recherche et le transfert vers la société fait du CNRS un acteur clé de l’innovation en France et dans le monde.
Le partenariat qui lie le CNRS avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires témoignent du potentiel économique de ses travaux de recherche.
À propos de l'offre
-
Le Centre national de la recherche scientifique est l’une des plus importantes institutions publiques au monde : 34 000 femmes et hommes (plus de 1 000 laboratoires et 200 métiers), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines. Depuis plus de 80 ans, y sont développées des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit que le CNRS tisse entre ses missions de recherche et le transfert vers la société fait de lui un acteur clé de l’innovation en France et dans le monde. Le partenariat qui le lie avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires (près de 100 chaque année) témoignent du potentiel économique de ses travaux de recherche.
-
Vacant
-
Chercheuse / Chercheur