Apprentissage de représentations et tokenisation multimodale pour les modèles de fondation en sciences
Référence : UMR6072-FREJUR0-014-02
- Fonction publique : Fonction publique de l'État
- Employeur : Centre national de la recherche scientifique (CNRS)
- Localisation : 14032 CAEN (France)
Partager la page
Veuillez pour partager sur Facebook, Twitter et LinkedIn.
- Nature de l’emploi Emploi ouvert uniquement aux contractuels
-
Nature du contrat
CDD d'1 an
- Expérience souhaitée Non renseigné
-
Rémunération Fourchette indicative pour les contractuels de 3072€ à 4 439€ brut selon expérience € brut/an Fourchette indicative pour les fonctionnaires Non renseignée
- Catégorie Catégorie A (cadre)
- Management Non renseigné
- Télétravail possible Non renseigné
Vos missions en quelques mots
Missions :
Les travaux de recherche se situent dans le domaine de l'intelligence artificielle pour les sciences (AI for Science). La mission principale consiste à lever les verrous technologiques liés à la représentation de données scientifiques complexes (graphes, structures 3D, spectres) au sein de modèles de fondation. Le/la postdoctorant(e) devra concevoir des stratégies de "tokenisation" innovantes permettant d'intégrer ces données non-linguistiques dans des architectures de type Transformer, en garantissant la préservation des propriétés géométriques et topologiques.
Activités :
Réaliser un état de l'art sur l'apprentissage de représentations (SSL, Geometric DL) appliqué aux sciences.
Développer et implémenter des algorithmes de tokenisation pour les graphes moléculaires, les structures 3D et les signaux spectraux.
Entraîner et évaluer des modèles de fondation multimodaux sur des clusters de calcul (Jean Zay, CRIAN).
Collaborer avec les experts métier (physiciens, chimistes) pour valider la pertinence scientifique des représentations apprises.
Rédiger des articles scientifiques pour les conférences et revues majeures (NeurIPS, ICML, ICLR, ou revues spécialisées en physique/matériaux).
Présenter les avancées du projet lors de séminaires et conférences internationales.
Contexte de travail :
Le projet s'inscrit dans une collaboration unique entre trois laboratoires de l'Université de Caen / CNRS / ENSICAEN : le GREYC (Sciences du numérique), le CRISMAT (Science des matériaux) et le LPC (Physique subatomique). Le candidat bénéficiera d'un environnement de recherche interdisciplinaire stimulant et d'un accès privilégié à des ressources de calcul intensif locales et nationales (Jean Zay). Le poste est basé à Caen, ville dynamique située à 2h de Paris.
Profil recherché
Competences :
Formation : Doctorat en Informatique, Intelligence Artificielle, Mathématiques Appliquées ou Physique/Chimie numérique avec une forte composante ML.
Technique : Maîtrise approfondie du Deep Learning (Transformers, GNNs, Auto-encodeurs).
Programmation : Excellente maîtrise de Python et des frameworks PyTorch ou TensorFlow/JAX.
Outils : Expérience de l'entraînement sur GPU et de la gestion de données volumineuses.
Soft skills : Forte autonomie, curiosité intellectuelle et capacité à communiquer dans un environnement interdisciplinaire.
Langues : Anglais scientifique courant (écrit et oral).
Contraintes et risques :
Manipulation de jeux de données scientifiques hétérogènes et de grande dimension.
Gestion des temps de calcul et optimisation des ressources sur cluster (SLURM).
Déplacements ponctuels pour les réunions de coordination entre les trois laboratoires et pour les conférences.
Respect des règles de sécurité informatique liées à l'accès aux centres de calcul nationaux.
Niveau d'études minimum requis
- Niveau Niveau 8 Doctorat/diplômes équivalents
- Spécialisation Formations générales
Langues
- Français Seuil
Qui sommes-nous ?
Le Centre national de la recherche scientifique est un organisme public de recherche pluridisciplinaire placé sous la tutelle du ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation.
C’est l’une des plus importantes institutions publiques au monde : 33 000 femmes et hommes (dont plus de 16 000 chercheurs et plus de 16 000 ingénieurs et techniciens), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines.
Depuis plus de 80 ans, le CNRS développe des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit entre ses missions de recherche et le transfert vers la société fait du CNRS un acteur clé de l’innovation en France et dans le monde.
Le partenariat qui lie le CNRS avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires témoignent du potentiel économique de ses travaux de recherche.
À propos de l'offre
-
Le Centre national de la recherche scientifique est l’une des plus importantes institutions publiques au monde : 34 000 femmes et hommes (plus de 1 000 laboratoires et 200 métiers), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines. Depuis plus de 80 ans, y sont développées des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit que le CNRS tisse entre ses missions de recherche et le transfert vers la société fait de lui un acteur clé de l’innovation en France et dans le monde. Le partenariat qui le lie avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires (près de 100 chaque année) témoignent du potentiel économique de ses travaux de recherche.
-
Vacant
-
Chercheuse / Chercheur