Doctorant en Informatique (H/F) – Extraction, structuration et intégration de données hétérogènes pour
Référence : UMR5205-ANDMAU-002
- Fonction publique : Fonction publique de l'État
- Employeur : Centre national de la recherche scientifique (CNRS)
- Localisation : 69622 VILLEURBANNE (France)
Partager la page
Veuillez pour partager sur Facebook, Twitter et LinkedIn.
- Nature de l’emploi Emploi ouvert uniquement aux contractuels
- Nature du contrat Non renseigné
- Expérience souhaitée Non renseigné
-
Rémunération Fourchette indicative pour les contractuels La rémunération est d'un minimum de 2300,00 € mensuel € brut/an Fourchette indicative pour les fonctionnaires Non renseignée
- Catégorie Catégorie A (cadre)
- Management Non renseigné
- Télétravail possible Non renseigné
Vos missions en quelques mots
Sujet de thèse :
La formulation de géopolymères bas-carbone à partir de déchets de chantier nécessite l’exploitation conjointe de nombreuses informations relatives aux propriétés des matières premières, des mélanges et des paramètres de fabrication. Ces informations sont aujourd’hui dispersées dans des sources de données hétérogènes, telles que la littérature scientifique, des rapports techniques au format PDF, des graphiques et des tableaux issus de partenaires industriels et de laboratoires de recherche, limitant leur exploitation systématique.
Cette thèse vise à développer des méthodes pour l’extraction, la structuration et l’intégration de ces données afin de construire une base de connaissances unifiée permettant de guider la synthèse des géopolymères et d’éviter des formulations non performantes. Les travaux s’appuieront sur des techniques d’OCR, de parsing de tableaux et sur des approches basées sur les Large Language Models (LLM) et le Retrieval-Augmented Generation (RAG) pour extraire et structurer l’information à partir de documents hétérogènes, tout en assurant la traçabilité vers les sources originales.
Les données extraites seront organisées au sein d’un graphe de propriétés, en appliquant un schéma et des contraintes d’intégrité rigoureuses (PG-keys, PG-schema), ainsi que des techniques de normalisation et d’analyse sémantique. La thèse abordera enfin les problématiques d’intégration et de rapprochement des données, en étudiant des stratégies de type Global-as-View et Local-as-View, ainsi que des mécanismes de maintenance de vues pour les graphes de propriétés.
Les approches développées s’inscriront dans une démarche homme-machine, combinant automatisation et validation experte, en collaboration étroite avec les partenaires académiques et industriels du projet GEOLIANT.
Contexte :
La thèse s’inscrit dans le cadre du projet GEOLIANT, soutenu par BPI France dans le programme France 2030, visant à développer et industrialiser des liants géopolymères bas-carbone à partir de déchets de chantier, en alternative durable au ciment traditionnel fortement émetteur de CO₂. Le projet repose sur le développement de formulations innovantes et sur la mise en place d’outils numériques et prédictifs basés sur l’intelligence artificielle afin d’accélérer la recherche, l’évaluation et la validation des performances.
Le doctorant ou la doctorante sera rattaché·e au laboratoire LIRIS et travaillera au sein d’un consortium académique et industriel associant des acteurs du génie civil, des matériaux et de l’environnement. Les travaux de thèse s’inscriront dans un environnement pluridisciplinaire, à l’interface entre informatique (extraction et intégration de données, graphes, IA) et ingénierie des matériaux.
La thèse sera menée en interaction étroite avec les partenaires du projet, dans un cadre favorisant la co-conception, la validation experte et le transfert des résultats vers des applications o
Voir plus sur le site emploi.cnrs.fr...
Profil recherché
Contraintes et risques :
Thèse menée dans le cadre d’un projet collaboratif multi-partenaires, impliquant des contraintes de coordination, de planification et de dépendance aux contributions des partenaires.
Dépendance à la disponibilité, à la qualité et à l’hétérogénéité des données issues de sources industrielles et scientifiques, pouvant impacter le rythme des travaux.
Complexité des sources non structurées (PDF, graphiques, tableaux), nécessitant des choix méthodologiques et techniques évolutifs.
Nécessité d’un équilibre entre automatisation par l’IA et validation humaine, pouvant allonger certaines phases expérimentales.
Contraintes liées aux jalons et livrables contractuels du projet financé par BPI France / France 2030.
Interdisciplinarité du sujet, demandant un temps d’appropriation des notions en science des matériaux et en génie civil.
Déplacements ponctuels possibles pour réunions, ateliers ou validations chez les partenaires du projet.
Niveau d'études minimum requis
- Niveau Niveau 8 Doctorat/diplômes équivalents
- Spécialisation Formations générales
Langues
- Français Seuil
Qui sommes-nous ?
Le Centre national de la recherche scientifique est un organisme public de recherche pluridisciplinaire placé sous la tutelle du ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation.
C’est l’une des plus importantes institutions publiques au monde : 33 000 femmes et hommes (dont plus de 16 000 chercheurs et plus de 16 000 ingénieurs et techniciens), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines.
Depuis plus de 80 ans, le CNRS développe des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit entre ses missions de recherche et le transfert vers la société fait du CNRS un acteur clé de l’innovation en France et dans le monde.
Le partenariat qui lie le CNRS avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires témoignent du potentiel économique de ses travaux de recherche.
À propos de l'offre
-
Le Centre national de la recherche scientifique est l’une des plus importantes institutions publiques au monde : 34 000 femmes et hommes (plus de 1 000 laboratoires et 200 métiers), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines. Depuis plus de 80 ans, y sont développées des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit que le CNRS tisse entre ses missions de recherche et le transfert vers la société fait de lui un acteur clé de l’innovation en France et dans le monde. Le partenariat qui le lie avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires (près de 100 chaque année) témoignent du potentiel économique de ses travaux de recherche.
-
Vacant
-
Chercheuse / Chercheur