
Doctorant (H/F) en génie logiciel et intelligence artificielle
Référence : UMR5800-ROMROB-001
- Fonction publique : Fonction publique de l'État
- Employeur : Centre national de la recherche scientifique (CNRS)
- Localisation : 33405 TALENCE (France)
Partager la page
Veuillez pour partager sur Facebook, Twitter et LinkedIn.
- Nature de l’emploi Emploi ouvert uniquement aux contractuels
-
Nature du contrat
CDD de 3 ans
- Expérience souhaitée Non renseigné
-
Rémunération Fourchette indicative pour les contractuels La rémunération est d'un minimum de 2200,00 € mensuel € brut/an Fourchette indicative pour les fonctionnaires Non renseignée
- Catégorie Catégorie A (cadre)
- Management Non renseigné
- Télétravail possible Non renseigné
Vos missions en quelques mots
Sujet de thèse :
Amélioration des LLM avec des données de code structurées pour une
meilleure compréhension et génération de code
Les grands modèles de langage (Large Language Models, LLM) ont transformé le
développement logiciel en fournissant des outils puissants pour la génération, la
documentation, le débogage et la refactorisation de code. Leur capacité à
comprendre les requêtes en langage naturel et à générer des extraits de code de
type humain les rend très utiles aux développeurs. Les LLM peuvent contribuer à
l'automatisation des tâches répétitives, à la fourniture d'explications et à la
génération de suggestions de code, améliorant ainsi la productivité et réduisant les
erreurs. L'émergence récente d'agents de codage, qui exploitent les LLM mais
bénéficient d'une autonomie croissante, promet d'amplifier cette tendance.
Malgré leurs atouts, les LLM présentent des limites lorsqu'il s'agit de gérer des
données hautement structurées telles que le code source. L'un des principaux
problèmes est que les LLM sont entraînés sur des données textuelles diverses, qui
peuvent ne pas capturer la structure et la sémantique complexes du code. Cela
peut entraîner des inexactitudes, notamment dans des situations telles que la
compréhension de bases de code complexes et la génération de code
contextuellement pertinent. De plus, les LLM s'appuient souvent sur des
techniques de génération augmentée par récupération (RAG), qui peuvent s'avérer
inefficaces et ne pas toujours fournir les extraits de code ou le contexte les plus
pertinents. En revanche, les agents de codage peuvent explorer une base de code
de manière semi-autonome, mais ce processus peut s'avérer long (et coûteux),
soumis aux mêmes contraintes.
L'objectif de cette thèse est d'exploiter les informations structurées présentes
dans le code source afin d'améliorer les informations contextuelles envoyées à un
LLM, qu'il soit autonome ou intégré à un agent de codage. La thèse s'appuiera sur
des outils d'analyse de code statique pour construire une représentation
structurée du code source et explorera les moyens les plus efficaces de
communiquer cette structure aux LLM. Elle explorera des approches structurées
de la RAG, des approches exploitant l'utilisation d'outils, ainsi que des approches
basées sur l'apprentissage, telles que l’affinage ou l'apprentissage par
renforcement de LLM spécialisés, afin de sélectionner les éléments de code
pertinents ou d'écrire des requêtes d'analyse statique pour sélectionner ces
éléments
Contexte :
La thèse se déroulera au LaBRI au sein de l'équipe Progress.
Profil recherché
Contraintes et risques :
Niveau d'études minimum requis
- Niveau Niveau 8 Doctorat/diplômes équivalents
- Spécialisation Formations générales
Langues
- Français Seuil
Qui sommes-nous ?
Le Centre national de la recherche scientifique est un organisme public de recherche pluridisciplinaire placé sous la tutelle du ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation.
C’est l’une des plus importantes institutions publiques au monde : 33 000 femmes et hommes (dont plus de 16 000 chercheurs et plus de 16 000 ingénieurs et techniciens), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines.
Depuis plus de 80 ans, le CNRS développe des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit entre ses missions de recherche et le transfert vers la société fait du CNRS un acteur clé de l’innovation en France et dans le monde.
Le partenariat qui lie le CNRS avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires témoignent du potentiel économique de ses travaux de recherche.
À propos de l'offre
-
Le Centre national de la recherche scientifique est l’une des plus importantes institutions publiques au monde : 34 000 femmes et hommes (plus de 1 000 laboratoires et 200 métiers), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines. Depuis plus de 80 ans, y sont développées des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit que le CNRS tisse entre ses missions de recherche et le transfert vers la société fait de lui un acteur clé de l’innovation en France et dans le monde. Le partenariat qui le lie avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires (près de 100 chaque année) témoignent du potentiel économique de ses travaux de recherche.
-
Vacant
-
Chercheuse / Chercheur