• TéléchargerPDF – 41.54Ko

Exploration des grands modèles de langage avec raisonnement « Chain-of-Thought » : explicablité et biai

Référence : UMR9015-LAUDEV-004

  • Fonction publique : Fonction publique de l'État
  • Employeur : Centre national de la recherche scientifique (CNRS)
  • Localisation : 91190 GIF SUR YVETTE (France)
  • TéléchargerPDF – 41.54Ko

Partager la page

Veuillez pour partager sur Facebook, Twitter et LinkedIn.

  • Nature de l’emploi Emploi ouvert uniquement aux contractuels
  • Nature du contrat Non renseigné
  • Expérience souhaitée Non renseigné
  • Rémunération Fourchette indicative pour les contractuels La rémunération est d'un minimum de 2200,00 € mensuel € brut/an Fourchette indicative pour les fonctionnaires Non renseignée
  • Catégorie Catégorie A (cadre)
  • Management Non renseigné
  • Télétravail possible Non renseigné

Vos missions en quelques mots

Sujet de thèse :
L’objectif est d’améliorer la traçabilité, la lisibilité et la fidélité explicative des réponses générées par les LLMs tout en conservant leurs performances. Cette recherche s'inscrit dans une perspective d’interprétabilité et d’ingénierie des requêtes, et débouchera sur des outils d’analyse, des protocoles de génération, et des modèles enrichis plus explicables.

Le sujet de thèse propose plusieurs enjeux de recherche. Un point critique est la traduction implicite des prompts en anglais, même lorsqu’ils sont initialement rédigés en français. Cette opération, souvent invisible à l’utilisateur, peut introduire des biais sémantiques, linguistiques et culturels (idiomatismes, reformulations, pertes de sens), des imprécisions ou des erreurs dans les résultats. D’autre part, les étapes intermédiaires de la chaîne de pensée sont rarement explicitées ou contrôlées, ce qui nuit à la transparence et à la traçabilité de l'inférence. En parallèle, l’introduction de tokens spéciaux dans les requêtes (par ex. raisonnement, étape, conclusion, lang=fr, etc.) ou dans les réponses du modèle peut servir à : structurer le raisonnement produit (début/fin, étapes intermédiaires, justification, choix de réponse), guider le comportement du modèle (forçage d'explication ou de format), améliorer l’explicabilité en facilitant l’extraction et la visualisation des parties-clés du traitement de la requête.

Objectifs principaux :
1/ Étudier les forces, les limites et les biais du CoT, en tant qu’approche multi-requêtes explorant l’espace des connaissances d’un LLM.
2/ Expliciter les différentes étapes intervenant dans le traitement d’un prompt complexe : Traduction implicite (et ses biais), Nombre et nature des étapes de décomposition, Usage de la paraphrase ou des reformulations intermédiaires.
3/ Développer des mécanismes permettant de guider, annoter ou contrôler ces étapes, par l’introduction de tokens spéciaux, d’annotations linguistiques, ou de prompts structurés.
4/ Évaluer l’impact de ces éléments sur : la qualité du résultat final, le coût computationnel, l’explicabilité perçue et mesurable du raisonnement.
5/ Proposer des variantes de du CoT plus robustes, multilingues, et plus transparentes.

Méthodologie :
Phase 1 : Revue de littérature sur le CoT, les prompts structurés, les biais de traduction implicite, et les méthodes d’explicabilité.
Phase 2 : Conception de variantes guidées du CoT : prompts hiérarchiques, décompositions explicites, paraphrases contrôlées.
Phase 3 : Intégration dans des architectures existantes et ouvertes (LLaMA, DeepSeek, ...) et instrumentation du traitement du prompt pour tracer les étapes internes.
Phase 4 : Évaluation expérimentale sur des tâches de QA complexe et de raisonnement (GSM8K, HotpotQA, CosmosQA), avec comparaison à des baselines standard et analyse qualitative des biais linguistiques introduits.
Phase 5 : Propositio
Voir plus sur le site emploi.cnrs.fr...

Profil recherché

Contraintes et risques :
Le sujet a des contraintes en termes de capacités de calcul. Une plateforme de calcul sera à disposition de l'étudiant(e) pour mener ses expériences qu'il(elle) devra utiliser à bonne escient. Nous aurons soin de travailler sur la frugalité des algorithmes et de mesurer les coûts.

Niveau d'études minimum requis

  • Niveau Niveau 8 Doctorat/diplômes équivalents
  • Spécialisation Formations générales

Langues

  • Français Seuil

Qui sommes-nous ?

Le Centre national de la recherche scientifique est un organisme public de recherche pluridisciplinaire placé sous la tutelle du ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation.

C’est l’une des plus importantes institutions publiques au monde : 33 000 femmes et hommes (dont plus de 16 000 chercheurs et plus de 16 000 ingénieurs et techniciens), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines.

En savoir plus sur l'employeur

À propos de l'offre

  • Le Centre national de la recherche scientifique est l’une des plus importantes institutions publiques au monde : 34 000 femmes et hommes (plus de 1 000 laboratoires et 200 métiers), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines. Depuis plus de 80 ans, y sont développées des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit que le CNRS tisse entre ses missions de recherche et le transfert vers la société fait de lui un acteur clé de l’innovation en France et dans le monde. Le partenariat qui le lie avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires (près de 100 chaque année) témoignent du potentiel économique de ses travaux de recherche.

  • Vacant
  • Chercheuse / Chercheur

Des offres d'emplois recommandées pour vous