
Thèse Provenance et explicabilité dans les LLM (H/F)
Référence : UMR5217-SILMAN-005
- Fonction publique : Fonction publique de l'État
- Employeur : Centre national de la recherche scientifique (CNRS)
- Localisation : 38058 ST MARTIN D HERES (France)
Partager la page
Veuillez pour partager sur Facebook, Twitter et LinkedIn.
- Nature de l’emploi Emploi ouvert uniquement aux contractuels
- Nature du contrat Non renseigné
- Expérience souhaitée Non renseigné
-
Rémunération Fourchette indicative pour les contractuels La rémunération est d'un minimum de 2200,00 € mensuel € brut/an Fourchette indicative pour les fonctionnaires Non renseignée
- Catégorie Catégorie A (cadre)
- Management Non renseigné
- Télétravail possible Non renseigné
Vos missions en quelques mots
Sujet de thèse :
Les systèmes d'IA conversationnelle sont des modèles de langage à grande échelle utilisant des réseaux de neurones transformateurs. Ces modèles sont entraînés sur une grande quantité de données textuelles collectées sur le web à l'aide de supercalculateurs pendant plusieurs jours. À titre d'exemple, PaLM, un modèle LLM de Google, comporte 540 milliards de paramètres et nécessite plus d'un mois d'entraînement sur un cluster de calcul spécialisé. L'adoption rapide des LLM a dépassé le développement des techniques d'évaluation de la qualité de leurs résultats. Cette surveillance est cruciale, car il a été démontré que les LLM sont susceptibles de produire ce que l'on appelle des « hallucinations », des réponses plausibles mais factuellement incorrectes ou incompatibles avec l'intention de l'utilisateur. Par conséquent, se fier aux LLM sans une évaluation appropriée peut avoir de graves conséquences. Garantir la qualité des résultats des LLM est essentiel pour exploiter le pouvoir transformateur de ces modèles tout en limitant les risques potentiels. En développant des méthodologies de validation robustes et en intégrant des mesures de contrôle qualité, les entreprises peuvent exploiter les avantages des LLM tout en préservant leur prise de décision.
Un autre problème des LLM est qu'ils ne sont pas totalement capables de retracer leur raisonnement, en particulier dans les longs fils de conversation ou dans les requêtes complexes effectuées à partir de données primaires.
L'objectif de cette thèse de doctorat MSCA est de contribuer à une meilleure explicabilité des LLM en visant les objectifs suivants :
Établir un formalisme pour l'explicabilité et la provenance des données utilisées par les LLM, en les reliant à leur source et en expliquant la manière dont les données primaires ont été utilisées pour dériver le contenu généré, en étendant les approches connues de la provenance des données.
Lier le formalisme d'explicabilité aux approches d'ancrage basées sur les graphes de connaissances
Mettre en œuvre le système d'explicabilité soit au niveau supérieur (« prompt » à une ou plusieurs reprises), soit en modifiant ou en améliorant l'architecture du LLM au niveau inférieur.
Le candidat retenu doit être à l'aise avec le raisonnement abstrait (logique et bases de données, algèbre linéaire et non linéaire), mais aussi avec son implémentation (programmation en C/C++, Python).
Contexte :
Projet MSCA Doctoral Network ARMADA au sein du Laboratoire d'Informatique de Grenoble. La rémunération pourra être supérieure en fonction des critères de financement du MSCA.
Le LIG est un laboratoire de 500 membres composé d'enseignants-chercheurs, de chercheurs permanents, de doctorants et de personnel administratif et technique. Sa mission est de contribuer au développement des aspects fondamentaux de l'informatique (modèles, langages, méthodologies, algorithmes) et de relever les défis conceptuels,
Voir plus sur le site emploi.cnrs.fr...
Profil recherché
Contraintes et risques :
Niveau d'études minimum requis
- Niveau Niveau 8 Doctorat/diplômes équivalents
- Spécialisation Formations générales
Langues
- Français Seuil
Qui sommes-nous ?
Le Centre national de la recherche scientifique est un organisme public de recherche pluridisciplinaire placé sous la tutelle du ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation.
C’est l’une des plus importantes institutions publiques au monde : 33 000 femmes et hommes (dont plus de 16 000 chercheurs et plus de 16 000 ingénieurs et techniciens), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines.
Depuis plus de 80 ans, le CNRS développe des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit entre ses missions de recherche et le transfert vers la société fait du CNRS un acteur clé de l’innovation en France et dans le monde.
Le partenariat qui lie le CNRS avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires témoignent du potentiel économique de ses travaux de recherche.
À propos de l'offre
-
Le Centre national de la recherche scientifique est l’une des plus importantes institutions publiques au monde : 34 000 femmes et hommes (plus de 1 000 laboratoires et 200 métiers), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines. Depuis plus de 80 ans, y sont développées des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit que le CNRS tisse entre ses missions de recherche et le transfert vers la société fait de lui un acteur clé de l’innovation en France et dans le monde. Le partenariat qui le lie avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires (près de 100 chaque année) témoignent du potentiel économique de ses travaux de recherche.
-
Vacant
-
Chercheuse / Chercheur