
Ingénieur d'études (H/F) pour l'atomisation de propositions pour la vérification de la factualité répon
Référence : UMR9015-THOGER-007
- Fonction publique : Fonction publique de l'État
- Employeur : Centre national de la recherche scientifique (CNRS)
- Localisation : 91190 GIF SUR YVETTE (France)
Partager la page
Veuillez pour partager sur Facebook, Twitter et LinkedIn.
- Nature de l’emploi Emploi ouvert uniquement aux contractuels
- Nature du contrat Non renseigné
- Expérience souhaitée Non renseigné
-
Rémunération Fourchette indicative pour les contractuels 2571 € brut/an Fourchette indicative pour les fonctionnaires Non renseignée
- Catégorie Catégorie A (cadre)
- Management Non renseigné
- Télétravail possible Non renseigné
Vos missions en quelques mots
Missions :
Le projet porte sur l'étude des méthodes du traitement du langage naturel, et comment celles-ci peuvent bénéficier des approches dites d'atomisation du contexte.
L'atomisation consiste à reformuler une phrase ou un ensemble de phrases en une liste de propositions atomiques (c'est-à-dire des phrases qui sont à la fois concises et sémantiquement autonomes).
Cette méthode a déjà porté ses fruits dans les approches de générations augmentées par récupération, en vérification automatique de la factualité et en évaluation de résumé.
Les différentes expériences et évaluations porteront sur des corpus de la littérature du TAL en langue Française. En particulier sur un corpus créer au sein du laboratoire, le corpus de question-réponse CQUAE~\cite{DBLP:conf/coling/GeraldVETP24}. Pour l'évaluation, nous planifions d'évaluer l'apport de ces reformulations en propositions atomiques sur la génération de automatique de questions ou bien de réponses. Par exemple, on pourra imaginer fournir à la place du contexte les atomes au lieu du contexte original et en mesurer l'influence sur la qualité de la génération. Une deuxième question de recherche est la pertinence de ces approches pour la vérification d'information, la construction d'un graphe de connaissance à partir des atomes extraits est envisagée dans le but de vérifier la factualité des réponses.
Le candidat devra pendant la durée du contrat proposer de nouvelles méthodes pour l'atomisation de paragraphes textuels et/ou proposer de nouvelle métrique d'évaluation s'appuyant sur ces approches pour vérifier l’exactitude des générations produites par des modèles génératifs.
Activités :
Le candidat devra être en mesure d'intégrer ses connaissances dans les approches de vérification d'information pour l'explicabilité des réponses des modèles génératifs pour tenter de répondre à la question ``Les approches d'atomisation peuvent-elles améliorer les performances ou l'explicabilité des grands modèles de langue ?''. Parmi les objectifs permettant de répondre à cette question, plusieurs axes sont aujourd'hui retenus :
- Proposer des méthodes innovantes pour la création de propositions atomiques
- Évaluation de l'atomicité des propositions (en testant cette évaluation)
- Proposer de nouvelles métriques d'évaluation des modèles génératifs se basant sur l'exploitation des propositions atomiques
- Proposer un code facilement réutilisable, dans différents domaines du traitement du langage naturel.
Contexte de travail :
Le candidat travaillera dans le laboratoire LISN sur le campus de l'Université Paris Saclay. Le poste est prévu pour 3 mois et débutera début novembre 2025.
Profil recherché
Competences :
- Un Diplôme de master en Informatique et ou mathématiques et leurs applications
- Avoir déjà travaillé sur des approches incluant la reformulation de texte en propositions atomiques
- Avoir des compétences dans les approches logiques pour la linguistique
- Maîtrise de la programmation avec python
- Expériences d'utilisation dans les outils récents et les architectures neuronales pour le TAL
Contraintes et risques :
Travail sur écran
Niveau d'études minimum requis
- Niveau Niveau 7 Master/diplômes équivalents
- Spécialisation Informatique, traitement de l'information, réseau de transmission des données
Langues
- Français Seuil
Qui sommes-nous ?
Le Centre national de la recherche scientifique est un organisme public de recherche pluridisciplinaire placé sous la tutelle du ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation.
C’est l’une des plus importantes institutions publiques au monde : 33 000 femmes et hommes (dont plus de 16 000 chercheurs et plus de 16 000 ingénieurs et techniciens), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines.
Depuis plus de 80 ans, le CNRS développe des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit entre ses missions de recherche et le transfert vers la société fait du CNRS un acteur clé de l’innovation en France et dans le monde.
Le partenariat qui lie le CNRS avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires témoignent du potentiel économique de ses travaux de recherche.
À propos de l'offre
-
Le Centre national de la recherche scientifique est l’une des plus importantes institutions publiques au monde : 34 000 femmes et hommes (plus de 1 000 laboratoires et 200 métiers), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines. Depuis plus de 80 ans, y sont développées des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit que le CNRS tisse entre ses missions de recherche et le transfert vers la société fait de lui un acteur clé de l’innovation en France et dans le monde. Le partenariat qui le lie avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires (près de 100 chaque année) témoignent du potentiel économique de ses travaux de recherche.
-
Vacant
-
Conceptrice / Concepteur