Ingénieur (H/F) de recherche en traitement de la langue naturelle

Référence : UMR6074-LAUAMS-003

  • Fonction publique : Fonction publique de l'État
  • Employeur : Centre national de la recherche scientifique (CNRS)
  • Localisation : 35042 RENNES (France)

Partager la page

Veuillez pour partager sur Facebook, Twitter et LinkedIn.

  • Nature de l’emploi Emploi ouvert uniquement aux contractuels
  • Nature du contrat Non renseigné
  • Expérience souhaitée Non renseigné
  • Rémunération (fourchette indicative pour les contractuels) Entre 2847,42 et 3206.65€ € brut/an
  • Catégorie Catégorie A (cadre)
  • Management Non renseigné
  • Télétravail possible Non renseigné

Vos missions en quelques mots

Missions :
Dans le contexte d’un laboratoire commun entre l’IRISA et le journal Ouest-France, premier quotidien régional de France, vous apporterez votre expertise en traitement automatique du langage naturel pour accompagner la recherche académique dans ses missions fondamentales, déployer et tester in vivo les avancées scientifiques sur les cas d’usage du journal. Vos missions tourneront principalement, mais pas exclusivement, autour du développement, de l’analyse et du test de grands modèles de langues adaptés aux spécificités du journal et des cas d’usages envisagés.
Activités :
Le succès actuel des techniques de traitement automatique des langues tient en grande partie à l’utilisation de modèles de langue génériques pré-entrainés sur des grands volumes de données, encodant ainsi des connaissances générales sur le langage. Néanmoins, ces modèles génériques disponibles sur étagère sont mal adaptés aux spécificités des contenus des collections Ouest-France.

En lien avec les chercheurs de l’IRISA et les équipes de Ouest-France, vous serez amené ou amenée à évaluer, analyser et entraîner des grands modèles de langues spécifiques au journal et à tester leur apport dans différents cas d’usage. Ces derniers impliquent des tâches de classification de documents, de détection d’entités ou de relations, de génération de texte, de constitution de bases de connaissance, etc. Dans un contexte de grand volume de données et d’exploitation in vivo, la maîtrise des coûts calculatoires en inférence sera un enjeu majeur dans la conception de modèles et dans leur utilisation. Le couplage entre connaissances formalisés (thesaurus, référentiels, triplet store) et modèles de langue sera aussi au cœur des travaux.

Un premier jalon réside dans l'entraînement et la mise à disposition de modèles de langue entraînés sur les archives de Ouest-France. Les modèles de langue conçus pour l’extraction d’information et la classification de texte devront refléter les contenus de Ouest France et être adapté aux types d’informations contenues dans les archives du journal. Les modèles de langue ciblant la génération du langage devront quant à eux refléter les habitudes de rédaction du journal. On s’intéressera dans un second temps à l’exploitation de ces modèles pour répondre à des besoins applicatifs, via leur analyse fine et leur spécialisation dans un contexte de données d’apprentissage limité. On étudiera notamment l’apport de techniques d’apprentissage permettant de combiner des connaissances formalisées, des données fiables, bien annotées, et des données non annotées ou annotées de manière automatique (apprentissage hybride, mixte, supervision distante, etc.).
Contexte de travail :
Le poste proposé se situe sur le campus de Beaulieu à Rennes, avec une présence occasionnelle dans les locaux de Ouest-France à Rennes. Vous serez affecté à l’équipe de recherche LINKMEDIA de l’IRISA et intégré à l’équipe du laboratoire co
Voir plus sur le site emploi.cnrs.fr...

Profil recherché

Competences :
Le candidat ou la candidate doit :
- posséder une thèse en informatique ou un diplôme d'ingénieur (ou équivalent Bac+5) en informatique avec une spécialisation en apprentissage automatique et/ou traitement automatique du langage : une expérience/spécialisation en traitement automatique des langues ou à défaut en apprentissage artificiel et réseaux de neurones est indispensable
- posséder de solides connaissances de programmation en Python, une grande habitude de la programmation, une familiarité avec les techniques de génie logiciel modernes facilitant la reproductibilité des résultats
- avoir idéalement une expérience dans le déploiement d’algorithmes d’apprentissage à grande échelle dans des infrastructures HPC
- avoir un niveau d'anglais (niveau B2) et de français (A2) permettant d'analyser les données et d'échanger avec les partenaires
- être autonome, avoir une approche scientifique rigoureuse, être force de propositions et d'initiatives

Contraintes et risques :

Niveau d'études minimum requis

  • Niveau Niveau 7 Master/diplômes équivalents
  • Spécialisation Informatique, traitement de l'information, réseau de transmission des données

Langues

  • Français Seuil

Qui sommes-nous ?

Le Centre national de la recherche scientifique est un organisme public de recherche pluridisciplinaire placé sous la tutelle du ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation.

C’est l’une des plus importantes institutions publiques au monde : 33 000 femmes et hommes (dont plus de 16 000 chercheurs et plus de 16 000 ingénieurs et techniciens), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines.

En savoir plus sur l'employeur

À propos de l'offre

  • Le Centre national de la recherche scientifique est l’une des plus importantes institutions publiques au monde : 34 000 femmes et hommes (plus de 1 000 laboratoires et 200 métiers), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines. Depuis plus de 80 ans, y sont développées des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit que le CNRS tisse entre ses missions de recherche et le transfert vers la société fait de lui un acteur clé de l’innovation en France et dans le monde. Le partenariat qui le lie avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires (près de 100 chaque année) témoignent du potentiel économique de ses travaux de recherche.

  • Vacant
  • Responsable Sécurité des Systèmes d'Information - RSSI

D'autres offres pourraient vous intéresser

  • Ingénieur (H/F) développement logiciel (projet TAP)

    • Numérique

    • Localisation : Ille et Vilaine (35)
    • Fonction publique : Fonction publique de l'État
    • Employeur : CNRS
    • En ligne depuis le 18 octobre 2024
    Centre national de la recherche scientifique (CNRS)
  • EXPERT TECHNIQUE EXPLOITATION FONCTIONNELLE

    • Numérique

    • Localisation : Ille et Vilaine (35)
    • Fonction publique : Fonction publique de l'État
    • Employeur : Direction Interarmées des Réseaux d'Infrastructure et des Systèmes d'Information (DIRISI)
    • En ligne depuis le 17 octobre 2024
    Ministère des armées. Liberté, égalité, fraternité.
  • ANALYSTE CYBERDEFENSE

    • Numérique

    • Localisation : Ille et Vilaine (35)
    • Fonction publique : Fonction publique de l'État
    • Employeur : Etat-major des armées
    • En ligne depuis le 17 octobre 2024
    Ministère des armées. Liberté, égalité, fraternité.