Analyste-chercheur.se en science des données juridiques et en IA
Référence : 2026-2239518
- Fonction publique : Fonction publique de l'État
- Employeur : Université de Strasbourg
- Localisation : Centre d'études internationales de la propriété intellectuelle (CEIPI)
Partager la page
Veuillez pour partager sur Facebook, Twitter et LinkedIn.
- Nature de l’emploi Emploi ouvert uniquement aux contractuels
-
Nature du contrat
CDD d'1 an
- Expérience souhaitée Non renseigné
-
Rémunération Fourchette indicative pour les contractuels Catégorie A. IGR € brut/an Fourchette indicative pour les fonctionnaires Non renseignée
- Catégorie Catégorie A (cadre)
- Management Non renseigné
- Télétravail possible Non renseigné
Vos missions en quelques mots
CDD de projet 12 mois
Démarrage à compter du 18/05/2026
Catégorie : A Corps : Ingénieur de recherche
Quotité : 20% temps incomplet
Emploi ouvert aux agents contractuels uniquement
Rémunération selon grille de la Fonction Publique
Activités
Collecte & normalisation des textes (UE) :
- Moissonnage ciblé (EUR-Lex/CELEX/ELI) des actes identifiés ; archivage des versions (proposition/adoption/JO/consolidés), ainsi que des métadonnées (dates, base juridique, procédure, institutions).
- Capture des liens intertextes (articles/considérants/amendements), des phases de mise en application et des documents interprétatifs (lignes directrices, communications).
- Harmonisation des références (formatage uniforme des citations, identifiants uniques, nomenclature des actes).
Livrables : Corpus UE (répertoires textuels/JSON), table instruments.csv (métadonnées normalisées), table links.csv (renvois explicites).
Nettoyage & préparation des données. Extraction d’entités :
- Constitution d’un jeu d’annotation “or” (guidelines + 100-150 extraits annotés) - Livrable : guide d’annotation + dataset “gold”.
- Nettoyage structurel (suppression artefacts PDF/HTML, titres/annexes repérés, segmentation articles/considérants).
- Détection des doublons/versions ; harmonisation de l’encoding ; alignement inter-versions (diffs) pour suivre les évolutions.
- Contrôles qualité : complétude champs, cohérence des dates, validité des URLs sources ; journalisation des corrections (audit trail).
Livrables : Textes nettoyés (par langue/version) + diffs inter-versions ; rapport de contrôle qualité QA.
Embeddings & indexation sémantique & indicateurs d’évolution :
- Granularité d’indexation : passage du texte en chunks juridiques (article, alinéa, considérant), avec contexte (titre, chapitre, instrument).
- Embeddings : entraînement/choix de modèles adaptés au fr/en/de (ou multilingues) ; normalisation vectorielle ; stockage en vecteur-store (FAISS/pgvector).
- Évaluation : jeux de requêtes juridiques de test (IR@k, nDCG), hard negatives (renvois proches mais non pertinents), courbes précision-rappel.
- RAG contrôlé (optionnel pour la suite) : composition keyword + vector search ; garde-fous (citations pin-point, passage exact).
Livrables : Index sémantique (vectors + métadonnées), cartes de similarité (topics/communautés), bench d’évaluation (scripts + scores).
Comparaison UE → États membres (FR/DE/IT + 1 pays)
- France : recensement et cartographie de transposition/appropriation
- Allemagne : idem
- Italie : idem
- Pays additionnels (extension possible à l’Afrique, à confirmer) : idem
Livrables : Par pays : fiche pays (textes, échéances, autorités, écarts). Synthèse comparative & tableaux d’écart.: note comparative UE→ EM + tableaux consolidés.
(...) suite sur le site de l'Université de Strasbourg
Profil recherché
a) Savoir sur l’environnement professionnel
Cœur “NLP juridique”
- Embeddings : expérience pratique des modèles d’embeddings (monolingues et multilingues), normalisation vectorielle, indexation (FAISS/pgvector), évaluation IR (IR@k, nDCG, P/R), réduction dimensionnelle (UMAP/t-SNE) et RAG sous contraintes juridiques (citation exacte, grounding).
- Annotation : maîtrise d’outils d’annotation (notamment Prodigy) pour définir jeux “gold”, schémas d’étiquettes et boucles d’amélioration ; appétence pour l’automatisation (scripts QA).
- Préparation de corpus : parsing/cleaning de textes juridiques multi-formats (PDF/HTML/JO), segmentation articles/considérants, alignement inter-versions, gestion multilingue.
Droit & régulation
- Propriété intellectuelle (indispensable) : solides bases en brevets, dessins et modèles, marques, et droit d’auteur (originalité, titularité, exceptions), avec un intérêt marqué pour les problématiques liées à l’IA (œuvres générées, inventivité, données d’entraînement).
- Droit de l’UE lié à l’IA : connaissance des principaux instruments (données/plateformes/sécurité produits/cybersécurité) et de leurs mécanismes (amendements, “sans préjudice”, articulation règlements/directives).
- Comparé / international (atout) : premières notions des cadres africains (UA/organisations régionales) ou appétence pour les approches comparatives.
Data & visualisation
- Structuration de données, graphes (NetworkX/Gephi), timelines, matrices ; rigueur documentaire (dictionnaires de données, versioning).
- Communication claire des résultats (tableaux de bord, notes exécutives) ; anglais/français professionnels.
b) Savoir-faire opérationnel
- Capacités organisationnelles et de planification ; gestion de projets.
- Capacité à rédiger une note de synthèse technique.
c) Savoir-faire comportemental
- Initiative, autonomie, sens de l’organisation, reporting, respect des délais.
- Capacités d’observation, d’analyse et de synthèse.
- Disponibilité et flexibilité.
- Capacité à innover, curiosité intellectuelle.
- Capacité à travailler en équipe, à collaborer.
- Capacité à s’adapter dans différents contextes.
- Rigueur professionnelle.
- Capacité d’écoute et d’accompagnement.
Éléments de candidature
Documents à transmettre
Personnes à contacter
Qui sommes-nous ?
Descriptif du service
Nom du service : CEIPI
Nombre d’agents à encadrer (éventuellement) : /
Lieu d’exercice : CEIPI - Bâtiment LE CARDO - 7, rue de l’Ecarlate à Strasbourg
Contexte
L’Union européenne (UE) a produit, au cours des dix dernières années, un corpus dense de normes touchant l’IA (de manière générale) et en particulier de la propriété intellectuelle ainsi que des données en lien direct avec l’IA (règlements, directives, actes d’exécution). Ce corpus, disponible via des plateformes telles que Eur-Lex, est riche d’enseignements sur le développement normatif autour de l’IA. Il est cependant à ce jour largement inexploité.
Le projet vise à modéliser, visualiser et analyser :
• L’évolution temporelle des textes (proposition → adoption → entrée en vigueur → application)
• leurs interdépendances (p.ex. renvois, “sans préjudice de…”, modifications, alignements sectoriels)
• la présence et l’empreinte de l’IA dans ces instruments
• L’évolution des sens de termes techniques (Big Data, IA, IA generative, Modèles de fondation, etc.)
• L’impact dans les ordres juridiques nationaux (transposition/appropriation : France, Allemagne, Italie, etc.).
Ce poste s’inscrit dans le développement des activités prévues dans le cadre de la Chaire DENoTE portée par le CEIPI et l’Université de Strasbourg, visant à développer une analyse de l’évolution des normes face aux technologies émergentes.
À propos de l'offre
-
Situation du poste dans l’organigramme
Cette mission s’inscrit dans le cadre de la chaire « Dynamique des normes en Europe face aux technologies émergentes » (DENoTE) sous l’autorité de son responsable scientifique.
-
- Possibilité de déplacements occasionnels pour assister à des conférences, des événements ou des réunions liées au travail.
- Activité à rythme variable selon les actions à mener.
- Contraintes de délais à respecter. -
Vacant à partir du 18/05/2026
-
Chercheuse / Chercheur