Ingénieur d’étude (H/F) en traitement et analyse des archives du web
Référence : UAR3598-ARIALL-046
- Fonction publique : Fonction publique de l'État
- Employeur : Centre national de la recherche scientifique (CNRS)
- Localisation : 67083 STRASBOURG CEDEX (France)
Partager la page
Veuillez pour partager sur Facebook, Twitter et LinkedIn.
- Nature de l’emploi Emploi ouvert uniquement aux contractuels
-
Nature du contrat
CDD d'1 an
- Expérience souhaitée Non renseigné
-
Rémunération Fourchette indicative pour les contractuels Rémunération entre 2571 et 3817 euros bruts mensuels selon expérience € brut/an Fourchette indicative pour les fonctionnaires Non renseignée
- Catégorie Catégorie A (cadre)
- Management Non renseigné
- Télétravail possible Non renseigné
Vos missions en quelques mots
Missions :
La personne recrutée aura pour principale mission de contribuer au développement des activités du projet ReligiS dans l’axe 6 Gestion des données et humanités numériques, en lien avec les activités des axes scientifiques. L’axe 6 a pour objectif de soutenir la réflexion sur le sujet "Religion et Numérique" et d’apporter un soutien coordonné pour garantir une structuration adéquate des données acquises ou produites, conformément aux principes internationaux de la science ouverte.
Il s’agira notamment, pour la personne recrutée, d’analyser les représentations et les circulations du fait religieux sur le web, en mobilisant les formats d’archivage standards (WARC, WAT, WET) et avancés (WANE), à partir de sources comme Spark Internet Archive ou des collectes ciblées de la BNF.
Activités :
- Participer à la structuration, l’enrichissement sémantique, l’indexation et l’analyse des archives collectées à grande échelle ;
- Collaborer avec les chercheurs en SHS du projet ;
- Webscraping, développement d’outils pour extraire, transformer et indexer les contenus (métadonnées, textes, entités) ;
- Intégrer des outils de traitement automatique du langage (NLP) pour l’extraction d’entités nommées (NER) ;
- Structurer les données, les analyses et les visualiser (ElasticSearch ou SolR, MongoDB, graphes) ;
- Rédiger la documentation technique, mettre en place des démonstrateurs, assurer la publication des corpus et l’analyse des données.
Contexte de travail :
Le programme ReligiS (Religions et sociétés face aux défis contemporains) est un projet structurant en sciences humaines et sociales (SHS) financé par l’État dans le cadre des investissements d’avenir (France 2030) pour 6 ans (avril 2025-mars 2031). Il est porté par l’Université de Strasbourg et s’appuie sur un consortium de 12 partenaires académiques français (CNRS, Aix-Marseille Université, École pratique des Hautes Etudes, École des Hautes Etudes en Sciences Sociales, Ecole normale supérieure de Lyon, Institut national des langues et civilisation orientales INALCO, Sciences Po Paris, Université de Lorraine, Université Lyon 2, Université Lyon 3, École française d’Athènes, Bibliothèque nationale universitaire Strasbourg) et de nombreuses parties prenantes nationales et internationales (universités internationales, collectivités locales, administrations, CHU, associations…). ReligiS se concentre sur l’étude de la transformation des interactions entre les religions et les sociétés dans le monde contemporain, dans une perspective à long terme. D'une part, dans le contexte académique français, il entend développer un nouveau cadre scientifique, résolument ouvert, interdisciplinaire et international, afin de repenser les processus de transformation des relations entre religions et sociétés. D'autre part, il vise à créer les conditions institutionnelles d'un changement à grande échelle des mécanismes et des actions de transfert des connaissances a
Voir plus sur le site emploi.cnrs.fr...
Profil recherché
Competences :
Savoirs :
- Master en ingénierie des données, humanités numériques ou domaine proche ;
- Très bonne connaissance de l’IR* Huma-Num ;
- Maîtrise de Python, R, de l’écosystème data science (pandas, spaCy, NLTK, json, warcio…) ;
- Expérience en manipulation de données massives, en ligne de commande, et en environnement Unix ;
- Compétences en traitement de texte, NLP, extraction d’entités, indexation ;
- Connaissance des outils open source, des ressources issues de Common Crawl, du DLWeb BnF et des environnements de calcul sur serveurs ou cloud académique (JupyterHub, Apache Spark) ;
- Maîtrise des outils de gestion de codes et de management de projet (GitLab) ;
- Capacité à rédiger des documentations techniques et utilisateurs.
Savoir-faire :
- Traitement de corpus web massifs et en fouille sémantique
- Identifier, filtrer et manipuler les formats d’archives web : WARC, WAT, WET, WANE ;
Savoir-être :
- Aptitude à collaborer avec des acteurs de l’ESR en SHS.
- Sens de l’organisation, rigueur et méthode.
- Esprit d’initiative et dynamisme.
- Capacité à travailler en autonomie tout en rendant compte
- Capacité à travailler en équipe et en réseau.
Contraintes et risques :
Niveau d'études minimum requis
- Niveau Niveau 6 Licence/diplômes équivalents
- Spécialisation Sciences humaines & droit- Sciences (y compris démographie, anthropologie
Langues
- Français Seuil
Qui sommes-nous ?
Le Centre national de la recherche scientifique est un organisme public de recherche pluridisciplinaire placé sous la tutelle du ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation.
C’est l’une des plus importantes institutions publiques au monde : 33 000 femmes et hommes (dont plus de 16 000 chercheurs et plus de 16 000 ingénieurs et techniciens), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines.
Depuis plus de 80 ans, le CNRS développe des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit entre ses missions de recherche et le transfert vers la société fait du CNRS un acteur clé de l’innovation en France et dans le monde.
Le partenariat qui lie le CNRS avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires témoignent du potentiel économique de ses travaux de recherche.
À propos de l'offre
-
Le Centre national de la recherche scientifique est l’une des plus importantes institutions publiques au monde : 34 000 femmes et hommes (plus de 1 000 laboratoires et 200 métiers), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines. Depuis plus de 80 ans, y sont développées des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit que le CNRS tisse entre ses missions de recherche et le transfert vers la société fait de lui un acteur clé de l’innovation en France et dans le monde. Le partenariat qui le lie avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires (près de 100 chaque année) témoignent du potentiel économique de ses travaux de recherche.
-
Vacant
-
Experte / Expert en production, traitement et analyse de données