Publié : 24/10/2021, mis à jour: 03/01/2022 à 17:02
http://www-preprod.bulac.fr/node/2344

Partenariat autour de la philologie numérique des textes arabes

D’octobre 2020 à août 2021, la BULAC a accueilli Noëmie Lucas, post-doctorante auprès du GIS MOMM, pour organiser et animer une série de hackathons et de colloques autour des enjeux de philologie numérique des textes en écriture arabe, et plus particulièrement de la reconnaissance optique des caractères dans les manuscrits maghrébins.

Noëmie Lucas

Portrait de Noëmie Lucas (Maxime Ruscio / BULAC)

Noëmie Lucas, chercheuse en résidence à la BULAC

Photographie de Noëmie Lucas

Noëmie Lucas (Maxime Ruscio / BULAC)

Noëmie Lucas, post-doctorante auprès du Groupement d’intérêt scientifique Moyen-Orient et mondes musulmans (GIS MOMM) dans le cadre du plan SHS 2020 (ministère de l'Enseignement supérieur, de la recherche et de l'innovation), était chargée de mettre en œuvre une des recommandations du Livre blanc Vers la science ouverte ? La transition numérique et la recherche sur le Moyen-Orient et les mondes musulmans en France.

Elle a travaillé ainsi autour de la « structuration, du développement et de l’internationalisation des capacités de recherche françaises en matière de philologie numérique des textes en écriture arabe ».

La BULAC, engagée dans des projets de collaboration avec le GIS MOMM dans le cadre d'initiatives prises pour développer les humanités numériques dans le domaine de la recherche aréale, lui a proposé un soutien logistique, documentaire et scientifique, et a accueilli les divers événements qu'elle a été amenée à organiser : hackathons, rendez-vous de la philologie numérique, dont elle s'est fait le relais sur son carnet de recherche, Philaranum.

Le Livre blanc « Vers la science ouverte ? »

Le Livre blanc publié par le GIS MOMM en septembre 2020 propose un bilan de la transition numérique dans le champ de la recherche aréale française sur le Maghreb, le Moyen-Orient et les mondes de l’Islam à l’heure de la science ouverte.

J’approfondis cette année mon intérêt pour les humanités numériques, en étudiant plus spécifiquement l’usage qui peut être fait des techniques informatiques dans l’analyse des textes anciens.

Des hackathons pour entraîner un moteur d’OCR sur des manuscrits de la BULAC en écriture maghrébine

Séance de hackathon animée par Noëmie Lucas et Chahan Vidal-Gorène

Séance de hackathon animée par Noëmie Lucas et Chahan Vidal-Gorène (Maxime Ruscio / BULAC).

Entre janvier et avril 2021 ont été organisées des séances de travail dans les salles de formation de la bibliothèque en coopération avec l'association Calfa, avec laquelle la BULAC avait déjà noué précédemment un partenariat. L’objectif de ces séances, animées conjointement par Noëmie Lucas et Chahan Vidal-Gorène, était d’entraîner un moteur de reconnaissance automatique de l’écriture en vue d’élaborer un modèle spécifique pour la graphie arabe dite maghrébine, qui pourra bénéficier à toute la communauté des chercheurs et des étudiants travaillant sur des manuscrits maghrébins dans le cadre de projet d’édition, de fouille de texte, etc. Les quatre hackathons se sont fondés sur trois manuscrits de la BULAC en écriture maghribî, le MS.ARA.1977, le MS.ARA.609 et le MS.ARA.417 pour développer le moteur OCR/HCR.

 

La mise au point d'une preuve de concept

Graphique d'évoution du taux d'erreur par nombre de pages d'entraînement

Évolution du taux d'erreur de reconnaissance des caractères et du temps de relecture en fonction du nombre de pages apprises par le moteur d'HTR

Les résultats de cette résidence numérique ont abouti à une preuve de concept, validant la robustesse du moteur d'apprentissage Calfa pour le traitement des écritures manuscrites maghrébines. À l'issue des hackathons, le taux d'erreur dans la reconnaissance des caractères (ECR) atteint 4,8% pour les documents du corpus d'entraînement, tandis que la mise en page (texte principal, gloses marginales, organisation des lignes) est correctement interprétée. Ce bilan a été présenté à Lausanne en septembre 2021 dans le cadre de la conférence annuelle de l'ICDAR (International Conference on Document Analysis and Recognition). Le jeu de données produit est publié sous licence ouverte.

Il reste désormais à valider la polyvalence de ce modèle en l'entraînant sur des documents maghrébins plus diversifiés : c'est l'objet d'une seconde saison de hackathons, organisée de décembre 2021 à mai 2022 par Antoine Perrier (CNRS, IREMAM) avec la participation d'une vingtaine d'étudiants en master et doctorat issus de différents établissements. L'organisation de cette seconde saison est réalisée avec le soutien scientifique et financier du GIS Moyen-Orient et mondes musulmans, dans le cadre du plan SHS 2021 (MESRI).

Le jeu de données RASAM propose les images et les extractions corrigées de texte au format XML ; il peut être utilisé pour entraîner un moteur OCR/HTR à la reconnaissance optique des écritures manuscrites arabes maghrébines.

Les rendez-vous de la philologie numérique

Rendez-vous de la philologie numérique du 8 juin 2021

5e rendez-vous de la philologie numérique, Intelligence artificielle et khaṭṭ maghribī, le 8 juin 2021 (Maxime Ruscio / BULAC).

Dans le cadre de sa résidence à la BULAC, Noëmie Lucas, post-doctorante en philologie numérique des textes en alphabet arabe au sein du GIS MOMM, a proposé un cycle de rencontres autour des nouvelles philologies numériques de mai à juin 2021 :

  • Big data et sources chinoises. Nouvelles perspectives pour l’histoire de la Chine moderne. Entretien avec Christian Henriot
  • Le numérique au service des textes éthiopiens. Encodage, transcription et publication. Entretien avec Anaïs Wion
  • eScriptorium : de la transcription automatique à l’édition numérique. Le cas des manuscrits hébreux. Entretien avec Daniel Stökl Ben Ezra
  • Lumière sur des projets numériques autour des inscriptions et manuscrits en tamoul : catalogage, encodage et édition. Entretien avec Emmanuel Francis
  • Intelligence artificielle et khaṭṭ maghribī. Résultats d’un hackathon pour la reconnaissance de texte automatique de l’arabe manuscrit. Chahan Vidal-Gorène et Noëmie Lucas
  • Étudier et analyser des textes chinois avec le numérique : possibles, enjeux et perspectives. Entretien avec Catherine Jami

(Re)voir ces rencontres

Dala'il al-khayrat [ دلائل الخيرات ]

Le domaine arabe constitue un des fonds les plus anciens de la bibliothèque et les plus riches de France. Il s’étend sur un espace géographique compris entre l’Afrique du Nord et le Moyen-Orient et compte une vingtaine de pays. On...

Partenariats scientifiques et appui aux projets de recherche

Calfa est un projet de traitement automatique de la langue arménienne classique. Un partenariat conclu entre la BULAC et Calfa en 2019 a permis à l’association Calfa de se pencher sur des écritures arméniennes contemporaines.

 Portrait de Manel Belhadjali

De septembre 2021 à août 2022, la BULAC accueille dans ses murs une chercheuse en résidence, Manel Belhadj Ali, post-doctorante auprès du Groupement d’intérêt scientifique Moyen-Orient et mondes musulmans (GIS MOMM), auteur d'une thèse sur le rôle des traductions dans...