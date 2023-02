Ce projet, porté par des bénévoles de Wikimedia en Indonésie, a été initié à l’occasion de la 24e Journée internationale de la langue maternelle. Le lancement officiel s'est déroulé à la Bibliothèque nationale d’Indonésie, organisé par Pusat Pengkajian Islam dan Masyarakat (Centre d’étude de l’islam et de la société), ou PPIM, institut de recherche sur les manuscrits, et partenaire principal de l’initiative.

Bali, Java et Sumatra

« Au cours des cinq dernières années, le PPIM a acquis de l’expérience dans la numérisation de textes anciens en Asie du Sud-Est grâce au programme DREAMSEA », explique le directeur exécutif du PPIM, Ismatu Ropi. En effet, depuis 2017, le PPIM et le Center for the Study of Manuscript Cultures (CSMC) de l’Université de Hambourg s'intéresse à des manuscrits en provenance de trois régions : Bali, Java et Sumatra. Tout part de la communauté balinaise Wikimedia qui a souhaité créer WikiPustaka, une bibliothèque numérique de textes en langue balinaise affiliée à Wikisource.

Plus de 3000 premiers ouvrages « culturellement pertinents » ont été catalogués dans une publication scientifique en libre accès, et transcrits sur Wikisource : « Le contenu est pour les Balinais en général, mais les chercheurs accèdent également aux données collectées via cette plateforme », décrit Carma Citrawati, collaboratrice de Wikimedia qui a dirigé le projet WikiPustaka.

De son côté, le responsable du programme Culture et patrimoine de la Wikimedia Foundation, Satdeep Gill, explique : « Cela soutient l’éducation multilingue, qui est le thème de la Journée internationale de la langue maternelle de cette année. » Et de continuer : « Wikisource Loves Manuscripts s’aligne étroitement sur les efforts de la Fondation Wikimedia pour améliorer l’accès numérique à des sources fiables et pertinentes localement. »

S'appuyer sur l'IA

L’outil Transkribus permettra aux volontaires de former des modèles de reconnaissance optique de caractère (OCR), afin d'apprécier les manuscrits avec précision en utilisant leurs propres transcriptions et corrections. Plutôt que d’avoir à transcrire manuellement chaque manuscrit, les bénévoles peuvent ainsi simplement vérifier et corriger les transcriptions de la machine. Bien qu’il existe de nombreux autres services OCR disponibles, ils ne desservent pas les langues sous-représentées comme le balinais.

Read-Coop, qui gère Transkribus, est une société coopérative européenne qui compte plus de 100 membres dans le monde. Au final, plus de 20.000 pages de manuscrits en langues et écritures indigènes seront partagés gratuitement sous licence Wikisource, et afin d'être consultés et utilisés par tous.

Wikisource est une bibliothèque de livres et de manuscrits numérisés. Ces textes sont transcrits grâce à un mélange de reconnaissance de texte automatisée, de transcription communautaire et de corrections communautaires. Wikisource prend en charge plus de 70 langues.

Crédits photo : Wikimedia