Inicio Biblioteca Complutense Catálogo Cisne Colección Digital Complutense

Seminario de formación: transcripción automatizada de fuentes manuscritas con eScriptorium

27 de Julio de 2021 a las 10:34 h

El jueves 23 y viernes 24 de septiembre de 2021 tendrá lugar en la Casa de Velázquez (Madrid) un curso presencial y seminario de formación sobre la transcripción automatizada de fuentes manuscritas. La formación, coordinada por instituciones españolas y francesas, tiene como objetivo la transcripción automatizada de manuscritos, en inglés HTR (Handwritten Text Recognition), gracias al programa eScriptorium. Esta formación está financiada por la Casa de Velázquez, la Universidad Complutense de Madrid, la Universidad Autónoma de Madrid y la Comunidad de Madrid (proyecto Canon Hispánico, 2019-T1_HUM-15228).

 

Este programa ha sido creado en la Universidad PSL (Paris Sciences & Lettres) en colaboración con el INRIA (Institut national de recherche en sciences et technologies du numérique). eScriptorium es un software libre, a diferencia de otros programas como Transkribus, y está basado en la herramienta de transcripción automatizada Kraken3. eScriptorium ha mostrado resultados sólidos tanto en términos de eficacia y como en la disponibilidad del código fuente.

La formación se centrará en las grafías manuscritas conservadas en la península ibérica entre los siglos XIII y XV, tomando como objeto de estudio un manuscrito del scriptorium del rey Alfonso X el Sabio (1221-1284). El manuscrito seleccionado se utilizará para producir un modelo de reconocimiento automático, que será posteriormente publicado. Se pretende, por tanto, establecer un diálogo entre la filología y las humanidades digitales.

 

Jueves 23 de septiembre

El curso comenzará con una introducción a la paleografía peninsular de la Edad Media, con especial atención a los límites en el estudio de esta tradición, y una presentación de la escritura del manuscrito elegido. Será impartida por Leonor Zozaya-Montes (Universidad de Las Palmas de Gran Canarias-CHSC, IATEXT, Universidade de Coimbra). Irene Salvo García (UAM) presentará a continuación el texto y la historia del manuscrito alfonsí. En la sesión de la tarde, Benjamin Kiessling (PSL) y Peter Stokes (EPHE), parte del equipo creador de eScriptorium, presentarán el programa, comenzando por una introducción a lo que llamamos aprendizaje supervisado4, a su funcionamiento y a su metodología. Los participantes dispondrán, una vez presentado el programa, de dos o tres horas para transcribir sesenta folios del manuscrito estudiado, que se repartirán previamente entre los asistentes. El modelo de lectura será creado por eScriptorium durante la noche del jueves al viernes.

 

Viernes 24 de septiembre

La jornada comenzará con una evaluación cuantitativa y cualitativa del modelo conseguido el día anterior, con el objetivo de determinar las fortalezas y debilidades de la herramienta y comprender mejor cómo funciona un algoritmo de aprendizaje supervisado (teniendo en cuenta tanto las limitaciones posibles del corpus de entrenamiento como de la transcripción producida por los participantes en la sesión de trabajo del día anterior).

 

La siguiente sesión, de aproximadamente dos horas, se dedicará a la "post-transcripción" del texto, es decir, al tratamiento de dos de los problemas recurrentes en la transcripción de las lenguas romances medievales: la segmentación de palabras y de espacios en la frase (ya que los usos medievales difieren de los actuales), y el desarrollo y la gestión de las abreviaturas. La consideración de estos dos aspectos es clave para que la lectura automatizada de manuscritos sea productiva y no deba verificarse manualmente una vez extraído el texto. En línea con la primera sesión, Leonor Zozaya-Montes presentará a continuación los métodos y normas de transcripción actuales, sus prejuicios y limitaciones. Matthias Gille Levenson completará la aproximación a la transcripción presentando los métodos informáticos que pueden aplicarse al manuscrito para resolver las cuestiones de segmentación y de abreviación. Para ello recurrirá a las herramientas disponibles más actuales, teniendo en cuenta dos metodologías posibles: el método algorítmico clásico y el método por aprendizaje, con sus respectivas ventajas y desventajas. Las herramientas de segmentación y gestión de abreviaturas para el castellano medieval, como para otras lenguas romances, están en proceso de desarrollo, precisamente por ello la formación propuesta aúna la modalidad de curso y de seminario.

 

La jornada del viernes terminará con la conferencia de clausura impartida por Belén Almeida Cabrejas (Universidad de Alcalá) que presentará el proyecto de edición CHARTA5 y el corpus CODEA (Corpus de Documentos Españoles Anteriores a 1800)

 

MÁS INFORMACIÓN

 

Bookmark and Share

Comentarios - 0

No hay comentarios aun.


Universidad Complutense de Madrid - Ciudad Universitaria - 28040 Madrid - Tel. +34 914520400
[Información - Sugerencias]