Reflexiones sobre Catalogación colaborativa

29 April 2019

Establecimos Neogranadina en 2015 para llevar a cabo proyectos de digitalización a escala masiva pero de bajo costo en archivos y bibliotecas colombianas, con el objectivo de poner las imágenes a disposición de todos. Anteriormente, este tipo de trabajo en Colombia se había limitado a instituciones adineradas o colecciones mantenidas por el gobierno nacional, y estaba fuera del alcance de los archivos regionales más pequeños. Debido a que el obstáculo más inmediato para la digitalización era el costo prohibitivo de los equipos y la tecnología involucrados, Juan Cobo desarrolló escáneres de documentos de bajo costo basados ​​en diseños de código abierto y software libre, y los instalamos en dos de los archivos no estatales más importantes del país que se encuentran en las ciudades de Tunja y Popayán. Los resultados fueron muy positivos: comenzamos a crear decenas de miles de imágenes de manuscritos y libros impresos tempranos cada semana, progresando a un ritmo mucho mayor de lo que esperábamos. La cantidad de materiales superó nuestra capacidad de procesarlos para ponerlos a disposición del público. Fue en este momento que nos dimos cuenta de otros obstáculos involucrados en proyectos de digitalización: el costo de almacenar miles de gigabytes de imágenes y las dificultades logísticas para organizar y describir los materiales digitalizados antes de publicarlos.

A través del uso de nuestros escáneres personalizados, que Juan continuó desarrollando y perfeccionando, cumplimos nuestro primer objetivo de reducir drásticamente el costo de los proyectos de digitalización de archivos en Colombia. Pero también enfrentamos el mismo problema al que se enfrentan muchas instituciones, la falta de catálogos completos y la guías de búsqueda, esta vez en el ámbito digital. Los documentos de las colecciones que digitalizamos generalmente han sido empastados con docenas de otros documentos en volúmenes que en gran medida carecen de catálogos comprensivos. Algunos tienen descripciones detalladas en forma de hojas de cálculo, otros tienen catálogos en papel, y algunos cuentan con índices incompletos (algunos no han sido actualizados desde los años veinte del siglo anterior), pero muchos más no tienen ninguna clase de catálogo. Como consecuencia, nuestros cientos de miles de copias digitales eran tan inaccesibles como los originales en papel. Entonces, una vez más, decidimos diseñar una nueva tecnología para encontrar una solución a este problema.

El primer paso de este proceso fue generar información sobre los volúmenes que digitalizamos. Juan creó una hoja de cálculo que los operadores de los escáneres deben llenar al digitalizar cada volumen de material. Este formato incluye información básica sobre el volumen físico, su referencia de archivo, el número de fotos tomadas por volumen y cualquier comentario que el operador tenga sobre su condición física. Esto nos permitió realizar un resumen de los volúmenes que íbamos digitalizando, el cual podemos contrastar con los inventarios de los archivos. Sin embargo, esto no nos acercó a la catalogación de los documentos individuales contenidos en dichos volúmenes.

La solución que encontraron Juan, Santiago Muñoz y Natalie Cobo entre abril y junio de 2015 fue la del crowdsourcing para la recolección masiva de metadatos. Este fue el origen de nuestro proyecto de Catalogación Colaborativa, que consiste en poner los documentos que hemos digitalizado a disposición de investigadores, profesores, estudiantes y todos los interesados para que nos ayudaran a organizar y describir el material. De esta manera, los voluntarios tenían acceso a documentos que podían utilizar para sus investigaciones y ganaban experiencia en paleografía y catalogación mientras que ayudaban a los archivos y a Neogranadina a elaborar sus catálogos. Este trabajo se nutrió de experiencias previas que teníamos. Juan había seguido el progreso de otros esfuerzos de crowdsourcing durante varios años, especialmente el proyecto de Transcribe Bentham de UCL, mientras que nuestros aliados en el Medici Archive Project habían construido herramientas para permitir que los usuarios contribuyeran con transcripciones de documentos y otros metadatos a su plataforma de archivo digital, BIA, que esperábamos usar como base para nuestro propio archivo digital. Santiago tenía experiencia trabajando con estudiantes, en calidad de pasantes, en universidades colombianas, entre los cuales encontramos a nuestros primeros voluntarios.

María José Afanador se unió a Neogranadina en octubre de 2015 y tomó la iniciativa de supervisar a nuestros voluntarios y encontrar nuevos ayudantes, un rol que desempeñó hasta marzo de 2018. Con la ayuda de otros miembros del equipo, María Alejandra Quintero y Samir Pinzón (un excelente paleógrafo cuyo trabajo y aportes fueron invaluables en las primeras etapas de discusión de este proyecto) Maria José también desarrolló recursos para ayudar a los voluntarios con directrices para catalogar y escribir al respecto. Nuestros investigadores junior, Rafael Nieto y Andrés Jácome, luego ayudaron a María José a supervisar a los catalogadores y Andrés produjo una guía introductoria de tipología de documentos notariales que estamos usando actualmente para nuestros proyectos.

Luego de unos meses de experimentación, el proyecto de catalogación colaborativa se lanzó oficialmente en enero de 2017 y atrajo a docenas de voluntarios de todo el mundo. María Alejandra y Maria José tomaron las riendas de nuestras redes sociales para atraer nuevos voluntarios y nuestros colegas académicos fueron igualmente importantes para alentar a los estudiantes a participar. Natalie hizo una presentación sobre el proyecto en el Instituto Max Planck de Historia de Derecho Europeo en marzo de 2016, Santiago en la conferencia de la Federación Internacional de Historia Pública en 2016, María Alejandra en la IV Semana del Libro y la Lectura Digital 2016 de la Biblioteca Nacional de Colombia en Bogotá, y María José en eventos de humanidades digitales en Bogotá en 2016 y 2017, la conferencia DH2018 en México y, poco después de dejar Neogranadina, en la Universidad de Virginia en 2019. Todas estas presentaciones sirvieron para atraer a nuevos catalogadores y fomentar conexiones con otras personas y instituciones interesadas en este proyecto.

Hubo dos aspectos técnicos para crear las herramientas de catalogación digital que fueron implementadas en gran medida por Juan, quien es el programador con más experticia del equipo. El primero fue crear una forma de compartir las imágenes con los catalogadores para que pudieran ver volúmenes enteros y desplazarse por ellos rápidamente, sin comprometer la seguridad de los materiales ni permitir su circulación generalizada antes de que estuvieran listos para su publicación. Esto lo hizo instalando el avanzado sistema de servidor de imágenes de alto rendimiento IIPImage que permite a los usuarios ver imágenes de alta resolución de forma rápida sin necesidad de banda ancha y sin comprometer la memoria o procesamiento de sus computadores personales. Juan creó imágenes en mosaico piramidal a partir de nuestros archivos originales, que podían consultarse a través de un visor de javascript Diva.js que permitía, a su vez, integrarlos en cualquier sitio web. Con este sistema, los usuarios podían ver y desplazarse por volúmenes enteros muy rápidamente y sin necesidad de descargar cientos de imágenes a sus dispositivos.

El segundo aspecto que buscamos resolver estaba relacionado con la captura de datos. Queríamos abrir la catalogación a la mayor cantidad de voluntarios posible, pero debido a las dificultades de lectura del material de este período, sabíamos que habría limitaciones para cada individuo según sus habilidades paleográficas. Por lo tanto, los catalogadores podrían participar en este proceso en diferentes niveles. En el nivel más básico, un catalogador podría ayudar con el control de calidad correlacionando el número de imagen del documento con el número de folio del volumen, y observando si las imágenes estaban borrosas o duplicadas. Aquellos que tenían más habilidad también podrían identificar documentos individuales y registrar su título y las publicaciones correspondientes, así como escribir una breve descripción del documento. A fines de 2016, María Camila Salcedo, especialista en el desarrollo de herramientas para el seguimiento y la gestión de voluntarios en organizaciones sin ánimo de lucro, nos ayudó a desarrollar una plataforma de procesamiento basada en Google Forms, que combina los formularios y las hojas de cálculo, y que hemos utilizamos para Catalogación Colaborativa. Este sistema era bastante básico y reflejaba las limitaciones financieras de la fundación. Sin embargo, a través de la generosidad de la subvención de University of California Humanities Research Institute, hemos podido emplear a un programador para crear un sistema más robusto de catalogación, el cual se lanzará más adelante este año. Con ello, iniciaremos la fase II de catalogación colaborativa en la cual trataremos en próxima publicaciones a través de nuestro blog.

El crowdsourcing de nuestra catalogación ha tenido varios beneficios. En primer lugar, ha permitido que muchas más personas participen en este desafío con Neogranadina. Muchas manos hacen que el trabajo sea más liviano, y la posibilidad de dividir esta tarea entre docenas de voluntarios lo hizo mucho más manejable sin aumentar el costo. Los catalogadores no necesitan viajar a estos archivos, y varias personas pueden trabajar en el mismo volumen a la vez.

En segundo lugar, esto demostró ser una oportunidad pedagógica increíble. Tener acceso a miles de imágenes de materiales de distintos tipos de la temprana edad moderna brinda a profesores un recurso invaluable con el cual capacitar a nuevas generaciones de académicos con las habilidades que necesitan para trabajar en archivos. Algunos de nuestros voluntarios organizaron grupos y clases de lectura y utilizaron los materiales para capacitar a nuevos lectores. Nuestros colegas que enseñan en las universidades también los han estado utilizando con sus estudiantes, y Juan y Santiago han descubierto que son una fuente invaluable para capacitar a sus estudiantes en paleografía.

Lo más alentador es que el resultado final ha sido la creación de una comunidad de académicos, estudiantes y el público en general interesado en contribuir a la preservación y difusión de estos materiales. Creemos que esta comunidad será esencial para garantizar el éxito a largo plazo de nuestros esfuerzos. Después de todo, no tiene mucho sentido mantener un archivo digital si a nadie le interesa utilizarlo.

Si bien hemos estado encantados con los resultados de nuestros esfuerzos hasta la fecha, también nos hemos dado cuenta de que tenemos un largo camino por delante. Solo hemos procesado una pequeña fracción de los materiales que hemos digitalizado, y el ritmo de la digitalización supera el de la catalogación e incluso el de control de calidad. Todavía estamos buscando voluntarios para este proceso, especialmente durante la transición a la fase II, por lo que si estás interesado o deseas obtener más información, visita nuestro sitio web.

Hemos enfrentado una serie de desafíos prácticos, desde el punto de vista técnico, como el estándar para la descripción de archivos a utilizar, hasta el humano, como la forma de mantener a docenas de personas alrededor del mundo motivadas e interesadas. Sobre este último punto pronto podrás leer en mayor detalle un artículo por María José en proceso de publicación sobre su experiencia en la supervisión de voluntarios. Los desafíos técnicos a los que nos enfrentamos se han discutido anteriormente, pero somos optimistas de que con la apertura de la fase II y la nueva plataforma de catalogación colaborativa, estos se reducirán considerablemente mientras seguimos avanzando.