page_0115

OverviewVersionsHelp

Facsimile

Transcription

Status: Complete
Show Translation

Los académicos pueden navegar a través de la colección, pero gracias a que las páginas han sido ejecutadas por tecnología de reconocimiento óptico de caracteres (OCR) los investigadores también pueden hacer búsqueda de palabras a través del corpus entero. El sistema de búsqueda de texto completo sigue siendo un medio asombrosamente transformativo para proporcionar acceso a los materiales de una colección. A partir de ello, los usuarios pueden leer las páginas digitalizadas individualmente que incluyen sus términos de búsqueda a través de la interfaz del sitio. Además de este modo de acceso, el sitio también proporciona modos de acceso adicionales a la colección: una interfaz de programación de aplicaciones (API) la cual permite a los programadores interactuar con la información de la colección, métodos para obtener acceso masivo a las páginas digitalizadas y descargas masicas de los datos OCR. A través de la API los desarrolladores e investigadores pueden escribir consultas a la medida dentro del corpus de datos.

En la práctica, la API ha resultado ser de menor uso a diferencia de otros de estos formatos. En contraste, los conjuntos de datos masivos del OCR se han usado ampliamente. David Brunton, uno de los principales desarrolladores del sitio, ofrece algunas explicaciones para esto que son ampliamente relevantes para pensar el acceso a colecciones como conjuntos de datos. 105 Las lecciones aprendidas a través de este proyecto ofrecen conocimiento respecto a cuáles son los métodos de acceso multimodal que tiene más sentido priorizar en casos particulares de uso. El uso de la API requiere un entendimiento de codificación web algo sofisticado. La mayoría de los usuarios potenciales de los datos han resultado no ser desarrolladores web y tampoco tienen un acceso considerable a recursos de desarrollo web. En cambio, la mayoría de los académicos interedasos en los datos masivos son a menudo investigadores de humanidades que tienen experiencia limitada con la programación. Como resultado, la descarga masiva de la totalidad de las imágenes de la colección, o incluso una selección, rápidamente proporcionaría a dichos usuarios una cantidad tan masiva de datos que realmente no podrían trabajar con ella de formas significativas. También vale la pena señalar que en este punto no hay muchos enfowues ni métodos para trabajar a nivel computacional con las imágenes como objetos de investigación, así que este tipo de acceso no conecta fácilmente con métodos que los usuarios podrían retomar.

En contraste, los datos OCR al por mayor son relativamente pocos. En vez de descarcar todos los archivos de imágenes grandes los datos masivos de OCR solo contienen los archivos de texto de cada imagen en un tamaño significativamente más pequeño. Como resultado, el texto OCR es algo con lo que un usuario puede trabajar en una computadora portátil de gama alta modesta. Junto con esto, existen un rango de herramientas gratuitas y de código abierto para trabajar a nivel computacional con datos textuales. Como resultado, el acceso masivo al OCR creado con fines de investigación, información que deriva de las imágenes digitalizadas y que, por consiguiente es propenso al ruido y al error, es la información más usada entre las varias formas de proporcionar acceso masivo.

Como ha sido el caso en muchos otros de los ejemplos de acceso a colecciones que se han discutido hasta ahora, muchos de los académicos que trabajan con estos datos han producido ellos mismos formas de investigación digital que ofrecen diferentes interfaces con las cuales interactuar y explorar partes de la colección. Por ejemplo, el proyecto Viral Texts de la Northeastern University ha estudiado y mapeado redes de reimpresión de los periódicos y revistas en el siglo XIX 106. A través de este trabajo, el proyecto ha producido publicaciones tanto tradicionales como académicas, como artículos periodísticos, así como interfaces en línea de textos que han aparecido repetidamente en diferentes periódicos con vínculos hacia sus fuentes. De forma similar, los historiadores en Virginia Tech usan los datos de NDNP para mapear y analizar la cobertura mediática del

105 Ver Brunot, "Various forms of Access to NDNP Data".
106 Para más acerca del equipo de Viral Texts ver Cordell and Mullen, "Fugitive Verses".

Notes and Questions

Nobody has written a note for this page yet

Please sign in to write a note for this page