The Theory and Craft of Digital Preservation

ReadAboutContentsHelp

Pages

page_0031
Complete

page_0031

Todas nuestras interacciones con la información digital son mediadas a través de capas de plataformas. De acuerdo con el trabajo en el campo de los estudios de plataformas, estoy usando una definición bastante amplia del término. Es decir, “Cualquier cosa que el programador da por sentada cuando desarrolla, y lo que sea, desde el otro lado, se requiere que el usuario trabaje para usar un software en particular, es la plataforma”. 28 Esto incluye, pero no está limitado a: sistemas operativos, lenguajes de programación, formatos de archivos, aplicaciones de software para crear o renderizar contenido, esquemas de codificación, algoritmos de compresión y protocolos de intercambio.

La mejor forma de explicar esta lógica de plataformas es hablar a través de un ejemplo. Podemos comenzar con un ejemplo de archivos desaparecidos de mi propia historia personal. Una copia de un sitio web para la banda que empecé en la secundaria. Tristemente, estos archivos se perdieron en la historia, pero la relativa falta de sofisticación los hace un buen caso de estudio para trabajar.

Entonces imaginen que yo les proporciono un disco duro externo y en él hay una copia del sitio web de mi banda. Conecta la unidad a su computadora, puede abrirlo y ver qué hay dentro de él. En el directorio raíz puede ver un archvio llamado “index.html” y algunas otras carpetas. Da click en ese archivo index.html y su navegador web lo inicia. Justo ahí ,puede ver el renderizado de la página web. En la página de inicio puede ver algunas fotografías de la banda, simplemente se muestran ahí en la página de su navegador. Puede dar click para leer las biografías de todos los miembros de la banda en una página HTML diferente. Incluso puede hacer click en una página donde puede acceder a una de las canciones de la banda en formato MP3. Puede hacer click y simplemente se reproduce en su navegador. Ahí se encuentra disfrutando, o al menos experimentando, la música de Marzapan circa 2001.

Todo esto es solo una forma de experimentar esos archivos. Su navegador web es una plataforma para ver sitios web, y como tal, es una forma para que usted interactúe con el sitio como el creador quiso que el usuario interactuara con él. Si cierra su navegador y regresa al directorio de archivos en el CD, puede obtener una vista diferente. Si comienza a abrir esas otras carpetas dentro de ese directorio, puede examinar cada uno de los archivos individuales que componen el sitio. Cuando abre el directorio va a ver una lista de archivos.

Al igual que con cualquier otra carpeta de archivos, puede acomodarlos por tipo, nombre, fecha, etc. Conforme explora los directorios, aprende algunas cosas nuevas acerca del sitio web de la banda. Ve cosas que no podría haber visto en la pantalla en su navegador web. Desde esa vista, puede ver que algunos de los archivos fueron creados en 2001 y otros en 2003. Puede hacer click en ese archivo index.html y abrirlo en una aplicación diferente, como un editor de texto, y ahí puede ver todo el código HTML que fue interpretado por su navegador para crear la página. Puede incluso haber comentarios en el HTML que proporcionan información adicional sobre por qué se presenta de esa manera.

Si hace click derecho en alguno de los archivos MP3 debería iniciar cualquier aplicación que su computadora tenga predeterminada para reproducir archivos de audio. También puede hacer click derecho en el archivo y seleccionar ver las propiedades del archivo. En este caso, puede ver los metadatos que están incrustados en el archivo. Desde ahí puede ver que el autor del archivo se llama “Marzapan” y que aparentemente es de un álbum llamado “Beauty of a Bad Situation”. Toda esta información está incrustada dentro del archivo en sus etiquetas ID3.

Si usted quiere ver cómo funciona, simplemente cambie la extensión del archivo de .mp3 a .txt. Ignore el mensaje algo pasivo-agresivo de la computadora preguntando si “está seguro de que quiere hacer eso”. Ahora, haciendo click en él, abrirá el programa que sea que use para abrir archivos de texto. Ahí verá un montón de caracteres sin sentido, pero también verá todo el texto que apareció en las propiedades del archivo, el nombre del albún y el autor. Estos metadatos incrustados son codificados como texto dentro del archivo de manera que pueda leerlos con cualquier herramienta que pueda leer esa clase de texto codificado, en este caso Unicode. Existe una buena posibilidad que usted haya podido ver texto adicional aquí también, ya que toda la información que vio en las propiedades del archivo a través del explorador de archivos fue solo la información que los creadores del sistema de archivos consideraron particularmente relevante.

_____ 28 Montfort &Bogost, Racing the beam, 2.

Last edit over 3 years ago by ac
page_0032
Complete

page_0032

Continúe haciendo click y puede encontrar que, mientras podría solo ver uno de los archivos MP3, cuando lo revisó a través del navegador web, de hecho, ¡todo el EP de 5 canciones estaba allí! Este tipo de patrón se repite a lo largo de, básicamente, todas las capas de plataformas. Puede encontrarse las cosas que no estaban visibles en el nivel más alto de abstracción mientras explora hacia abajo; desde cómo fue renderizado, hasta la estructura en el sistema de archivos, hasta la información incrustada en los archivos. En este punto, usted ha visto el sitio web como se renderiza, ha visto los archivos y directorios individuales y ha visto alguna de la información incrustada en algunos de esos archivos individuales. Puede seguir y hacer una copia lógica de toda la información en su computadora si gusta. Dicho esto, puede aún haber más información en ese medio que no se muestra aún.

En otro nivel, podría continuar y abrir cualquiera de esos archivos encontrados en un editor Hex, una aplicación que le permite ver la información binaria subyacente en un archivo. Puede ver la información binaria subyacente que compone el archivo. Para cualquier archivo que ponga en este proceso, usted habrá aprendido una buena porción de la secuencia y estructura de la información en el archivo.

Si lo desea, podría seguir y obtener una copia forense de toda la información en el medio. Cuando mi yo joven eliminó cosas del disco, creí que estaba eliminando la información dentro de él. Pero no. Como sucede con otros medios de almacenamiento digital, cuando eliminamos algo generalmente estamos solamente diciéndole al sistema que olvide que hay información ahí y marcar ese espacio como abierto para ser sobrescrito. Entonces, si continuara y creara una copia forense de la secuencia de bits como está realmente acomodada en el disco, y luego usara el editor Hex de nuevo para ver a través de lo que está actualmente almacenado en cada área del disco, sería completamente posible que pudiera encontrar que gran parte del supuestamente espacio vacío en el disco todavía contiene archivos que podría recuperar.

Dependiendo de exactamente cómo fue eliminado y cómo se logró, yo podría necesitar mandarlo a un grupo especial de recuperación forense que podría descartar lo que el disco dice, en este caso, acerca de la información en él y forzar la lectura de partes que él considere en blanco. Si bien usted no puede acceder a la información que fue sobrescrita, podría averiguar que, antes de que yo ponga el sitio web de mi banda en este disco, tenía todos los artículos que escribí en la secundaria como archivos .doc y usted podría justamente abrir cualquiera de los archivos que estaban ahí.

Esto es una especie de recorrido de las muchas capas de plataformas que están apiladas entre sí en el caso de este disco duro. La tabla de abajo aterriza todo esto como una serie de capas.29

-----29 Esta tabla, y mucho del análisis se basa en lo informado por Lee, "Digital Curation as Communication Mediation. "

Last edit over 3 years ago by ac
page_0033
Complete

page_0033

Niveles en objetos Digitales _____________________________________________________________________ Nivel / Explicación / Ejemplo Objeto compuesto o complejo / Un objeto compuesto por múltiples archivos, pero experimentado como uno solo / El sitio web renderizado en un navegador.

Archivo renderizado / Un archivo renderizado a través de una aplicación de software / Los archivos Mp3 o JPEG del disco vistos a través de reproductores o visores.

Archivo en el sistema de archivos / Información acerca de archivos individuales visibles a través de un sistema de archivos / Ver los directorios de archivos en el disco, viendo las propiedades individuales.

Archivo como un flujo de bits / La secuencia lineal de valores binarios en el archivo / Abriendo un archivo en el editor hex.

Información sub-archivo / Información extraíble y visible del interior del archivo / El texto en las etiquetas ID3 incrustadas dentro del MP# visible en la version de texto.

Flujo de bits a través de I/0 / Serie de 1s y 0s como se presentan a la computadora / Los contenidos del CD que podría copiar.

Flujo de bits en un medio físico / Codificación física de información en el medio subyacente interpretado / Las características físicas reales del CR-RW, en este caso mueren, que aún contienen información adicional. _____________________________________________________________________

A medida que avanza desde la parte inferior de la tabla hasta la parte superior, aísla las capas individuales con propiedades distintas. Es importante destacar que esa misma capa base, el flujo de bits en un medio físico, es la única capa que es realmente un material. Regresando a los conceptos del capítulo anterior, estamos interactuando con un objeto potencialmente artificial. Todo lo que está por encima de esa capa inferior es informativo. Es decir, cuando se pasa de la primer capa a la segunda, se pasa de la información codificada en un medio a las señales binarias digitales.

Todas las capas en esta pila pueden considerarse como los objetos en los que usted puede concentrarse para preservar. Junto con eso, cada uno puede representar diferentes niveles de un objeto en el que sus usuarios actuales o futuros podrían interesarse en estudiar. Es decir, para alguien estudiando sitios web publicados, va a ser fundamental el enfocarse en la capa más superior. Por el contrario, para aquellos interesados en una unidad como esta que podría formar parte de una colección de manuscritos, los aspectos de cómo la información se organizó en el disco e incluso los archivos eliminados podrían ser de interés. En resumen, identificar qué capas de la plataforma son importantes para la intención de preservación de una organización se convierte en una parte crítica de la preservación digital.

Last edit over 3 years ago by ac
page_0034
Complete

page_0034

La naturaleza de plataformas de nuevos medios presenta una oportunidad para ahondar en una serie de puntos conceptuales clave que están ligados a la naturaleza de la plataforma. Mirando hacia atrás, al ejemplo de los archivos del sitio web de Marzapan, voy a explicar; esencialismo de pantalla, teoría de formatos, compresión, protocolos de intercambio, esquemas de codificación, código fuente y archivos fuente. Estos conceptos clave en las plataformas proporcionan un medio para lidiar con el diagnóstico y entendimiento de un conjunto dado de contenido digital para propósitos de preservación y acceso.

Evitando el esencialismo de pantalla

Al inicio del ejemplo de anterior, observamos el contenido de un sitio web a través de un navegador web. Si preguntara a alguien qué es el sitio web, hay una buena posibilidad de que ellos dijeran que es éso. Es lo que se renderiza en pantalla. En un nivel, están en lo correcto. El sitio web es lo que se ve. Sin embargo, como descubrimos al adentrarnos en los archivos, realmente hay más información potencialmente interesante que aparece en diferentes capas en estas plataformas. Hay una tendencia al trabajar con información digital de dar por sentado que lo que aparece en la pantalla, en la aplicación que está destinada a renderizarlo, es todo lo que es significativo acerca de él. Como muestra el ejemplo anterior, esta puede ser una idea muy engañosa. Los nuevos estudiosos en medios lo han denominado esencialismo de pantalla, y es un término burlón.30 Es decir, el decir que alguien es un esencialista de pantalla es decir que no están prestando atención a todos los otros aspectos de algunos objetos digitales que podrían ser significativos e importantes, pero simplemente no aparecen en la pantalla.

Como el ejemplo anterior lo ilustra, en casi toda capa anidada en la pila de plataformas hay una información potencialmente significativa que no aparece en la experiencia común de interactuar con un archivo en sus aplicaciones predeterminadas. Desde los sectores en los medios, a los archivos mostrados en el sistema de archivos, hasta los metadatos incrustados en los archivos en sí, están todos estos rincones y grietas donde la información potencialmente interesante podría estar esperando ser interpretada. La forma en la que solucionamos el problema es dar un paso atrás y asegurarnos que tenemos un entendimiento sólido de todas las capas de plataformas que están en juego en un contexto dado y luego asegurarnos que hemos pensado a través de cuál de ellas es particularmente relevante para lo que queremos preservar acerca del objeto.

Comprendiendo la teoría de formatos

Así como exploramos el disco duro, repetidamente nos encontramos con formatos de archivos. Al nivel de archivo, esas extensiones de archivos (.mp3, .jpg, .doc, etc.) se convierten en jugadores clave en nuestra historia. Entre el nivel del archivo y el nivel del contenido renderizado, el formato del archivo y la aplicación renderizadora son las cosas que nos permiten interactuar con el objeto digital. En este punto podemos empezar a pensar en movernos horizontalmente fuera de la tabla de arriba. Es decir, la pila vertical de capas digitales detalladas arriba acertadamente describe lo que es la información en el disco, pero no describe cómo en cada una de esas capas, otras plataformas necesitan ser invocadas para interactuar con contenido. Los formatos de archivos son un buen ejemplo de este tipo de conexión horizontal.

Un formato de archivo es una especificación que establece las reglas sobre cómo es estructurada y almacenada la información en un archivo. Esas extensiones de archivo (.mp3, .jpg, .doc) son una parte de cómo el archivo se define a sí mismo y permite ser interpretado. También son parte de cómo el sistema operativo de una computadora sabe qué aplicación debe usar para renderizarlo. Puede también identificar archivos basado en la información en el encabezado del archivo o la firma del archivo. Los formatos de archivos sirven como las convenciones que habilitan la mayoría del cómputo moderno. Cada formato de archivo tiene su propia historia. Hasta cierto punto, su propia forma de conceptualizar el aspecto del mundo en el que funciona. Por ejemplo, el éxito y el uso generalizado de los archivos PDF está vinculado a qué tan bien replican aspectos de los documentos impresos. Los archivos PDF “participan de la forma y la fijación de la impresión que otros formatos de texto digital no suelen utilizar”. 31 En ese sentido, los archivos PDF son entendidos de mejor forma como parte de una historia de intercambio y reproducción de documentos que se remonta a través de tecnologías como la xerografía y el microfilm. En ese sentido, es importante darse cuenta de que el formato de un archivo es más que un contenedor de información, es también informativo por derecho propio.

____ 30 El término esencialismo de pantalla fue acuñado por Nick Montford en "Continuous Paper: MLA" 31 Gitelman, Paper Knowledge, 114

Last edit over 3 years ago by ac
page_0035
Complete

page_0035

Los archivos MP3 ofrecen otro ejemplo. Como muchos otros formatos, el MP3 usa compresión. Un archivo comprimido va a ser más pequeño que lo que tomaría el codificar secuencialmente toda la información en un archivo. Como punto de contraste, un archivo .WAV generalmente contiene datos de audio PCM (modulación de código de pulso) sin comprimir. Esos datos PCM incluyen, en orden lineal, información para cada estado secuencial de sonido. Entonces, al inicio del archivo encontrará partes relacionadas con el inicio de la grabación y hacia el final, bits que son parte del sonido al final. Explorar un poco sobre compresión ayudará a establecer lo que podría ser significativo acerca de un archivo en un contexto dado.

Entendiendo la compresión

Un archivo comprimido es más pequeño que un archivo descomprimido. Suena como si alguien pudiera haberlo puesto en un vicio o algo, pero en computación la compresión es lograda sistemáticamente removiendo alguna de la información en el archivo. En el caso de compresión sin pérdidas, el archivo simplemente removerá información que sea redundante e idéntica. Por ejemplo, un archivo de imagen, en lugar de almacenar valores para “píxel rojo, píxel rojo, píxel rojo” podría codificar esa secuencia como “3 píxeles rojos”. También hay compresión con pérdidas, donde una decisión ha sido tomada respecto a qué información no es particularmente relevante y entonces esa información es sistemáticamente removida. La compresión con pérdidas hace posible el reducir drásticamente el tamaño de un archivo.

En el caso de un archivo MP3, hay diferentes niveles de compresión que pueden ser usados para crear archivos considerablemente pequeños. Un archivo que está ligeramente comprimido seguramente no sonará muy diferente para usted. Esto es porque los algoritmos utilizados para comprimir archivos de audio están basados en, aproximadamente un siglo de investigación en procesamiento de señales. Las compañías de teléfono gastaron recursos considerables elaborando métodos para identificar qué partes de la información de audio está en sintonía con la audición humana. Estos experimentos se basaron en identificar conjuntos de personas conocidas por tener un “oído dorado” y en herramientas de entrenamiento y sistemas basados en sus gustos y sensibilidades. En este aspecto, cada MP3 “acarrea dentro de sí entendimientos prácticos y filosóficos sobre qué significa el comunicarse, el escuchar o hablar, cómo el oído de la mente funciona y qué significa el hacer música”. 32 En el caso del MP3, la historia es también legal y aterrizada en el marcado. Como un formato de propietario, cada aplicación que reproduce MP3 paga para hacerlo.

Encontrar archivos MP3 en esa parte de medios digitales conecta la información directamente con la historia del formato. También comunica algo acerca del archivo de audio y acerca de su historia y producción. Si, en cambio, hubiéramos encontrado archivos WAV con datos de audio sin comprimir, habría significado que el creador de los archivos se preocupó más por la calidad del audio. Al mismo tiempo, habría sido probablemente confuso ya que el tamaño más pequeño de un archivo MP3 es parte de lo que lo hizo tan útil como formato para distribuir a través del internet. Es decir, si hubiera archivos WAV en el sitio web, podría provocar preguntas acerca de porqué ese formato fue utilizado. De manera similar, si los archivos fueran de tipo OGG, un formato libre e irrestricto por patentes de software, podría comunicar que el creador del archivo estaba más comprometido con el movimiento de software de código abierto que asegurarse de que la mayoría de los usuarios que visitaran el sitio pudieran reproducirlo con facilidad en su navegador. En cada caso, el formato del archivo y la información acerca de cómo el archivo es preparado dentro de los parámetros de la especificación para el archivo, contiene información considerable que, en muchos casos, es esencial para lo es significativo acerca de él.

______ 32 From, Sterne, MP3, p.2

Last edit over 3 years ago by ac
Displaying pages 31 - 35 of 138 in total