page_0110

OverviewVersionsHelp

Facsimile

Transcription

Status: Complete
Show Translation

archivos. En su mayoría se trata de software comercial que se vende y se usa de forma activa.

Esta colección única se creó para estandarizar las prácticas de identificación de software como parte de investigaciones de cómputo forense. Es decir, en una investigación uno quiere ser capaz de identificar rápidamente qué del contenido de una computadora es software estándar y en qué contenido habría que concentrarse como material potencialmente único y relevante. Como se discutió antes con relación a la fijeza, una de las características claves de los objetos digitales es que es posible generar valores hash criptográficos (MD5, SHA-1, etc) para identificar un archivo de forma única. Así, al centralizar una librería masiva de software comercial, para la NSRL es posible proporcionar valores hash para todos los archivos que contiene, los cuales pueden ser utilizados por cualquier cantidad de organizaciones para identificar concluyentemente qué sofware está en cualquier dispositivo de cómputo.

Si bien todo el contenido de la colección está protegido por derechos de autor, la NSRL puede distribuir metadata de la colección. Esta metadata es útil porque contiene información derivada clave (título, publicador, etc). Junto a la información derivada, la NSRL mantiene una copia de la colección para fines de investigación. Aunque no permitirán acceder a la colección a los investigadores in situ, la NSRL acepta consultas que desafían el corpus masivo de archivos únicos. En ese sentido, este corpus de archivos únicos puesto a prueba ha jugado un papel clave como conjunto de datos de investigación en contra del cual se han desarrollado varios métodos y enfoques de ciencias computacionales.

El NSRL funciona como un archivo oscuro. La colección de archivos de software se mantiene en una red air-gap, una red completamente separada que no está conectada a las computadoras de las salas del NIST, donde se localiza la biblioteca. Esto es, no solo no es posible para ti acceder a dichos archivos, también resulta imposible hacerlo para cualquiera dentro del NIST sin entrar físicamente en el espacio. No es muy distinto al Svalbard Global Seed Vault (el repositorio global de semillas de último recurso), pero para archivos de software. Al derivar metadatos sobre la colección, además de publicar y compartir esa información, el contenido de NSRL es ampliamente usado. Mientras que los archivos reales se preservan y permanecen inaccesibles, la información derivada de dichos archivos tiene un uso inmediato para un rango de comunidades depositantes. De forma similar, al permitir el análisis computacional de los contenidos de sus colecciones, el NIST proporciona una forma valiosa para que otros lo usen. Mientras que la mayoría de los lectores de este libro no contarán con la sofisticada infraestructura que tiene el NSRL, existen algunas moralejas de este caso.
Publicar los metadatos e información descriptiva derivada computacionalmente sobre cualquier colección dada puede resultar muy útil. En particular, la unicidad de los valores hash ofrece un modo potencial para identificar elementos exactamente duplicados en varias colecciones.

Uso no consuntivo: HathiTrust y Google n-gram

Hathitrust es una asociación de más de 120 instituciones de investigación y bibliotecas que proporcionan acceso en línea a millones de obras digitalizadas. En particular, contiene más de 7 millones de libros digitalizados. La asociación se origina a través del proyecto de digitalización Google Books en el cual Google se asoció con bibliotecas para digitalizar los libros de sus colecciones. Mucho del trabajo digitalizado en este proceso siguen bajo la protección de los derechos de autor, y como tal no pueden compartirse amplia y libremente. Dicho lo cual, dentro de la red de socios de HathiTrust es posible hacer uso de las obras bajo derecho de autor de la colección dentro de lo estipulado en la ley de derechos de autor. Esto ha

Notes and Questions

Please sign in to write a note for this page

DaleLore

Non-consumptive use

ac

a partir de una búsqueda verifiqué que no se llama "n-gram" sino "Ngram", así que lo corregí