Ir al contenido principal

Gestión de datos de investigación.

Guía diseñada para entender qué son los datos de investigación y herramientas para gestionarlos

Durante el proyecto...

Esta es la fase del proyecto donde el investigador organiza, documenta, procesa y almacenan los datos. Se requiere :

  • Actualizar el Plan de Gestión de Datos
  • Organizar y documentar los datos
  • Procesar los datos
  • Almacenar los datos para su seguridad y preservación

Describir y documentar

La descripción de datos debe proporcionar un contexto para su interpretación y utilización, ya que los datos carecen por sí mismos de esa información, a diferencia de las publicaciones científicas. Se trata de que se puedan comprender y reutilizar.

Se debería incluir la siguiente información:

  • El contexto: historia del proyecto, objetivos e hipótesis.
  • Origen de los datos: si los datos se generan dentro del proyecto o bien si son recolectados (en este caso, indicar la fuente de donde se han extraído).
  • Métodos de recopilación, instrumentos utilizados.
  • Tipología y formato de los datos (datos observacionales, experimentales, computacionales, etc.)
  • Estándares de descripción: qué estándar de metadatos que se utilizará.
  • Estructura de los archivos de datos y relaciones entre archivos .
  • Validación de datos, verificación, limpieza y procedimientos llevados a cabo para asegurar su calidad .
  • Cambios realizados en los datos a lo largo del tiempo desde su creación original e identificación de las diferentes versiones.
  • Información sobre el acceso, condiciones de uso o confidencialidad.
  • Nombres, etiquetas y descripción de variables y valores.

Se recomienda que  sean:  

  • No propietarios

  • Estándares abiertos y documentados

  • Utilizados comúnmente dentro de la comunidad de investigación

  • Transmitidos mediante formas de representación estándar (ASCII, Unicode)

  • No encriptados

  • Sin compresión

Formatos de archivo FAIR

  • Contenedores: TAR, GZIP, ZIP
  • Bases de datos: XML, CSV, JSON
  • Geoespacial: SHP, DBF, GeoTIFF, NetCDF
  • Video: MPEG, AVI, MXF, MKV
  • Sonido: WAVE, AIFF, MP3, MXF FLAC
  • Estadísticas: DTA, POR, SAS, SAV
  • Imágenes: TIFF, JPEG 2000, PDF, DNG, GIF, BMP, SVG
  • Datos tabulares: CSV, TXT
  • Texto: XML, PDF / A, HTML, JSON, TXT, RTF
  • Archivo web: WARC

Fuente: How to FAIR. (s.f.). File formats. Recuperado 12 de diciembre de 2020, a partir de https://howtofair.dk/how-to-fair/file-formats/

 

CONSEJOS

  • Elegir formatos comunes en el campo en que se está trabajando
  • Tener en cuenta el tiempo en que se espera conservar los datos: Cuanto mayor sea el periodo de tiempo que se desea conservar los datos, mayor será la necesidad de seleccionar formatos abiertos, estandarizados y bien documentados.
  •  La conversión de archivos puede provocar la pérdida de datos (es recomendable usar herramientas como OpenRefine

Denominación

Es importante

  • Usar nombres cortos que describan bien el archivo
  • No usar espacios
  • Utilizar solo caracteres alfanuméricos.
  • Eliminar los caracteres especiales
  • Usar siempre la misma estructura para nombrar archivos
  • Ser consistente en el uso de minúsculas/mayúsculas

Control de versiones

Es importante controlar las versiones, por lo que se recomienda:

  • Usar números ordinales (1,2,3, etc.) para cambios importantes  y decimales para cambios menores, por ejemplo: v1, v1.1, v2.6
  • No usar etiquetas confusas: revisión, final, final2, copia_definitiva.
  • Registrar todos los cambios.
  • Eliminar las versiones obsoletas.
  • Utilizar una función de copia de seguridad automática (si está disponible) en lugar de guardar o archivar varias versiones
  • Activar el control de versiones o el seguimiento en documentos de colaboración

 

Conviene usar metadatos, que sirven para describir de forma estructurada y normalizada los datasets: el propósito, origen, referencias temporales, referencias geográficas, autoría, condiciones de acceso y términos de uso de una colección de datos. Existen para ello esquemas de metadatos generales, especializados y generados por el propio software.

La principal diferencia entre la documentación en general y los metadatos, radica en que estos últimos poseen una estructura que les permite ser procesados mediante computadoras, por lo cual pueden transmitirse con mayor facilidad y ser interoperables.

3 tipos de metadatos:

    Metadatos descriptivos

Información sobre el contenido del recurso, que es de utilidad para su recuperación y comprensión. Por ejemplo: título, autor, ​abstract, palabras clave

Metadatos básicos para la descripción de datos de investigación en los repositorios institucionales (REBIUN)

    Metadatos administrativos

Información necesaria para manejar un recurso o que se relaciona con su creación. Dentro de esta categoría se encuentran los metadatos técnicos (necesarios para decodificar y procesar el recurso), los metadatos de preservación (necesarios para la gestión y migración en el largo plazo), y los metadatos de derechos (referidos a la propiedad intelectual)

    Metadatos estructurales

Describen las relaciones que existen entre las partes de un conjunto de datos. Por ejemplo, un esquema que representa las relaciones entre tablas de una base de datos o una tabla de contenidos.

 

Conviene usar metadatos, que sirven para describir de forma estructurada y normalizada los datasets: el propósito, origen, referencias temporales, referencias geográficas, autoría, condiciones de acceso y términos de uso de una colección de datos. Existen para ello esquemas de metadatos generales, especializados y generados por el propio software.

La principal diferencia entre la documentación en general y los metadatos, radica en que estos últimos poseen una estructura que les permite ser procesados mediante computadoras, por lo cual pueden transmitirse con mayor facilidad y ser interoperables.

3 tipos de metadatos:

  • Metadatos descriptivos

Información sobre el contenido del recurso, que es de utilidad para su recuperación y comprensión. Por ejemplo: título, autor, ​abstract, palabras clave

Metadatos básicos para la descripción de datos de investigación en los repositorios institucionales (REBIUN)

  • Metadatos administrativos

Información necesaria para manejar un recurso o que se relaciona con su creación. Dentro de esta categoría se encuentran los metadatos técnicos (necesarios para decodificar y procesar el recurso), los metadatos de preservación (necesarios para la gestión y migración en el largo plazo), y los metadatos de derechos (referidos a la propiedad intelectual)

  • Metadatos estructurales

Describen las relaciones que existen entre las partes de un conjunto de datos. Por ejemplo, un esquema que representa las relaciones entre tablas de una base de datos o una tabla de contenidos.

Biblioteca de la Universidad de Extremadura

Licenica Creative Commons CC BY-SA 4.0