Ir al contenido principal

GESTIÓN DE DATOS DE INVESTIGACIÓN: DESCRIBIR Y DOCUMENTAR

Guía para entender qué son los datos de investigación y herramientas para gestionarlos

Durante el proyecto...

Esta es la fase del proyecto donde el investigador organiza, documenta, procesa y almacena los datos.

Se requiere :

  • Actualizar el Plan de Gestión de Datos
  • Organizar y documentar los datos
  • Procesar los datos
  • Almacenar los datos para su seguridad y preservación

Describir y documentar

La descripción de datos debe proporcionar un contexto para su interpretación y utilización, ya que los datos carecen por sí mismos de esa información, a diferencia de las publicaciones científicas. Se trata de que se puedan comprender y reutilizar.

Se debería incluir la siguiente información:

  • El contexto: historia del proyecto, objetivos e hipótesis.
  • Origen de los datos: si los datos se generan dentro del proyecto o bien si son recolectados (en este caso, indicar la fuente de donde se han extraído).
  • Métodos de recopilación, instrumentos utilizados.
  • Tipología y formato de los datos (datos observacionales, experimentales, computacionales, etc.)
  • Estándares de descripción: qué estándar de metadatos que se utilizará.
  • Estructura de los archivos de datos y relaciones entre archivos .
  • Validación de datos, verificación, limpieza y procedimientos llevados a cabo para asegurar su calidad .
  • Cambios realizados en los datos a lo largo del tiempo desde su creación original e identificación de las diferentes versiones.
  • Información sobre el acceso, condiciones de uso o confidencialidad.
  • Nombres, etiquetas y descripción de variables y valores.

Recomendaciones

Se recomienda que  sean:  

  • No propietarios
  • Estándares abiertos y documentados
  • Utilizados comúnmente dentro de la comunidad de investigación
  • Transmitidos mediante formas de representación estándar (ASCII, Unicode)
  • No encriptados
  • Sin compresión

 

Formatos de archivo FAIR

  • Contenedores: TAR, GZIP, ZIP
  • Bases de datos: XML, CSV, JSON
  • Geoespacial: SHP, DBF, GeoTIFF, NetCDF
  • Video: MPEG, AVI, MXF, MKV
  • Sonido: WAVE, AIFF, MP3, MXF FLAC
  • Estadísticas: DTA, POR, SAS, SAV
  • Imágenes: TIFF, JPEG 2000, PDF, DNG, GIF, BMP, SVG
  • Datos tabulares: CSV, TXT
  • Texto: XML, PDF / A, HTML, JSON, TXT, RTF
  • Archivo web: WARC

Fuente: How to FAIR. (s.f.). File formats. Recuperado 12 de diciembre de 2020, a partir de https://howtofair.dk/how-to-fair/file-formats/ 

Consejos

  • Elegir formatos comunes en el campo en que se está trabajando
  • Tener en cuenta el tiempo en que se espera conservar los datos: Cuanto mayor sea el periodo de tiempo que se desea conservar los datos, mayor será la necesidad de seleccionar formatos abiertos, estandarizados y bien documentados.
  •  La conversión de archivos puede provocar la pérdida de datos (es recomendable usar herramientas como OpenRefine

 

 

 

 

Denominación

Es importante

  • Usar nombres cortos que describan bien el archivo
  • No usar espacios
  • Utilizar solo caracteres alfanuméricos.
  • Eliminar los caracteres especiales
  • Usar siempre la misma estructura para nombrar archivos
  • Ser consistente en el uso de minúsculas/mayúsculas

Control de versiones

Es importante controlar las versiones, por lo que se recomienda:

  • Usar números ordinales (1,2,3, etc.) para cambios importantes  y decimales para cambios menores, por ejemplo: v1, v1.1, v2.6
  • No usar etiquetas confusas: revisión, final, final2, copia_definitiva.
  • Registrar todos los cambios.
  • Eliminar las versiones obsoletas.
  • Utilizar una función de copia de seguridad automática (si está disponible) en lugar de guardar o archivar varias versiones
  • Activar el control de versiones o el seguimiento en documentos de colaboración

Los metadatos sirven para describir de forma estructurada y normalizada los datasets: el propósito, origen, referencias temporales, referencias geográficas, autoría, condiciones de acceso y términos de uso de una colección de datos. Existen para ello esquemas de metadatos generales, especializados y generados por el propio software.

La principal diferencia entre la documentación en general y los metadatos, consiste en que estos últimos poseen una estructura que les permite ser procesados mediante computadoras, por lo cual pueden transmitirse con mayor facilidad y ser interoperables.

Tipos de metadatos

  •     Metadatos descriptivos :Información sobre el contenido del recurso, que es de utilidad para su recuperación y comprensión. Por ejemplo: título, autor, ​abstract, palabras clave. Metadatos básicos para la descripción de datos de investigación en los repositorios institucionales (REBIUN).
  •     Metadatos administrativos :Información necesaria para manejar un recurso o que se relaciona con su creación. Dentro de esta categoría se encuentran los metadatos técnicos (necesarios para decodificar y procesar el recurso), los metadatos de preservación (necesarios para la gestión y migración en el largo plazo), y los metadatos de derechos (referidos a la propiedad intelectual)
  •     Metadatos estructurales .Describen las relaciones que existen entre las partes de un conjunto de datos. Por ejemplo, un esquema que representa las relaciones entre tablas de una base de datos o una tabla de contenidos.
Biblioteca de la Universidad de Extremadura

Licenica Creative Commons CC BY-SA 4.0