Ir al contenido principal

GESTIÓN DE DATOS DE INVESTIGACIÓN: DESCRIBIR Y DOCUMENTAR

Guía para entender qué son los datos de investigación y herramientas para gestionarlos

Durante el proyecto...

Esta es la fase del proyecto donde el investigador organiza, documenta, procesa y almacena los datos.

Se requiere :

  • Actualizar el Plan de Gestión de Datos
  • Organizar y documentar los datos
  • Procesar los datos
  • Almacenar los datos para su seguridad y preservación

Describir y documentar

La descripción de datos debe proporcionar un contexto para su interpretación y utilización, ya que los datos carecen por sí mismos de esa información, a diferencia de las publicaciones científicas. Se trata de que se puedan comprender y reutilizar. Se hace mediante un fichero Readme.

Se debería incluir la siguiente información:

  • El contexto: historia del proyecto, objetivos e hipótesis.
  • Origen de los datos: si los datos se generan dentro del proyecto o bien si son recolectados (en este caso, indicar la fuente de donde se han extraído).
  • Métodos de recopilación, instrumentos utilizados.
  • Tipología y formato de los datos (datos observacionales, experimentales, computacionales, etc.)
  • Estándares de descripción: qué estándar de metadatos que se utilizará.
  • Estructura de los archivos de datos y relaciones entre archivos .
  • Validación de datos, verificación, limpieza y procedimientos llevados a cabo para asegurar su calidad .
  • Cambios realizados en los datos a lo largo del tiempo desde su creación original e identificación de las diferentes versiones.
  • Información sobre el acceso, condiciones de uso o confidencialidad.
  • Nombres, etiquetas y descripción de variables y valores.

Recomendaciones

Se recomienda que  sean:  

  • No propietarios
  • Estándares abiertos y documentados
  • Utilizados comúnmente dentro de la comunidad de investigación
  • Transmitidos mediante formas de representación estándar (ASCII, Unicode)
  • No encriptados
  • Sin compresión

 

Formatos de archivo FAIR

  • Contenedores: TAR, GZIP, ZIP
  • Bases de datos: XML, CSV, JSON
  • Geoespacial: SHP, DBF, GeoTIFF, NetCDF
  • Video: MPEG, AVI, MXF, MKV
  • Sonido: WAVE, AIFF, MP3, MXF FLAC
  • Estadísticas: DTA, POR, SAS, SAV
  • Imágenes: TIFF, JPEG 2000, PDF, DNG, GIF, BMP, SVG
  • Datos tabulares: CSV, TXT
  • Texto: XML, PDF / A, HTML, JSON, TXT, RTF
  • Archivo web: WARC

Fuente: How to FAIR. (s.f.). File formats. Recuperado 12 de diciembre de 2020, a partir de https://howtofair.dk/how-to-fair/file-formats/ 

Consejos

  • Elegir formatos comunes en el campo en que se está trabajando
  • Tener en cuenta el tiempo en que se espera conservar los datos: Cuanto mayor sea el periodo de tiempo que se desea conservar los datos, mayor será la necesidad de seleccionar formatos abiertos, estandarizados y bien documentados.
  •  La conversión de archivos puede provocar la pérdida de datos (es recomendable usar herramientas como OpenRefine

 

 

 

 

Denominación

Es importante

  • Usar nombres cortos que describan bien el archivo
  • No usar espacios
  • Utilizar solo caracteres alfanuméricos.
  • Eliminar los caracteres especiales
  • Usar siempre la misma estructura para nombrar archivos
  • Ser consistente en el uso de minúsculas/mayúsculas

Control de versiones

Es importante controlar las versiones, por lo que se recomienda:

  • Usar números ordinales (1,2,3, etc.) para cambios importantes  y decimales para cambios menores, por ejemplo: v1, v1.1, v2.6
  • No usar etiquetas confusas: revisión, final, final2, copia_definitiva.
  • Registrar todos los cambios.
  • Eliminar las versiones obsoletas.
  • Utilizar una función de copia de seguridad automática (si está disponible) en lugar de guardar o archivar varias versiones
  • Activar el control de versiones o el seguimiento en documentos de colaboración

Los metadatos sirven para describir de forma estructurada y normalizada los datasets: el propósito, origen, referencias temporales, referencias geográficas, autoría, condiciones de acceso y términos de uso de una colección de datos. Existen para ello esquemas de metadatos generales, especializados y generados por el propio software.

La principal diferencia entre la documentación en general y los metadatos, consiste en que estos últimos poseen una estructura que les permite ser procesados mediante computadoras, por lo cual pueden transmitirse con mayor facilidad y ser interoperables.

Tipos de metadatos

  •     Metadatos descriptivos :Información sobre el contenido del recurso, que es de utilidad para su recuperación y comprensión. Por ejemplo: título, autor, ​abstract, palabras clave. Metadatos básicos para la descripción de datos de investigación en los repositorios institucionales (REBIUN).
  •     Metadatos administrativos :Información necesaria para manejar un recurso o que se relaciona con su creación. Dentro de esta categoría se encuentran los metadatos técnicos (necesarios para decodificar y procesar el recurso), los metadatos de preservación (necesarios para la gestión y migración en el largo plazo), y los metadatos de derechos (referidos a la propiedad intelectual)
  •     Metadatos estructurales .Describen las relaciones que existen entre las partes de un conjunto de datos. Por ejemplo, un esquema que representa las relaciones entre tablas de una base de datos o una tabla de contenidos.

¿Dónde buscar datos de investigación?

           

 

Directorios o buscadores de repositorios y datos.

Un DataSet es un conjunto completo de datos, incluyendo las tablas que contienen, ordenan y restringen los datos, así como las relaciones entre las tablas.

  • DataCite Search: buscador generalista de datasets abiertos con DOI

  • DataMED: buscador de datasets y repositorios en el ámbito biomédico
  • DataONE: buscador de datasets en repositorios sobre datos de la tierra y medio ambiente

  • DataSearch: buscador de datasets de Elsevier, en su mayoría de artículos de Elsevier

  • Dryad: buscador de datasets asociados a publicaciones de ciencias y medicina

  • e-cienciaDatos: buscador de datasets del Consorcio Madroño

  • Eudat B2FIND: buscador generalista de datasets mantenido por la organización

  • Figshare: buscador internacional en el que se pueden recuperar datos por categorías temáticas

  • Google Dataset Search: buscador de datasets en repositorios de datos científicos, bases de datos de gobiernos locales y nacionales, sitios web de editores y autores y otras fuentes.

  • Zenodo: buscador de datos de investigación de la Unión Europea

Los editores de publicaciones científicas están enlazando los artículos de las revistas con los datos de investigación utilizados, con el fin de compartir estos datos con lectores e investigadores. Las publicaciones científicas se pueden localizar en bases de datos (Scopus, Web of Science, Eric...). Accede a estas bases de datos desde el buscador de la biblioteca EXPLORA , o en buscadores como Google Académico

Instituciones nacionales e internacionales, estados, ONG, etc. en el ejercicio de sus funciones o actividades crean, procesan y suministran datos: 

Existen portales de datos públicos abiertos que ofrecen datos procedentes de administraciones públicas. Estos datos se pueden descargar, guardar y reutilizar. 

Biblioteca de la Universidad de Extremadura

Licenica Creative Commons CC BY-SA 4.0