Biblioguías: Acceso abierto: Dataset

¿Qué es un Dataset?

Un dataset es una colección organizada de datos estructurados, o no, que pueden contener números, texto, imágenes o videos. Estos datos se utilizan para análisis y toma de decisiones en diversas disciplinas, investigaciones y publicaciones científicas. Están ordenados estratégicamente con el propósito de encontrar cualquier información de manera rápida y efectiva.

Respecto a los datos de investigación, la Comisión Europea ha puesto en marcha una iniciativa dentro de su programa Horizonte 2020, en la que se insta a los investigadores a depositar los datos en abierto en un repositorio de datos, permitiendo validar los resultados de las publicaciones científicas.

¿Dónde depositar y localizar los Datasets?

Los datasets pueden depositarse o encontrarse en repositorios digitales que pueden institucionales, temáticos o multidisciplinares. Algunos ejemplos:

Repositorios Institucionales

Repositorio: Dehesa
Repositorio institucional de la UEx
Recolecta: Recolector de Ciencia Abierta
Repositorios científicos nacionales de acceso abierto.

Repositorios Multidisciplinares

European Data
El portal oficial de datos europeos
Zenodo:
Repositorio de acceso abierto de propósito general
Mendeley Data
Repositorio comunitario gratuito basado en la nube
Dataverse
Repositorio de datos de investigación de código abierto
Dryad
Repositorio digital internacional de acceso abierto,
Figshare
Repositorio digital donde almacenar datos, figuras, vídeos, presentaciones, etc.

Repositorio Temáticos

IEEE DataPort
Plataforma de almacenamiento y gestión de datos de IEEE
Arxiv
Repositorio de acceso abierto de física, matemáticas, informática,,finanzas, estadística, etc.

Tipos de Datasets

Tipos de conjuntos de datos según su formato

Numérico: contiene únicamente datos en forma de números y con él se pueden hacer esencialmente análisis cuantitativos y estadísticos. Es por ello que se utiliza sobre todo en el campo de la ciencia, la estadística y las finanzas.

De texto: en este caso, la información está en formato de palabras y caracteres, y se utiliza sobre todo para entrenar modelos de lenguaje natural y para desarrollar herramientas de traducción automática. Dentro de este conjunto de datos podemos encontrar estudios, noticias, reseñas, publicaciones en redes sociales, artículos, blogs, foros…

De vídeo e imagen: Muy utilizados en machine learning y visión por computadora, estos datasets contienen imágenes o secuencias de video que se utilizan para entrenar modelos que detectan patrones visuales o clasifican objetos.

Tipos de conjuntos de datos según su estructura

Tablas (dataset estructurado)

Son los más habituales y tienen la ventaja de que son intuitivos y fáciles de entender, por lo que los pueden utilizar usuarios sin altos conocimientos técnicos. Las bases de datos relacionales y las hojas de cálculo son ejemplos de data sets estructurados.

Dataset no estructurado

Los conjuntos de datos no estructurados carecen de un formato predefinido y pueden ser de diversos tipos, como texto, imágenes, audio, video, correos electrónicos, publicaciones en redes sociales, etc. No siguen un modelo de datos específico y pueden ser difíciles de analizar con herramientas tradicionales de bases de datos.

Dataset semiestructurado

No tienen un esquema definido. No encajan en un formato de tablas/filas/columnas, sino que se organizan mediante etiquetas o “tags” que permiten agruparlos y crear jerarquías, un ejemplo serían los correos electrónicos.