Ir al contenido principal

Acceso abierto: Dataset

Publicar en Acceso Abierto - Open Access

¿Qué es un Dataset?

 

Un dataset es una colección organizada de datos  estructurados, o no, que pueden contener números, texto, imágenes o videos. Estos datos se utilizan para análisis y toma de decisiones en diversas disciplinas, investigaciones y publicaciones científicas. Están ordenados estratégicamente con el propósito de encontrar cualquier información de manera rápida y efectiva.

Respecto a los datos de investigación, la Comisión Europea ha puesto en marcha una iniciativa dentro de su programa Horizonte 2020, en la que se insta a los investigadores a depositar los datos en abierto en un repositorio de datos, permitiendo validar los resultados de las publicaciones científicas.

 

¿Dónde depositar y localizar los Datasets?

 

Los datasets pueden depositarse o encontrarse en repositorios digitales que pueden institucionales, temáticos o multidisciplinares. Algunos ejemplos:

 

Repositorios Institucionales

 

Repositorios Multidisciplinares

 

Repositorio Temáticos

Tipos de Datasets

Tipos de conjuntos de datos según su formato

 

Numérico: contiene únicamente datos en forma de números y con él se pueden hacer esencialmente análisis cuantitativos y estadísticos. Es por ello que se utiliza sobre todo en el campo de la ciencia, la estadística y las finanzas.

 

De texto: en este caso, la información está en formato de palabras y caracteres, y se utiliza sobre todo para entrenar modelos de lenguaje natural y para desarrollar herramientas de traducción automática. Dentro de este conjunto de datos podemos encontrar estudios, noticias, reseñas, publicaciones en redes sociales, artículos, blogs, foros…

 

De vídeo e imagen: Muy utilizados en machine learning y visión por computadora, estos datasets contienen imágenes o secuencias de video que se utilizan para entrenar modelos que detectan patrones visuales o clasifican objetos.

 

Tipos de conjuntos de datos según su estructura

 

 

Tablas (dataset estructurado)

Son los más habituales y tienen la ventaja de que son intuitivos y fáciles de entender, por lo que los pueden utilizar usuarios sin altos conocimientos técnicos. Las bases de datos relacionales y las hojas de cálculo son ejemplos de data sets estructurados.

 

Dataset no estructurado

Los conjuntos de datos no estructurados carecen de un formato predefinido y pueden ser de diversos tipos, como texto, imágenes, audio, video, correos electrónicos, publicaciones en redes sociales, etc. No siguen un modelo de datos específico y pueden ser difíciles de analizar con herramientas tradicionales de bases de datos. 

 

Dataset semiestructurado

No tienen un esquema definido. No encajan en un formato de tablas/filas/columnas, sino que se organizan mediante etiquetas o “tags” que permiten agruparlos y crear jerarquías, un ejemplo serían los correos electrónicos.

 

Biblioteca de la Universidad de Extremadura

Licenica Creative Commons CC BY-SA 4.0