Un dataset es una colección organizada de datos estructurados, o no, que pueden contener números, texto, imágenes o videos. Estos datos se utilizan para análisis y toma de decisiones en diversas disciplinas, investigaciones y publicaciones científicas. Están ordenados estratégicamente con el propósito de encontrar cualquier información de manera rápida y efectiva.
Respecto a los datos de investigación, la Comisión Europea ha puesto en marcha una iniciativa dentro de su programa Horizonte 2020, en la que se insta a los investigadores a depositar los datos en abierto en un repositorio de datos, permitiendo validar los resultados de las publicaciones científicas.
Los datasets pueden depositarse o encontrarse en repositorios digitales que pueden institucionales, temáticos o multidisciplinares. Algunos ejemplos:
Repositorios Institucionales
Repositorios Multidisciplinares
Repositorio Temáticos
Tipos de conjuntos de datos según su formato
Numérico: contiene únicamente datos en forma de números y con él se pueden hacer esencialmente análisis cuantitativos y estadísticos. Es por ello que se utiliza sobre todo en el campo de la ciencia, la estadística y las finanzas.
De texto: en este caso, la información está en formato de palabras y caracteres, y se utiliza sobre todo para entrenar modelos de lenguaje natural y para desarrollar herramientas de traducción automática. Dentro de este conjunto de datos podemos encontrar estudios, noticias, reseñas, publicaciones en redes sociales, artículos, blogs, foros…
De vídeo e imagen: Muy utilizados en machine learning y visión por computadora, estos datasets contienen imágenes o secuencias de video que se utilizan para entrenar modelos que detectan patrones visuales o clasifican objetos.
Tipos de conjuntos de datos según su estructura
Tablas (dataset estructurado)
Son los más habituales y tienen la ventaja de que son intuitivos y fáciles de entender, por lo que los pueden utilizar usuarios sin altos conocimientos técnicos. Las bases de datos relacionales y las hojas de cálculo son ejemplos de data sets estructurados.
Dataset no estructurado
Los conjuntos de datos no estructurados carecen de un formato predefinido y pueden ser de diversos tipos, como texto, imágenes, audio, video, correos electrónicos, publicaciones en redes sociales, etc. No siguen un modelo de datos específico y pueden ser difíciles de analizar con herramientas tradicionales de bases de datos.
Dataset semiestructurado
No tienen un esquema definido. No encajan en un formato de tablas/filas/columnas, sino que se organizan mediante etiquetas o “tags” que permiten agruparlos y crear jerarquías, un ejemplo serían los correos electrónicos.
Licenica Creative Commons CC BY-SA 4.0