ESTRUCTURA DE UN CONJUNTO DE DATOS ( DATASET)
Los datos deben estar limpios y correctamente estructurados y ordenados:
Un conjunto de datos está estructurado si:
- Cada variable forma una columna
- Cada observación forma una fila
- Cada celda es una medida simple
|
 |
Algunas recomendaciones :
- Estructurar los datos en formato TIDY (vertical) es decir, cada valor es una fila, en lugar de horizontal Datos No TIDY (horizontal) .
- Las columnas se usan para variables y sus nombres pueden tener hasta 8 caracteres sin espacios ni signos especiales.
- Evitar los valores de texto para codificar las variables, mejor codificarlos con números.
- En cada celda, un solo valor
- Si no tiene un valor disponible, proporcione los códigos de valores faltantes.
- Proporcione tablas de datos, que recoja todas las codificaciones y denominaciones de datos empleadas.
- Utilice diccionario de datos o lista separada de estos nombres cortos de las variables y su significado completo
ORDENACIÓN DE DATOS
Los datos ordenados o "TIDY DATA" son los que se obtienen a partir de un proceso llamado "DATA TIDYING" u ordenamiento de datos. Es uno de los procesos de limpieza importantes durante procesamiento de grandes datos o 'big data'.
Los conjuntos de datos ordenados tienen una estructura que facilita el trabajo; son sencillos de manipular, modelar y visualizar. Conjuntos de datos 'tidy' están ordenados de tal manera que cada variable es una columna y cada observación (o caso) es una fila." (Wikipedia).