Procesos de análisis de datos
El proceso de Análisis de Datos se compone de diferentes datos que podemos clasificar en: Recolección, transformación, limpieza y modelado para descubrir qué información es realmente útil para una corporación.
Y es que el Big Data no consiste solamente en almacenar datos, sino en interpretar esos datos de forma que nos permita tomar mejores decisiones a futuro para nuestra empresa.
Para realizar este proceso de Análisis de Datos existen diferentes metodologías, las más utilizadas son KKD, SEMMA y CRISP-DM, las cuales vamos a detallar a continuación:
Diferentes procesos de análisis de datos
SEMMA
SEMMA son las siglas en inglés de Sample, Explore, Modify, Model and Assess (Muestrear, Explorar, Modificar, Modelar y Evaluar):
1. Muestrear: Es la etapa donde obtenemos los datos para su posterior análisis, trabajando siempre con un tamaño adecuado de datos que permita manipularlos con tiempo y recursos razonables.
2. Explorar: En esta fase se obtiene el primer análisis, consiguiendo las primeras conclusiones sobre tendencias, morfología… Que ya nos indican el mejor camino a seguir.
3. Modificar: Como su propio nombre indica es cuando se modifican los datos. Para hacerlo de la manera correcta se aplican las modificaciones y se realizan las selecciones necesarias para crear las variables orientadas al proceso de selección de modelo.
4. Modelar: Se crean combinaciones de las variables que hemos elegido como predictoras, de esta manera podemos calcular la variable objetivo de forma más precisa.
5. Evaluar: Es la última fase, donde analizamos la utilidad y fiabilidad de insights obtenidos. (Aunque el término no sería 100% exacto podríamos traducir el término insight por “conclusión”)
KDD
El nombre de KDD de nuevo hace referencia a sus siglas anglosajonas: Knowledge Discovery Database. Al igual que el anterior consta de 5 etapas:
1. Selección: Se eligen las variables, o en caso de trabajar con muestras que datos deben ir en ellas, la distribución…
2. Preprocesamiento: Una vez que tenemos los datos estos se “procesan”, es decir, se limpian y adecúan para que la propia máquina los pueda comprender.
3. Transformación: Se aplican sobre todo métodos de reducción (Aunque también otras formas de transformación) de manera que podamos implementar las técnicas que nos permiten explorar grandes cantidades de datos.
4. Minería de datos: En este punto se pretende resolver las dudas planteadas, buscar nuevos hallazgos y detectar patrones.
5. Evaluación de los datos: Se definen las conclusiones del estudio y se evalúan los modelos utilizados para la Minería de datos.
CRISP-DM
Cross Industry Standard Process for Data Mining. Es un proceso iterativo (De repetición) centrado en los negocios. Vamos a ver por último sus 6 fases:
1. Comprensión del Negocio: pretende comprender los requisitos y objetivos desde el punto focal del negocio.
2. Entendimiento de datos: En esta fase se exploran y recolectan los datos, obteniendo problemas, primeras conclusiones, subconjuntos de datos…
3. Preparación de los datos: Se construye un dataset partiendo de los datos en bruto obtenidos previamente.
4. Modelado de datos: Se calibran los parámetros de forma que consigamos los mejores resultados.
5. Evaluación: En relación con los objetivos del negocio, se evalúan los modelos y se revisan los pasos seguidos para la construcción de estos.
6. Despliegue: Es la industrialización de los modelos. Se puede hacer el despliegue directamente en un entorno de producción o generar un entregable que el cliente podrá usar.