Dirty Data: El Enemigo acérrimo del Big Data

28 Mar

Dirty Data: Enemigo acérrimo del Big Data

El Big Data se está convirtiendo en el héroe del siglo XXI, una disciplina que permite analizar millones de datos y utilizarlos para adquirir información compleja de los consumidores, o para optimizar los diferentes procesos de las entidades.

Pero como todo héroe, tiene que existir un villano acérrimo a él, y en este caso se llama Dirty Data.

Este término viene acuñado principalmente a datos incorrectos y registros duplicados que en términos generales lleva a la imprecisión de los resultados. Se estima según la firma Verve que el 60% de los consumidores miente en algún dato a la hora de recopilar su información personal, y según la compañía Hocelot alrededor del 25% de los datos las empresas podrían ser falsos.

Esta situación pone en duda la veracidad de las fuentes, una de las cuatro V que componen la disciplina del Big Data. De hecho, hay una expresión en inglés que dice “Garbage in, garbage out”, lo cual viene a significar que no importa cuán bueno y preciso sea un sistema lógico, que si los datos que se introducen son imprecisos, este nunca elaborará una conclusión correcta.

¿Qué es el Dirty Data?

El Dirty Data se considera un problema frecuente en aplicaciones o programas que utilizan grandes bases de datos, y se define como el conjunto de datos incorrectos, duplicados, falsos, engañosos, inexactos, y los que no tienen un formato estándar.

Hoy día, los grandes volúmenes de datos juegan un papel importante en organismos públicos de todo el mundo. Lo que se busca son datos de calidad para obtener más y mejores beneficios, pero sus bases de datos tienden a estar llenas de errores y de valores incompletos, razón por la que necesitan métodos para garantizar la validez de sus datos.

¿Qué ocurre si tienes Dirty Data?

Imagina que una compañía telefónica trata con 3 bases de datos, y cada una con más de 2 millones de filas, y 300 columnas. Si hay problemas en la base de datos entonces ya no sólo se introducen los gastos de captación de datos, sino de la limpieza de los mismos, lo que al final hace incurrir en pérdidas exponenciales.

Al final, invertir tiempo y dinero en comprobar datos uno a uno manualmente es una tarea imposible, por lo que se requieren de análisis meticulosos basados en algoritmos que traten de solventar los problemas más comunes en la recogida de datos. Este algoritmo debe contar con cierto grado de aprendizaje adaptatativo, control de errores y organización de la información “in time”.

Este “parche” ayuda a la limpieza de datos, pero no es capaz de solucionar cada error o inexactitud. Si bien es cierto que el número de errores se reduce, pero hasta el momento no existe una solución que ofrezca un margen de error del 0%.

También existen soluciones alternativas que no dependen tanto de la fuente de los datos, sino más bien en sistemas que apoyen esos datos. Si estuvieras recopilando información de tus clientes, estos siempre tienen la posibilidad de falsificar algún dato, pero si analizas el comportamiento de la persona en la página web que rellena los datos, ligado a la ubicación de su IP, y los comparas con otros cientos de miles de usuarios de tu base de datos, al final, acabas creando una metodología que argumenta la veracidad de tu propia información.

¿Cómo afecta el Dirty Data a una empresa?

Partiendo de la frase inicial “Garbage in, garbage out”, podemos asumir que en el Big Data hay una necesidad dramática por validar la naturaleza de los datos. Es por ello, que la problemática puede incurrir a fuertes desventajas en una empresa que utilice Big Data:

Pérdida de tiempo y recursos

Si tuviéramos que apoyarnos en el principio de 1 – 10 – 100, el coste relativo a solventar un problema es exponencial con el tiempo. Si un lead cuesta 1 euro, y hay un problema con ese lead, entonces el coste del mismo aumentará hasta 10, en caso de que quieras arreglar el propio arreglo, el coste asciende a 100. A título de ejemplo, si un cliente paga por una hora de trabajo y haces una hora, el coste será una hora, pero si hay alguna complicación con ese cliente, la empresa tiene que regalar horas, pero el cliente sólo habrá pagado 1 hora. Exactamente lo mismo ocurre cuando hay problemas de Dirty Data.

Según el informe de CRMfusion, este tipo de problemas puede llevar a crear informes de CRM con datos ficticios, previsiones de venta inexactas, y servicio al cliente de baja calidad debido a que no hay una imagen completa del consumidor.

Pérdida de ingresos netos

Toda empresa depende de la base de datos que tenga de sus clientes. Una carencia de información de este tipo puede a incurrir a pérdidas netas, si vas a hacer una campaña de ventas desde un Call Center, y faltan datos como nombres o números de teléfono, esto incurre directamente a una pérdida de clientes potenciales.

Según el informe de la empresa Experian, el 77% de las empresas consideran que pierden cerca de un 12% en sus ingresos netos por falta de datos de sus clientes.

Decisiones carentes de información

Una de las cosas que más ha cambiado en la era de la información, es la toma de decisiones apoyada en datos. Las decisiones en la dirección siempre se han solido basar más en la intuición o en una reunión entre socios, más que un argumento científico y sólido. El Big Data ha cambiado esa realidad ofreciendo la posibilidad de tratar información de múltiples lugares, pudiendo perfilar un escenario más realista.

Razón, por la que el Dirty Data puede influenciar de manera negativa a una organización en la toma de decisiones. Al fin y al cabo, según el estudio realizado por Integrate, el 54% de los marketers dicen que la falta de calidad de datos es el reto más difícil.

¿Cuáles son los errores más frecuentes en Dirty Data?

Datos incompletos: Este es el error más típico en Big Data. Hay muchas celdas importantes para las empresas que se quedan a menudo en blanco. El ejemplo más claro es que quisieras organizar tus clientes por sectores, y no tienes esta información clasificada.

Datos duplicados: Otro de los errores más frecuentes. Al extraer datos de distintas fuentes, es típico no comprobar si esa información está repetida en las diferentes bases de datos. Esto puede llevar a subestimar o sobreestimar las conclusiones extraídas, como por ejemplo la gestión de inventario.

Datos incorrectos: Ocurre cuando el dato insertado se sale fuera del rango marcado. Expuesto de manera sencilla, sería que introdujeras un valor de 0 a 10 para valorar algo y se valorara 11, o no añadir una dirección física real.

Datos imprecisos: Puede haber datos que se han recogidos correctamente, pero son imprecisos por su contexto. Un ejemplo es cuando un cliente compra en una tienda Online y al añadir su dirección está no es exacta por algún número o que no se ha añadido el portal. Este tipo de datos llegan a incurrir en grandes costes para las empresas por su difícil reconocimiento y solución.

Datos inconsistentes: La redundancia es el ejemplo más típico en estos casos. Es una práctica común que las empresas adquieran información de sus clientes desde múltiples fuentes, y que estos no se mantengan a menudo sincronizados, lo que hace que los datos sean diferentes según cada fuente extraída.

Datos que incumplen las reglas del negocio: Esto ocurre cuando se extraen datos históricos de muchos años atrás. Por ejemplo, un historial de la facturación dónde no en todos los pagos está establecido la regla de “Net 30”.

Genera una experiencia más pobre al consumidor

Cuándo un cliente habla con un vendedor, este tiene la obligación de acordarse la próxima vez de él cuando este vuelva a comprar. Hoy día el número de canales por el que habla un empleado se ha incrementado, ahora existen correos electrónicos, mensajes de chats, e incluso el uso de Chatbots para interactuar con el cliente.

Esto genera una masa de información muy superior a la de hace 20 años, la cual se podría quedar en un histórico de llamadas combinado con una ficha básica de cliente. Este ti

¿Cómo tratamos el Dirty Data en SmartPanel?

En SmartPanel analizamos los datos teniendo cuenta el Dirty Data. Para ello adquirimos información de diferentes fuentes como bases de datos, plataformas de analítica y sistemas de contabilidad para poder representarlos visualmente en un panel de inteligencia empresarial.

Así, realizamos una compleja metodología que recopila los datos, los trata por un proceso de estandarización y democratización de los datos, para finalizar con una revisión de nuestro algoritmo. Todo ello con el fin de aportar cifras exactas y lo más próxima posible a la realidad.

Si estás interesado en utilizar el Visual Data Intelligence corrigiendo el problema de Dirty Data, te sugerimos que realices una consultoría de datos sin ningún tipo de compromiso desde aquí.