A veces nos encontramos con clientes que nos hablan de su Big Data y lo que esperan conseguir: su big data esto, su big data lo otro… pero, salvo casos contados, sus datos no son realmente tan big.
A ver, muchas empresas tratan cientos de miles, millones de transacciones, con decenas de miles de clientes, acumulados a lo largo de varios años (en otro post hablaremos de la «caducidad» de los datos), y no cabe duda de que, de esos datos, se puede extraer gran cantidad de información adicional haciendo uso de técnicas de data science, pero no se trata de Big Bata.
El Big Data se caracteriza por su Vs, que en la mayoría de textos son 3 (¡llegan a leerse hasta 8!): datos de mucho volumen, que se generan a mucha velocidad, y de formatos y tipos muy variados (estructurados, texto libre en redes sociales, streams de video, datos numéricos de sensores…).
Cierto es que en el planeta generamos cada día unos 2,5 exabytes de datos (aproximadamente 25 seguido de 17 ceros), pero debemos considerar que eso incluye cada vídeo subido a youtube, cada whatsapp reenviado, y cada foto hecha con su móvil por los miles de asistentes a un evento, y a esto hay que añadirle cada dato capturado por un dispositivo IoT, por un sensor en un coche, cada coordenada mandada por el GPS de un Uber a su central, o por nuestros móviles a Google sin que nosotros lo sepamos.
Una PYME con 60 millones de ventas anuales, con valor medio de línea de 20€, si guarda qué ha vendido a quién, dónde, día y hora, genera menos de 3GB de información al año con esas transacciones, el equivalente a poco menos de una hora de vídeo HD, u 8 minutos en 4K. Realmente es poco volumen, aun añadiendo unos cuantos datos más por transacción.
Si consideramos que ese volumen de datos se ha generado en todo un año, comparado con el volumen que ha de procesar en unos segundos, no ya un vehículo de conducción autónoma, sino la vigilancia de carril de cualquier coche moderno, vemos que tampoco es que hablemos de grandes velocidades.
Y la información que trata la gran mayoría de empresas es información estructurada y bien definida, donde tampoco podemos hablar de variedad.
En resumen, con poca actividad que se tenga, cualquier empresa tendrá que hacer un tratamiento masivo de datos con técnicas de data science para extraer su valor (desde luego 30 millones de registros no son tratables en Excel), pero salvo que se traten volumen, velocidad, y variedad -podrían ser imágenes o vídeos, combinadas con fuentes de datos no estructurados de redes sociales, y con información de sensores en tiempo real- es poco adecuado hablar de Big Data.
No pasa nada realmente, se trata sólo de hablar con propiedad, que los técnicos te lo agradecerán; y si te encuentras con un consultor desalmado, no le estarás invitando a venderte algo que no necesitas con el argumento de que eso es lo que pediste.
Image by CharlesAPhillips63, CC BY-SA 4.0 , via Wikimedia Commons