Hoy vamos a hablar de otra forma de aprendizaje automático conocida como aprendizaje automático no supervisado. Si en el aprendizaje supervisado entrenábamos el modelo con datos de muestra que incluían la pregunta y la respuesta con fines predictivos (variables predictoras y variable respuesta o clase), el aprendizaje no supervisado tiene un fin descriptivo: no tenemos respuesta, y pretendemos que la máquina encuentre patrones, similitudes o diferencias entre los datos, o posibles asociaciones de los que poder extraer agrupaciones. Los usos son muchos, como segmentación de clientes, categorizar usuarios de una red social, o recomendar a un cliente lo que han comprado otros clientes que, no solo han comprado el mismo producto, sino que se comportan de manera similar.
Suena casi como algo misterioso, eso de dar un montón de datos a la máquina y que ésta nos diga qué patrones o asociaciones ha encontrado, pero realmente no lo es tanto, porque los algoritmos de agrupamiento dependen de la definición de similitud o distancia que nosotros decidamos aplicar, que será capaz hasta de comparar churras con merinas, siempre que cumpla unos requisitos muy simples*, y hay técnicas que permiten transformar espacios aparentemente complejos en espacios simples donde la agrupación es más sencilla (algo así como transformar la imagen D en la A).
Estas imágenes muestran espacios geométricos más o menos sencillos, pero muchas veces nuestros datos no se prestan a una representación tan sencilla. Imaginad que estamos tratando información de la actividad comercial con nuestros clientes para hacer una clasificación automática de los mismos, combinando datos como las familias de producto que compran, su volumen medio de compra, por qué canal nos contactan, con qué frecuencia… Con un buen científico de datos definiremos una función de similitud que será bastante compleja, seremos capaces de encontrar agrupaciones de manera automática, y a lo sumo tendremos una visión gráfica muy simplificada, sobre un par de variables, de nuestros clusters, pero tened la confianza de que, si se ha hecho una buena labor comprendiendo los detalles del negocio, esa agrupación será relevante para la actividad. Puede parecer oscuro, pero el algoritmo sólo ha buscado qué elementos se parecen a otros elementos en función de nuestros criterios, por muy complejos que estos sean.
Es interesante comentar que también hay algo llamado aprendizaje semisupervisado, parecido al aprendizaje supervisado, pero se aplica cuando solo disponemos de la variable respuesta para una pequeña muestra de nuestros datos, y usa técnicas parecidas a las de agrupación para completar la variable que falta. Si tenemos, por ejemplo, una muestra de transacciones etiquetadas como fraudulentas o no-fraudulentas, con un algoritmo de aprendizaje semisupervisado, podemos agrupar todas nuestras transacciones en torno a uno u otro cluster, por similitud.
El aprendizaje no-supervisado es, en resumen, algo así como un “Dios los cría y ellos se juntan” automático, con multitud de aplicaciones a nuestro negocio.
* Si hay algún matemático en la sala, los requisitos los reconocerá de inmediato: la función de distancia ha de ser siempre no negativa (la distancia entre dos muestras siempre es mayor o igual que 0), simétrica (la distancia de M a N es la misma que N a M), triangular (la distancia de M a P ha de ser menor o igual que la de M a N más la de N a P), y la distancia un punto a sí mismo es nula.