u/perezlenin

Buenas tardes. Hace 7 meses compartí un enlace de github relacionado con la segmentación de unos clientes de una tienda minorista (ejercicio planteado en kaggle), con el fin de recoger conceptos y apreciaciones. Hoy tengo la oportunidad de compartirles una actualización de dicho notebook. Aquí menciono los cambios que aparecen en esta entrega:

Se trabajó con TODO el dataset (los 200 datos), ya que se trata de una muestra pequeña. Además el problema es de aprendizaje no supervisado, por lo que no hay etiquetas para comparar errores en predicciones o clasificaciones. Solo interesa ver cómo están distribuidos los datos.
Se eliminaron los gráficos de sexo vs ingresos, sexo vs puntajes y sexo vs edad, ya que no aportan información adicional a la hora de elegir las variables para modelar.
Al usar todos los datos, el número de clusters es 5 y ya no hay problemas con el grafico del codo ni el de silhouette. Además, al visualizar el gráfico, los clusters son más identificables.
Se redactaron las 5 estrategias para cada cluster, sin distinciones forzadas como la anterior entrega (creo que habían 2 clusteres de ingresos altos y gastos altos). Lo que sí se mantuvo fue el proceso de limpieza de los datos, así estén limpios. Esto no es capricho, sino metodología que hay que implementar con cualquier archivo, sea grande o pequeño. Agradezco sus comentarios, sugerencias y recomendaciones.

Actualización notebook Kmeans