Modelo de Clasificación bajo un contexto empresarial
2021-10-17
Motivación
Los problemas de clasificación son los casos de uso más frecuentes que se encuentran en el mundo real. A diferencia de los problemas de regresión, en los que se predice un valor numérico real, los problemas de clasificación tratan de asociar un ejemplo a una categoría. A su vez, los problemas de clasificación pueden dividirse en clasificación binaria o multiclase. Los primeros se utilizan cuando lo que se desea predecir o clasificar tiene solo dos resultados posibles, mientras que los segundos, hacen alusión a tres o más resultados o categorías posibles.
Algunos ejemplos para los que se utilizaría un modelo de clasificación binaria son los siguientes:
- Predecir si un cliente comprará o no un determinado producto.
- Predecir si un cliente abandonará o no una suscripción.
- Determinar si un alumno aprobará o no un examen.
Por otro lado, usaríamos un modelo de clasificación multiclase para:
- Analizar comentarios de texto y captar la emoción subyacente, como la felicidad, la ira, la tristeza o el sarcasmo.
- Predecir si un equipo ganará, empatará o perderá el próximo partido.
- Analizar imágenes de frutas y clasificarlas en tres categorías distintas según el grado de calidad estética.
Contexto empresarial
La mejor manera de trabajar con un concepto es con un ejemplo con el que se pueda relacionar. Para entender el contexto empresarial, consideremos el siguiente ejemplo:
El equipo de Marketing de un banco desea conocer la propensión de los clientes de adquirir un determinado producto de inversión. Para resolver dicho problema se podría calcular la probabilidad de compra de los clientes para conocer su propensión o inclinación a la compra del producto. De esta manera se podría segmentar a los clientes y dirigir campañas de marketing para persuadir a quienes tengan mayor probabilidad de adquirir la inversión.
Cómo mencionamos en publicaciones anteriores, el primer paso en un proyecto de ciencia de datos es el entendimiento del negocio. Se trata de comprender los distintos factores que influyen en el problema empresarial. Conocer los impulsores o palancas de la empresa es importante, ya que, ayudará a formular hipótesis sobre el problema empresarial, que pueden verificarse durante el análisis exploratorio de datos.
Sabiendo que el producto que se desea ofrecer suele ser popular entre los clientes con aversión al riesgo, se podrían plantear las siguientes hipótesis:
- ¿Sería la edad un factor, con una mayor propensión mostrada por las personas mayores?
- ¿Existe alguna relación entre la situación laboral y la propensión a adquirir dicho producto de inversión?
- ¿Influiría la cartera de activos de un cliente (vivienda, préstamo o mayor saldo bancario) en la propensión a comprar?
- ¿Influirán los datos demográficos, como el estado civil y la educación, en la propensión a comprar el producto? En caso afirmativo, ¿cómo se correlacionan los datos demográficos con la inclinación a comprar?
Comprobar la veracidad de las hipótesis con datos
A partir de lo mencionado, un análisis exploratorio de datos, nos ayudaría a comprobar con datos, la veracidad de las hipótesis planteadas. A modo de ejemplo podría definir la siguiente hipótesis:
La propensión a comprar el producto de inversión es mayor en los clientes de edad avanzada que en los más jóvenes.
Podríamos trazar un gráfico con el recuento de las personas que compran el producto de acuerdo a su edad y así analizar sí existe algún patrón que refleje nuestra hipótesis.
En el gráfico podemos ver que el mayor número de compras del producto de inversión lo realizan los clientes de entre 25 y 40 años, y que la propensión a comprar disminuye con la edad.
Sin embargo, aquí estamos pasando por alto un detalle importante, estamos tomando los datos basándonos en el recuento absoluto de clientes en cada rango de edad. Si la proporción de clientes bancarios es mayor dentro del rango de edad de 25 a 40 años, entonces es muy probable que obtengamos un gráfico como el que hemos obtenido. Lo que realmente deberíamos representar es la proporción de clientes, dentro de cada grupo de edad, que compran el producto en cuestión.
Podemos ver, en el gráfico de la izquierda, que en el grupo de edad que va de los 22 años (aprox.) a los 60 años, los individuos no se inclinan a comprar el producto. Sin embargo, en el gráfico de la derecha, vemos lo contrario, donde el grupo de edad de 60 años o más está mucho más inclinado a comprar el producto.
Tomar la proporción de usuarios es el enfoque adecuado para obtener la perspectiva correcta en la que debemos ver los datos. Esto se ajusta más a la hipótesis que hemos planteado.
Predecir la probabilidad de compra con Regresión Logística
Sí bien existen varios pasos entre el análisis exploratorio y la aplicación de un modelo (cómo ser acondicionar los datos para introducirlos al algoritmo, crear nuevas variables que ayuden a mejorar la capacidad predictiva del modelo, etc.), el enfoque de la publicación es abordar un modelo de clasificación bajo un contexto empresarial. Por eso mismo ahora explicaremos cómo funciona una Regresión Logística y cómo se adaptaría al objetivo empresarial en cuestión. El resultado de negocio deseado, en nuestro caso de uso, es identificar a los clientes que probablemente compren el producto.
Por otro lado, el objetivo del aprendizaje automático es estimar una función de mapeo (f) entre una variable de salida y las variables de entrada. En forma matemática, esto se puede escribir de la siguiente manera:
Y = f(X)
Y es la variable dependiente, que es nuestra predicción sobre si un cliente tiene la probabilidad de comprar el producto o no.
X es la(s) variable(s) independiente(s), que son aquellos atributos como la edad, la educación, saldo bancario, cartera de activos, etc. que forman parte del conjunto de datos.
f() es una función que relaciona varios atributos de los datos con la probabilidad de que un cliente compre o no el producto. Esta función se aprende durante el proceso de aprendizaje automático. Esta función es una combinación de diferentes coeficientes o parámetros aplicados a cada uno de los atributos (o variables) para obtener la probabilidad de compra.
Para simplificar, supongamos que sólo tenemos dos atributos, la edad y el saldo bancario. Supongamos que la edad es de 62 años y el saldo de 900 dólares. Con todos estos valores de atributos, supongamos que la ecuación de mapeo es la siguiente
Y = B0 + B1_Edad * Edad + B2_Saldo_bancario * Saldo_bancario
Utilizando la ecuación anterior, obtenemos lo siguiente:
Y = 0.1 + 0.4 * 62 + 0.002 * 900
Y = 26.7
Vemos que la ecuación utilizada corresponde a la Regresión Lineal que vimos en la publicación anterior, y que la salida nos entrega un número real. Aquí es dónde entra en juego la Regresión Logística, que es similar a la Regresión Lineal, pero que aplica una función sigmoidea que reduce cualquier número de valor real a un valor entre 0 y 1, lo que hace que esta función sea ideal para predecir probabilidades.
Para transformar la salida de valor real en una probabilidad, utilizamos la función logística, que tiene la siguiente forma:
Y = (e^(X))/(1 + e^(X))
Aquí “e” es el logaritmo natural.
Y = (e^(B0 + B1*X1 + B2*X2))/(1 + e^(B0 + B1*X1 + B2*X2))
Veamos ahora la función de regresión logística desde el problema de negocio que estamos tratando de resolver.
Y = (e^(B0 + B1_Edad * Edad + B2_Saldo_bancario * Saldo_bancario))/(1 + e^(B0 + B1_Edad * Edad + B2_Saldo_bancario * Saldo_bancario))
Y = (e^(0.1 + 0.4*62 + 0.02*900))/(1 + e^(0.1 + 0.4*62 + 0.02*900))
Al aplicar esto, obtenemos un valor de Y = 0.76 , que es una probabilidad del 76% de que el cliente compre el producto de inversión. Como se ha comentado en el ejemplo anterior, los coeficientes del modelo como 0,1, 0,4 y 0,002 son los que aprendemos utilizando el algoritmo de regresión logística durante el proceso de entrenamiento.
Hasta aquí abordamos situaciones cómo: cuando es necesario utilizar un modelo de clasificación, definimos un objetivo empresarial, planteamos y comprobamos la veracidad de una hipótesis a partir del análisis exploratorio y por último aplicamos el concepto de regresión logística al problema empresarial. En la próxima publicación nos enfocaremos en distintas medidas para evaluar el rendimiento de modelos de clasificación.
Tremendo ejemplos para entender de modelos predictivos. Buenísimo.