Modelos de Regresión desde cero

2021-09-06

Motivación

En la publicación anterior explicamos el concepto de Aprendizaje Automático y hablamos entre otros, del Aprendizaje Supervisado. Este último, a su vez puede dividirse en problemas de Regresión o de Clasificación según la naturaleza del problema. En este nuevo documento abordaremos los problemas de Regresión desde cero empezando por los modelos más simples y contando acerca de las unidades de medida que sirven para evaluar dichos modelos.

¿Cómo identificar un problema de Regresión?

La Regresión es uno de los métodos clave que se utilizan regularmente en la ciencia de los datos, con el fin de modelar las relaciones entre las variables, donde la variable objetivo (es decir, el valor que se busca estimar) es un número continuo. Ejemplos de problemas de Regresión son:

  • Predecir ventas en el próximo período.
  • Predecir la nota de un alumno en un examen.
  • Predecir el precio de una propiedad.

Regresión Lineal Simple

El análisis de regresión consiste en encontrar una función (F(X)), bajo un conjunto determinado de supuestos, que describa mejor la relación entre la variable dependiente (Y) y la variable independiente (X).

Cuando el número de variables independientes es sólo uno y se supone que la relación entre la variable dependiente y la independiente es una línea recta, el tipo de análisis de regresión se denomina regresión lineal simple. La relación rectilínea se denomina línea de regresión o línea de mejor ajuste.

¿Cómo se puede determinar la recta de regresión para un conjunto de datos dado? Un método común utilizado para determinar la recta de regresión se llama el método de los mínimos cuadrados

La ecuación de la regresión lineal simple es la siguiente:

Ecuación 1.0

y ≈ B0 + B1*X

donde B0 y B1 son constantes desconocidas, que representan la intercepción y la pendiente de la línea de regresión, respectivamente.

La intercepción es el valor de la variable dependiente (Y) cuando la variable independiente (X) tiene un valor de cero (0), o dicho de otra forma, el valor de la predicción en ausencia de variables. La pendiente es una medida de cuánto cambia el valor de la predicción ante un cambio de una unidad de la variable independiente, es decir, mide el impacto de la variable independiente en la predicción. Las constantes desconocidas se denominan coeficientes o parámetros del modelo.

El cálculo de la diferencia entre el valor real de la variable dependiente y el valor predicho de la variable dependiente da un error que comúnmente se denomina residuo (Ei).

Repitiendo este cálculo para cada punto de datos de la muestra, el residuo (Ei) de cada punto de datos puede elevarse al cuadrado, para eliminar los signos algebraicos, y sumarse para obtener la suma de cuadrados del error (SSE). El método de los mínimos cuadrados busca minimizar el SSE.

La figura 1.1 explica de forma gráfica lo descrito anteriormente:

Regresión Lineal Múltiple

En la regresión lineal simple comentada anteriormente, sólo tenemos una variable independiente. Si incluimos múltiples variables independientes en nuestro análisis, obtenemos un modelo de regresión lineal múltiple. La regresión lineal múltiple se representa de forma similar a la regresión lineal simple.

Consideremos un caso en el que queremos ajustar un modelo de regresión lineal que tiene tres variables independientes, X1, X2 y X3. La fórmula de la ecuación de regresión lineal múltiple tendrá el siguiente aspecto:

Ecuación 1.1

y ≈ B0 + B1*X1 + B2*X2 + B3*X3 

Cada variable independiente tendrá su propio coeficiente o parámetro (es decir, B1 B2 o B3). El coeficiente Bs nos indica cómo influye un cambio en su respectiva variable independiente en la variable dependiente si todas las demás variables independientes no se modifican.

Los coeficientes de regresión múltiple se estiman utilizando el mismo método de mínimos cuadrados que en la regresión lineal simple. Para satisfacer el método de mínimos cuadrados, los coeficientes elegidos deben minimizar la suma de los residuos al cuadrado.

Supuestos de la Regresión Lineal

Debemos tener en cuenta que para modelar la realidad a partir de la Regresión Lineal, existen ciertos supuestos que deben cumplirse para que la estimación obtenga buenos resultados. Para no hacer demasiada extensa la publicación los mencionaremos sin desarrollarlos. Estos supuestos son:

  • La relación entre las variables dependientes e independientes debe ser lineal y aditiva.
  • Los términos residuales (Ei) deben tener una distribución normal.
  • Los términos residuales (Ei) deben tener una varianza constante (homocedasticidad).
  • Los términos residuales (Ei) no deben estar correlacionados.
  • No debe haber correlación entre las variables independientes

Métrica de evaluación para problemas de regresión

El objetivo principal del análisis de regresión es encontrar un modelo que explique la variabilidad observada en una variable dependiente de interés. Por lo tanto, es muy importante disponer de una cantidad que mida lo bien que un modelo de regresión explica esta variabilidad. Un estadístico o métrica que hace esto se llama R-cuadrado (R2). Sí bien existen otras métricas comúnmente utilizadas, como el RMSE, abordaremos el R2, ya que, es quizás el más conocido para quiénes tienen conocimientos básicos de estadísticas. La fórmula de R2 es la siguiente:

Ecuación 1.2

R2 = 1 – SSE/SST 

  • SSE = sum((valor real – valor predicho)**2) = sum((Yi – Yi pred)**2
  • SST = sum((valor real – valor medio)**2) = sum((Yi – Y prom)**2)
  • SSR = sum((valor predicho – valor medio)**2) = sum((Yi pred – Y prom)**2)

El R-cuadrado es la porción de variabilidad explicada por el modelo. En otras palabras, es el ratio de qué tan bueno es mi modelo en comparación a un modelo que predice siempre la media de los valores actuales. Por lo tanto:

Ecuación 1.3

R2 = 1 – (mi modelo)/(un modelo que predice siempre la media)

El R2 puede tomar valores menores o igual a 1 (R2 =<1). Esto quiere decir que cuanto más cercano a 1 sea el R-cuadrado, mejor será el modelo (=1 es perfecto). Por otro lado, si predigo la media, el valor de R-cuadrado sería 0, ya que, el SSE y el SST serían el mismo valor por lo que la división sería igual a 1, y 1 – 1 = 0. Y por último si R-cuadrado es negativo quiere decir que mi modelo es peor que predecir la media.

Hasta aquí vimos cuando se aplican los modelos de Regresión y abordamos la Regresión Lineal Simple y Múltiple junto con una métrica de evaluación de dichos modelos. En futuras publicaciones incluiremos modelos más avanzados que son mayormente utilizados.

Publicado por

Wais

1 comentario en “Modelos de Regresión desde cero”

  1. Javier Lacherre

    Es posible aplicar regresion lineal en variables que no guardan relacion directa?
    Por ejemplo, temperatura, lluvia y litro de fertilizante para asi estimar cantidades estimadas de produccion agricola?

Deja una respuesta

Tu dirección de correo electrónico no será publicada.