Digamos que quiero examinar la relación entre mi precisión en el tiro de baloncesto y la distancia a la que tiro. Más específicamente, quiero un modelo que tome la «distancia de la canasta» en pies y arroje la probabilidad de que yo haga el tiro.

Primero necesito algunos datos. Así que salí a lanzar una pelota de baloncesto desde varias distancias mientras registraba cada resultado (1 para un tiro, 0 para un fallo). El resultado se ve así cuando se representa en un gráfico de dispersión:

En general, cuanto más me alejo de la canasta, con menos precisión tiro. Así que ya podemos ver las líneas generales de nuestro modelo: cuando se da una distancia pequeña, debería predecir una probabilidad alta y cuando se da una distancia grande debería predecir una probabilidad baja.

A un nivel alto, la regresión logística funciona muy parecido a la vieja regresión lineal. Así que empecemos con la conocida ecuación de regresión lineal:

Y = B0 + B1*X

En la regresión lineal, la salida Y está en las mismas unidades que la variable objetivo (lo que se intenta predecir). Sin embargo, en la regresión logística la salida Y está en logaritmos de probabilidad. Ahora bien, a menos que pase mucho tiempo en las apuestas deportivas o en los casinos, probablemente no esté muy familiarizado con las probabilidades. Las probabilidades son sólo otra forma de expresar la probabilidad de un evento, P(Evento).

Odds = P(Evento) /

Continuando con nuestro tema del baloncesto, digamos que lancé 100 tiros libres e hice 70. Basado en esta muestra, mi probabilidad de hacer un tiro libre es del 70%. Mis probabilidades de hacer un tiro libre se pueden calcular como:

Probabilidades = 0,70 / (1-0,70) = 2,333

Entonces, si básicamente nos dicen lo mismo, ¿para qué molestarse? Las probabilidades están acotadas entre 0 y 1, lo que se convierte en un problema en el análisis de regresión. Las probabilidades, como puede ver a continuación, van de 0 a infinito.

Y si tomamos el logaritmo natural de las probabilidades, entonces obtenemos logaritmos de probabilidades que no están limitados (van de negativo a infinito positivo) y son aproximadamente lineales en la mayoría de las probabilidades. Dado que podemos estimar las probabilidades logarítmicas a través de la regresión logística, podemos estimar la probabilidad también porque las probabilidades logarítmicas son simplemente la probabilidad expresada de otra manera.

Nota que la sección media del gráfico es lineal

Podemos escribir nuestra ecuación de regresión logística:

Z = B0 + B1*distancia_de_la_canasta

donde Z = log(odds_of_making_shot)

Y para obtener la probabilidad a partir de Z, que está en log odds, aplicamos la función sigmoide. Aplicar la función sigmoidea es una forma elegante de describir la siguiente transformación:

Probabilidad de hacer el tiro = 1 /

Ahora que entendemos cómo podemos pasar de una estimación lineal de las probabilidades logarítmicas a una probabilidad, vamos a examinar cómo se estiman realmente los coeficientes B0 y B1 en la ecuación de regresión logística que utilizamos para calcular Z. Hay algo de matemática que ocurre entre bastidores aquí, pero haré todo lo posible para explicarlo en un inglés sencillo para que tanto usted (como yo) podamos obtener una comprensión intuitiva de este modelo.