Diciamo che voglio esaminare la relazione tra la mia precisione di tiro nel basket e la distanza da cui tiro. Più specificamente, voglio un modello che prenda la “distanza dal canestro” in piedi e sputi fuori la probabilità che io faccia il tiro.

Prima ho bisogno di alcuni dati. Così sono uscito e ho tirato un pallone da basket da varie distanze registrando ogni risultato (1 per una realizzazione, 0 per una mancanza). Il risultato appare così se tracciato su un grafico a dispersione:

Generalmente, più mi allontano dal canestro, meno preciso è il tiro. Quindi possiamo già vedere i contorni approssimativi del nostro modello: quando viene data una piccola distanza, dovrebbe prevedere un’alta probabilità e quando viene data una grande distanza dovrebbe prevedere una bassa probabilità.

A un livello alto, la regressione logistica funziona molto come la buona vecchia regressione lineare. Quindi iniziamo con la familiare equazione di regressione lineare:

Y = B0 + B1*X

Nella regressione lineare, l’output Y è nelle stesse unità della variabile obiettivo (la cosa che si sta cercando di prevedere). Tuttavia, nella regressione logistica l’uscita Y è in probabilità logiche. Ora, a meno che non passiate molto tempo nelle scommesse sportive o nei casinò, probabilmente non avete molta familiarità con le probabilità. Le probabilità sono solo un altro modo di esprimere la probabilità di un evento, P(Evento).

Odds = P(Evento) /

Continuando il nostro tema del basket, diciamo che ho fatto 100 tiri liberi e ne ho fatti 70. Sulla base di questo campione, la mia probabilità di fare un tiro libero è del 70%. Le mie probabilità di fare un tiro libero possono essere calcolate come:

Odds = 0.70 / (1-0.70) = 2.333

Quindi se ci dicono fondamentalmente la stessa cosa, perché preoccuparsi? Le probabilità sono delimitate tra 0 e 1, il che diventa un problema nell’analisi di regressione. Le probabilità, come potete vedere qui sotto, vanno da 0 a infinito.

E se prendiamo il log naturale delle probabilità, allora otteniamo le probabilità log che sono senza limiti (vanno da negativo a positivo infinito) e approssimativamente lineari attraverso la maggior parte delle probabilità! Dato che possiamo stimare le probabilità logiche tramite la regressione logistica, possiamo stimare anche la probabilità, perché le probabilità logiche sono solo probabilità dichiarate in un altro modo.

Nota che la sezione centrale del grafico è lineare

Possiamo scrivere la nostra equazione di regressione logistica:

Z = B0 + B1*distanza_dal_canestro

dove Z = log(probabilità_di_fare_tiro)

E per ottenere la probabilità da Z, che è in probabilità log, applichiamo la funzione sigmoide. Applicare la funzione sigmoide è un modo fantasioso di descrivere la seguente trasformazione:

Probabilità di fare un tiro = 1 /

Ora che abbiamo capito come possiamo passare da una stima lineare delle probabilità log a una probabilità, esaminiamo come i coefficienti B0 e B1 sono effettivamente stimati nell’equazione di regressione logistica che usiamo per calcolare Z. C’è un po’ di matematica che va dietro le quinte qui, ma farò del mio meglio per spiegarlo in un inglese semplice in modo che sia voi (che io) possiamo ottenere una comprensione intuitiva di questo modello.