Vad sägs om att jag vill undersöka sambandet mellan min precision vid basketbollskytte och avståndet jag skjuter från. Närmare bestämt vill jag ha en modell som tar in ”avståndet från korgen” i meter och som ger sannolikheten för att jag kommer att lyckas med skottet.

Först behöver jag några data. Så jag gick ut och sköt en basketboll från olika avstånd samtidigt som jag registrerade varje resultat (1 för en fullträff, 0 för en missad). Resultatet ser ut så här när det plottas på ett spridningsdiagram:

Generellt sett så är det så att ju längre bort jag kommer från korgen, desto mindre exakt skjuter jag. Så vi kan redan se de grova konturerna av vår modell: när den ges ett litet avstånd ska den förutsäga en hög sannolikhet och när den ges ett stort avstånd ska den förutsäga en låg sannolikhet.

På en hög nivå fungerar logistisk regression mycket som god gammal linjär regression. Så låt oss börja med den välkända linjära regressionsekvationen:

Y = B0 + B1*X

I linjär regression är resultatet Y i samma enheter som målvariabeln (det du försöker förutsäga). I logistisk regression är dock utfallet Y i logaritmiska odds. Om du inte tillbringar mycket tid med sportspel eller på kasinon är du förmodligen inte särskilt bekant med odds. Odds är bara ett annat sätt att uttrycka sannolikheten för en händelse, P(Händelse).

Odds = P(Händelse) /

Fortsätter vi vårt basket-tema, låt oss säga att jag sköt 100 frikast och lyckades med 70. Baserat på detta urval är min sannolikhet att göra ett frikast 70 %. Mina odds för att göra ett frikast kan beräknas som:

Odds = 0,70 / (1-0,70) = 2,333

Så om de i princip säger samma sak till oss, varför bry sig? Sannolikheter är begränsade mellan 0 och 1, vilket blir ett problem vid regressionsanalyser. Odds som du kan se nedan sträcker sig från 0 till oändlighet.

Och om vi tar den naturliga logaritmen av oddsen får vi log odds som är obundna (sträcker sig från negativ till positiv oändlighet) och ungefär linjära över de flesta sannolikheter! Eftersom vi kan skatta log odds via logistisk regression kan vi också skatta sannolikheten eftersom log odds bara är sannolikhet uttryckt på ett annat sätt.

Bemärk att det mellersta avsnittet av diagrammet är linjärt

Vi kan skriva vår logistiska regressionsekvation:

Z = B0 + B1*avstånd_från_korgen

där Z = log(odds_of_making_shot)

Och för att få fram sannolikhet från Z, som är i log odds, tillämpar vi sigmoidfunktionen. Att tillämpa sigmoidfunktionen är ett tjusigt sätt att beskriva följande omvandling:

Sannolikhet att göra ett skott = 1 /

När vi nu förstår hur vi kan gå från en linjär skattning av log odds till en sannolikhet, låt oss undersöka hur koefficienterna B0 och B1 faktiskt skattas i den logistiska regressionsekvation som vi använder för att beräkna Z. Det är en del matematik som pågår bakom kulisserna här, men jag ska göra mitt bästa för att förklara det på enkel engelska så att både du (och jag) kan få en intuitiv förståelse för den här modellen.