Lad os sige, at jeg ønsker at undersøge sammenhængen mellem min præcision ved basketballskydning og den afstand, jeg skyder fra. Mere specifikt vil jeg have en model, der tager “afstanden fra kurven” i fod og giver sandsynligheden for, at jeg får skuddet.

Først har jeg brug for nogle data. Så jeg gik ud og skød en basketball fra forskellige afstande, mens jeg registrerede hvert resultat (1 for en make, 0 for en misser). Resultatet ser sådan her ud, når det bliver plottet på et scatter plot:

Generelt set er det sådan, at jo længere jeg kommer væk fra kurven, jo mindre præcist skyder jeg. Så vi kan allerede se de grove konturer af vores model: Når den gives en lille afstand, bør den forudsige en høj sandsynlighed, og når den gives en stor afstand, bør den forudsige en lav sandsynlighed.

På et højt niveau fungerer logistisk regression meget som den gode gamle lineære regression. Så lad os starte med den velkendte lineære regressionsligning:

Y = B0 + B1*X

I lineær regression er output Y i de samme enheder som målvariablen (den ting, du forsøger at forudsige). I logistisk regression er outputtet Y derimod i logodds. Medmindre du bruger meget tid på sportsvæddemål eller på kasinoer, er du sandsynligvis ikke særlig bekendt med odds. Odds er blot en anden måde at udtrykke sandsynligheden for en begivenhed, P(begivenhed).

Odds = P(begivenhed) /

Fortsætter vi vores basketball-tema, så lad os sige, at jeg skød 100 frikast og lavede 70. Baseret på denne prøve er min sandsynlighed for at lave et frikast 70 %. Min chance for at lave et frikast kan beregnes som:

Odds = 0,70 / (1-0,70) = 2,333

Så hvis de grundlæggende fortæller os det samme, hvorfor så gider man så? Sandsynligheder er afgrænset mellem 0 og 1, hvilket bliver et problem i regressionsanalyser. Odds som du kan se nedenfor spænder fra 0 til uendeligt.

Og hvis vi tager den naturlige logaritme af oddsene, så får vi log odds, som er ubegrænsede (spænder fra negativ til positiv uendelig) og nogenlunde lineære på tværs af de fleste sandsynligheder! Da vi kan estimere logodds via logistisk regression, kan vi også estimere sandsynligheden, fordi logodds bare er sandsynlighed angivet på en anden måde.

Bemærk, at den midterste del af plottet er lineær

Vi kan skrive vores logistiske regressionsligning:

Z = B0 + B1*distance_fra_kurven

hvor Z = log(odds_of_making_shot)

Og for at få sandsynligheden ud fra Z, som er i log odds, anvender vi sigmoidfunktionen. Anvendelse af sigmoidfunktionen er en smart måde at beskrive følgende transformation på:

Sandsynlighed for at skyde = 1 /

Nu da vi forstår, hvordan vi kan gå fra et lineært estimat af log odds til en sandsynlighed, skal vi undersøge, hvordan koefficienterne B0 og B1 faktisk estimeres i den logistiske regressionsligning, som vi bruger til at beregne Z. Der er en del matematik, der foregår bag kulisserne her, men jeg vil gøre mit bedste for at forklare det på almindeligt engelsk, så både du (og jeg) kan få en intuitiv forståelse af denne model.