Forståelse af logistisk regression

Lad os sige, at jeg ønsker at undersøge sammenhængen mellem min præcision ved basketballskydning og den afstand, jeg skyder fra. Mere specifikt vil jeg have en model, der tager “afstanden fra kurven” i fod og giver sandsynligheden for, at jeg får skuddet.

Først har jeg brug for nogle data. Så jeg gik ud og skød en basketball fra forskellige afstande, mens jeg registrerede hvert resultat (1 for en make, 0 for en misser). Resultatet ser sådan her ud, når det bliver plottet på et scatter plot:

Generelt set er det sådan, at jo længere jeg kommer væk fra kurven, jo mindre præcist skyder jeg. Så vi kan allerede se de grove konturer af vores model: Når den gives en lille afstand, bør den forudsige en høj sandsynlighed, og når den gives en stor afstand, bør den forudsige en lav sandsynlighed.

På et højt niveau fungerer logistisk regression meget som den gode gamle lineære regression. Så lad os starte med den velkendte lineære regressionsligning:

Y = B0 + B1*X

I lineær regression er output Y i de samme enheder som målvariablen (den ting, du forsøger at forudsige). I logistisk regression er outputtet Y derimod i logodds. Medmindre du bruger meget tid på sportsvæddemål eller på kasinoer, er du sandsynligvis ikke særlig bekendt med odds. Odds er blot en anden måde at udtrykke sandsynligheden for en begivenhed, P(begivenhed).

Odds = P(begivenhed) /

Fortsætter vi vores basketball-tema, så lad os sige, at jeg skød 100 frikast og lavede 70. Baseret på denne prøve er min sandsynlighed for at lave et frikast 70 %. Min chance for at lave et frikast kan beregnes som:

Odds = 0,70 / (1-0,70) = 2,333

Så hvis de grundlæggende fortæller os det samme, hvorfor så gider man så? Sandsynligheder er afgrænset mellem 0 og 1, hvilket bliver et problem i regressionsanalyser. Odds som du kan se nedenfor spænder fra 0 til uendeligt.

Og hvis vi tager den naturlige logaritme af oddsene, så får vi log odds, som er ubegrænsede (spænder fra negativ til positiv uendelig) og nogenlunde lineære på tværs af de fleste sandsynligheder! Da vi kan estimere logodds via logistisk regression, kan vi også estimere sandsynligheden, fordi logodds bare er sandsynlighed angivet på en anden måde.

Skriv et svar Annuller svar

Seneste indlæg

Arkiver

Meta