Powiedzmy, że chciałem zbadać związek między moją dokładnością strzelania do kosza a odległością, z której strzelam. Dokładniej, chcę model, który bierze w „odległość od kosza” w stopach i wypluwa prawdopodobieństwo, że zrobię strzał.

Po pierwsze potrzebuję trochę danych. Więc wyszedłem i strzeliłem do kosza z różnych odległości, jednocześnie rejestrując każdy wynik (1 za wykonanie, 0 za chybienie). Wynik wygląda tak, gdy naniesiemy go na wykres rozrzutu:

Ogólnie rzecz biorąc, im dalej od kosza, tym mniej celnie strzelam. Widzimy więc już przybliżony zarys naszego modelu: gdy podany jest mały dystans, powinien przewidywać wysokie prawdopodobieństwo, a gdy podany jest duży dystans, powinien przewidywać niskie prawdopodobieństwo.

Na wysokim poziomie regresja logistyczna działa podobnie jak stara dobra regresja liniowa. Zacznijmy więc od znanego równania regresji liniowej:

Y = B0 + B1*X

W regresji liniowej wartość wyjściowa Y jest w tych samych jednostkach co zmienna docelowa (rzecz, którą próbujesz przewidzieć). Jednak w regresji logistycznej wyjście Y jest w logicznych kursach. Teraz, o ile nie spędzasz dużo czasu na zakładach sportowych lub w kasynach, prawdopodobnie nie jesteś zbyt dobrze zaznajomiony z kursami. Kursy to po prostu inny sposób wyrażania prawdopodobieństwa zdarzenia, P(Zdarzenie).

Odds = P(Zdarzenie) /

Kontynuując nasz temat koszykówki, powiedzmy, że oddałem 100 rzutów wolnych i wykonałem 70. W oparciu o tę próbkę, moje prawdopodobieństwo wykonania rzutu wolnego wynosi 70%. Moje szanse na wykonanie rzutu wolnego mogą być obliczone jako:

Odds = 0,70 / (1-0,70) = 2,333

Więc jeśli w zasadzie mówią nam to samo, po co się przejmować? Prawdopodobieństwa są ograniczone między 0 a 1, co staje się problemem w analizie regresji. Prawdopodobieństwa, jak widać poniżej, wahają się od 0 do nieskończoności.

A jeśli weźmiemy logarytm naturalny prawdopodobieństwa, to otrzymamy logarytmiczne prawdopodobieństwa, które są nieograniczone (zakresy od ujemnych do dodatnich nieskończoności) i z grubsza liniowe dla większości prawdopodobieństw! Ponieważ możemy oszacować log odds poprzez regresję logistyczną, możemy również oszacować prawdopodobieństwo, ponieważ log odds to po prostu prawdopodobieństwo podane w inny sposób.

Zauważ, że środkowa część wykresu jest liniowa

Możemy napisać nasze równanie regresji logistycznej:

Z = B0 + B1*distance_from_basket

gdzie Z = log(odds_of_making_shot)

Aby otrzymać prawdopodobieństwo z Z, które jest w log odds, stosujemy funkcję sigmoidalną. Zastosowanie funkcji sigmoidalnej jest wymyślnym sposobem opisania następującej transformacji:

Prawdopodobieństwo oddania strzału = 1 /

Teraz, gdy rozumiemy, w jaki sposób możemy przejść od liniowej estymacji log odds do prawdopodobieństwa, zbadajmy, w jaki sposób współczynniki B0 i B1 są faktycznie szacowane w równaniu regresji logistycznej, którego używamy do obliczenia Z. Jest trochę matematyki, która dzieje się tutaj za kulisami, ale zrobię co w mojej mocy, aby wyjaśnić to w prostym języku angielskim, aby zarówno ty (jak i ja) mogli uzyskać intuicyjne zrozumienie tego modelu.