Tegyük fel, hogy meg akarom vizsgálni a kosárlabda-lövési pontosságom és a lövési távolságom közötti kapcsolatot. Pontosabban, egy olyan modellt szeretnék, amely a “kosártól való távolságot” lábban kifejezve veszi, és kiköpi a dobásom valószínűségét.

Először is szükségem van néhány adatra. Ezért kimentem és dobtam egy kosárlabdát különböző távolságokból, miközben minden eredményt feljegyeztem (1 a dobásnál, 0 a kihagyásnál). Az eredmény egy szórásdiagramon ábrázolva így néz ki:

Általában minél távolabb kerülök a kosártól, annál kevésbé pontosan dobok. Így már láthatjuk a modellünk nagyjából körvonalazott körvonalait: kis távolság esetén nagy valószínűséget, nagy távolság esetén pedig kis valószínűséget kell jósolnia.

A logisztikus regresszió magas szinten nagyjából úgy működik, mint a jó öreg lineáris regresszió. Kezdjük tehát a jól ismert lineáris regressziós egyenlettel:

Y = B0 + B1*X

A lineáris regresszióban az Y kimenet ugyanabban az egységben van, mint a célváltozó (az, amit meg akarunk jósolni). A logisztikus regresszióban azonban a kimeneti Y logaritmusban van megadva. Most, hacsak nem tölt sok időt sportfogadással vagy kaszinókban, valószínűleg nem nagyon ismeri az esélyeket. Az odds csak egy másik módja egy esemény valószínűségének, a P(Esemény) kifejezésének.

Odds = P(Esemény) /

Kosárlabda témánkat folytatva, tegyük fel, hogy 100 büntetődobást dobtam, és 70-et dobtam. E minta alapján a büntetődobásom valószínűsége 70%. A büntetődobásom esélye a következőképpen számítható ki:

Értékelési esély = 0,70 / (1-0,70) = 2,333

Ha tehát alapvetően ugyanazt mondják, akkor miért foglalkozunk vele? A valószínűségek 0 és 1 között korlátosak, ami a regresszióelemzésben problémává válik. Az esélyek, mint alább látható, 0 és a végtelen között mozognak.

És ha az esélyek természetes logaritmusát vesszük, akkor log esélyeket kapunk, amelyek nem korlátozottak (negatív és pozitív végtelen között mozognak) és nagyjából lineárisak a legtöbb valószínűségen! Mivel a logisztikus regresszió segítségével meg tudjuk becsülni a log oddsot, a valószínűséget is meg tudjuk becsülni, mivel a log odds nem más, mint a valószínűség másképpen megfogalmazva.

Megjegyezzük, hogy a grafikon középső szakasza lineáris

A logisztikus regressziós egyenletünket felírhatjuk:

Z = B0 + B1*távolság_a_kosártól

ahol Z = log(odds_of_making_shot)

És hogy a Z-ből, ami log odds-ban van, valószínűséget kapjunk, alkalmazzuk a szigmoid függvényt. A szigmoid függvény alkalmazása a következő transzformáció fantáziadús leírása:

Lövés valószínűsége = 1 /

Most, hogy megértettük, hogyan juthatunk el a log esélyek lineáris becsléséből a valószínűséghez, vizsgáljuk meg, hogy a B0 és B1 együtthatókat valójában hogyan becsüljük meg a logisztikus regressziós egyenletben, amelyet a Z kiszámításához használunk. Van némi matematika, ami itt a színfalak mögött zajlik, de mindent megteszek, hogy közérthetően magyarázzam el, hogy önök (és én is) intuitív módon megértsék ezt a modellt.