Tegyük fel, hogy meg akarom vizsgálni a kosárlabda-lövési pontosságom és a lövési távolságom közötti kapcsolatot. Pontosabban, egy olyan modellt szeretnék, amely a “kosártól való távolságot” lábban kifejezve veszi, és kiköpi a dobásom valószínűségét.
Először is szükségem van néhány adatra. Ezért kimentem és dobtam egy kosárlabdát különböző távolságokból, miközben minden eredményt feljegyeztem (1 a dobásnál, 0 a kihagyásnál). Az eredmény egy szórásdiagramon ábrázolva így néz ki:
Általában minél távolabb kerülök a kosártól, annál kevésbé pontosan dobok. Így már láthatjuk a modellünk nagyjából körvonalazott körvonalait: kis távolság esetén nagy valószínűséget, nagy távolság esetén pedig kis valószínűséget kell jósolnia.
A logisztikus regresszió magas szinten nagyjából úgy működik, mint a jó öreg lineáris regresszió. Kezdjük tehát a jól ismert lineáris regressziós egyenlettel:
Y = B0 + B1*X
A lineáris regresszióban az Y kimenet ugyanabban az egységben van, mint a célváltozó (az, amit meg akarunk jósolni). A logisztikus regresszióban azonban a kimeneti Y logaritmusban van megadva. Most, hacsak nem tölt sok időt sportfogadással vagy kaszinókban, valószínűleg nem nagyon ismeri az esélyeket. Az odds csak egy másik módja egy esemény valószínűségének, a P(Esemény) kifejezésének.
Odds = P(Esemény) /
Kosárlabda témánkat folytatva, tegyük fel, hogy 100 büntetődobást dobtam, és 70-et dobtam. E minta alapján a büntetődobásom valószínűsége 70%. A büntetődobásom esélye a következőképpen számítható ki:
Értékelési esély = 0,70 / (1-0,70) = 2,333
Ha tehát alapvetően ugyanazt mondják, akkor miért foglalkozunk vele? A valószínűségek 0 és 1 között korlátosak, ami a regresszióelemzésben problémává válik. Az esélyek, mint alább látható, 0 és a végtelen között mozognak.
És ha az esélyek természetes logaritmusát vesszük, akkor log esélyeket kapunk, amelyek nem korlátozottak (negatív és pozitív végtelen között mozognak) és nagyjából lineárisak a legtöbb valószínűségen! Mivel a logisztikus regresszió segítségével meg tudjuk becsülni a log oddsot, a valószínűséget is meg tudjuk becsülni, mivel a log odds nem más, mint a valószínűség másképpen megfogalmazva.
Megjegyezzük, hogy a grafikon középső szakasza lineáris
A logisztikus regressziós egyenletünket felírhatjuk:
Z = B0 + B1*távolság_a_kosártól
ahol Z = log(odds_of_making_shot)
És hogy a Z-ből, ami log odds-ban van, valószínűséget kapjunk, alkalmazzuk a szigmoid függvényt. A szigmoid függvény alkalmazása a következő transzformáció fantáziadús leírása:
Lövés valószínűsége = 1 /
Most, hogy megértettük, hogyan juthatunk el a log esélyek lineáris becsléséből a valószínűséghez, vizsgáljuk meg, hogy a B0 és B1 együtthatókat valójában hogyan becsüljük meg a logisztikus regressziós egyenletben, amelyet a Z kiszámításához használunk. Van némi matematika, ami itt a színfalak mögött zajlik, de mindent megteszek, hogy közérthetően magyarázzam el, hogy önök (és én is) intuitív módon megértsék ezt a modellt.
Vélemény, hozzászólás?