Esitettäköön, että haluan tutkia koripallon heittotarkkuuteni ja heittoetäisyyteni välistä yhteyttä. Tarkemmin sanottuna haluan mallin, joka ottaa ”etäisyyden korista” metreinä ja sylkee ulos todennäköisyyden, että onnistun heitossa.
Ensin tarvitsen dataa. Menin siis ulos ja heitin koripalloa eri etäisyyksiltä samalla kun kirjasin jokaisen tuloksen ylös (1, jos onnistuu, 0, jos menee ohi). Tulos näyttää hajontakuvioon piirrettynä tältä:
Yleisesti mitä kauemmas pääsen korista, sitä epätarkemmin heitän. Voimme siis jo nähdä mallimme karkeat ääriviivat: kun sille annetaan pieni etäisyys, sen pitäisi ennustaa suuri todennäköisyys ja kun sille annetaan suuri etäisyys, sen pitäisi ennustaa pieni todennäköisyys.
Korkealla tasolla logistinen regressio toimii pitkälti kuten vanha kunnon lineaarinen regressio. Aloitetaan siis tutusta lineaarisen regression yhtälöstä:
Y = B0 + B1*X
Lineaarisessa regressiossa tuloste Y on samoissa yksiköissä kuin kohdemuuttuja (asia, jota yrität ennustaa). Logistisessa regressiossa ulostulo Y on kuitenkin log-kertoimina. Nyt ellet vietä paljon aikaa urheiluvedonlyönnissä tai kasinoissa, et luultavasti tunne kertoimia kovin hyvin. Odds on vain toinen tapa ilmaista tapahtuman todennäköisyys, P(Tapahtuma).
Odds = P(Tapahtuma) /
Jatkaessamme koripalloteemaamme, sanotaan, että heitin 100 vapaaheittoa ja tein 70. Tämän otoksen perusteella todennäköisyyteni tehdä vapaaheitto on 70 %. Todennäköisyyteni tehdä vapaaheitto voidaan laskea seuraavasti:
Todennäköisyys = 0,70 / (1-0,70) = 2,333
Jos ne siis periaatteessa kertovat meille saman asian, miksi vaivautua? Todennäköisyydet ovat rajattuja 0:n ja 1:n välillä, mikä tulee ongelmaksi regressioanalyysissä. Koska voimme arvioida log-kertoimet logistisen regression avulla, voimme myös arvioida todennäköisyyttä, koska log-kertoimet ovat vain todennäköisyyttä toisella tavalla ilmaistuna.
Voidaan kirjoittaa logistisen regression yhtälömme:
Z = B0 + B1*etäisyys_korista
jossa Z = log(odds_of_making_shot)
Ja saadaksemme todennäköisyyden Z:stä, joka on log-kertoimena, sovellamme sigmofunktiota. Sigmoidifunktion soveltaminen on hieno tapa kuvata seuraavaa muunnosta:
Laukauksen tekemisen todennäköisyys = 1 /
Nyt kun ymmärrämme, miten voimme siirtyä log-kertoimen lineaarisesta estimaatista todennäköisyyteen, tarkastellaan, miten kertoimet B0 ja B1 itse asiassa estimoidaan logistisessa regressioyhtälössä, jota käytämme Z:n laskemiseen. Tässä tapahtuu jonkin verran matematiikkaa, mutta yritän parhaani mukaan selittää sen selkokielellä, jotta sekä sinä (että minä) voisimme saada intuitiivisen käsityksen tästä mallista.
Vastaa