Să spunem că vreau să examinez relația dintre acuratețea aruncărilor mele la baschet și distanța de la care arunc. Mai exact, vreau un model care să ia în calcul „distanța de la coș” în picioare și să scuipe probabilitatea ca eu să reușesc aruncarea.

În primul rând am nevoie de niște date. Așa că am ieșit și am aruncat o minge de baschet de la diferite distanțe în timp ce înregistram fiecare rezultat (1 pentru o reușită, 0 pentru o ratare). Rezultatul arată așa când este reprezentat pe un grafic de împrăștiere:

În general, cu cât mă îndepărtez mai mult de coș, cu atât arunc mai puțin precis. Așadar, putem vedea deja contururile aproximative ale modelului nostru: atunci când este dată o distanță mică, acesta ar trebui să prezică o probabilitate mare, iar atunci când este dată o distanță mare, ar trebui să prezică o probabilitate mică.

La un nivel înalt, regresia logistică funcționează foarte asemănător cu vechea și buna regresie liniară. Deci, să începem cu ecuația cunoscută a regresiei liniare:

Y = B0 + B1*X

În regresia liniară, rezultatul Y este în aceleași unități ca și variabila țintă (lucrul pe care încercați să-l preziceți). Cu toate acestea, în regresia logistică, rezultatul Y este în cote logaritmice. Acum, dacă nu petreceți mult timp la pariuri sportive sau în cazinouri, probabil că nu sunteți foarte familiarizați cu cotele. Odds este doar un alt mod de a exprima probabilitatea unui eveniment, P(Eveniment).

Odds = P(Eveniment) /

Continuând tema baschetului, să spunem că am aruncat 100 de aruncări libere și am reușit 70. Pe baza acestui eșantion, probabilitatea mea de a reuși o aruncare liberă este de 70%. Șansele mele de a reuși o aruncare liberă pot fi calculate astfel:

Șanse = 0,70 / (1-0,70) = 2,333

Atunci, dacă ele ne spun practic același lucru, de ce să ne mai deranjăm? Probabilitățile sunt delimitate între 0 și 1, ceea ce devine o problemă în analiza de regresie. Șansele, după cum puteți vedea mai jos, variază de la 0 la infinit.

Și dacă luăm log natural al șanselor, atunci obținem șansele logaritmice care sunt nemărginite (variază de la negativ la infinit pozitiv) și aproximativ liniare pentru majoritatea probabilităților! Din moment ce putem estima șansele logaritmice prin regresie logistică, putem estima și probabilitatea, deoarece șansele logaritmice sunt doar probabilitatea enunțată într-un alt mod.

Observați că secțiunea de mijloc a graficului este liniară

Potem scrie ecuația noastră de regresie logistică:

Z = B0 + B1*distanța_de_de_la_baschet

unde Z = log(șanse_de_facere_a_tirului)

Și pentru a obține probabilitatea din Z, care este în cote logaritmice, aplicăm funcția sigmoidă. Aplicarea funcției sigmoide este un mod fantezist de a descrie următoarea transformare:

Probabilitatea de a face o lovitură = 1 /

Acum că am înțeles cum putem trece de la o estimare liniară a șanselor logaritmice la o probabilitate, haideți să examinăm modul în care coeficienții B0 și B1 sunt de fapt estimați în ecuația de regresie logistică pe care o folosim pentru a calcula Z. Există niște calcule matematice care se desfășoară în spatele scenei aici, dar voi face tot posibilul pentru a le explica într-o engleză simplă, astfel încât atât dumneavoastră (cât și eu) să putem obține o înțelegere intuitivă a acestui model.