Řekněme, že chci prozkoumat vztah mezi přesností mé basketbalové střelby a vzdáleností, ze které střílím. Přesněji řečeno, chci model, který vezme „vzdálenost od koše“ ve stopách a vyplivne pravděpodobnost, že se trefím.
Nejprve potřebuji nějaká data. Šel jsem tedy ven a střílel na koš z různých vzdáleností, přičemž jsem zaznamenával každý výsledek (1 pro trefu, 0 pro chybu). Výsledek vypadá při vynesení do grafu rozptylu takto:
Všeobecně platí, že čím dále jsem od koše, tím méně přesně střílím. Takže už vidíme hrubé obrysy našeho modelu: při malé vzdálenosti by měl předpovídat vysokou pravděpodobnost a při velké vzdálenosti by měl předpovídat nízkou pravděpodobnost.
Na vysoké úrovni funguje logistická regrese podobně jako stará dobrá lineární regrese. Začněme tedy známou rovnicí lineární regrese:
Y = B0 + B1*X
V lineární regresi je výstup Y ve stejných jednotkách jako cílová proměnná (věc, kterou se snažíte předpovědět). V logistické regresi je však výstup Y v logaritmických jednotkách. Pokud nyní netrávíte mnoho času sportovním sázením nebo v kasinech, pravděpodobně se v kurzech příliš nevyznáte. Kurz je jen jiný způsob vyjádření pravděpodobnosti události, P(Událost).
Kurz = P(Událost) /
Pokračujeme-li v našem basketbalovém tématu, řekněme, že jsem hodil 100 trestných hodů a trefil jsem 70 z nich. Na základě tohoto vzorku je moje pravděpodobnost provedení trestného hodu 70 %. Mou pravděpodobnost provedení trestného hodu lze vypočítat takto:
Odds = 0,70 / (1-0,70) = 2,333
Takže když nám v podstatě říkají totéž, proč se tím zabývat? Pravděpodobnosti jsou ohraničené mezi 0 a 1, což se v regresní analýze stává problémem. Šance, jak vidíte níže, se pohybují od 0 do nekonečna.
A pokud vezmeme přirozený logaritmus šancí, pak dostaneme logaritmy šancí, které jsou neohraničené (pohybují se od záporných hodnot po kladné nekonečno) a zhruba lineární u většiny pravděpodobností! Protože můžeme odhadnout logaritmické šance pomocí logistické regrese, můžeme odhadnout i pravděpodobnost, protože logaritmické šance jsou jen jinak vyjádřená pravděpodobnost.
Můžeme napsat naši rovnici logistické regrese:
Z = B0 + B1*vzdálenost_od_koše
kde Z = log(šance_na_výstřel)
A abychom ze Z, které je v logaritmech, získali pravděpodobnost, použijeme sigmoidní funkci. Použití sigmoidní funkce je módní způsob, jak popsat následující transformaci:
Pravděpodobnost provedení výstřelu = 1 /
Teď, když jsme pochopili, jak můžeme přejít od lineárního odhadu logaritmických šancí k pravděpodobnosti, prozkoumejme, jak se vlastně odhadují koeficienty B0 a B1 v rovnici logistické regrese, kterou používáme k výpočtu Z. V pozadí se odehrává určitá matematika, ale budu se ji snažit vysvětlit srozumitelnou angličtinou, abyste vy (i já) mohli tento model intuitivně pochopit.
.
Napsat komentář