Pochopení logistické regrese

Řekněme, že chci prozkoumat vztah mezi přesností mé basketbalové střelby a vzdáleností, ze které střílím. Přesněji řečeno, chci model, který vezme „vzdálenost od koše“ ve stopách a vyplivne pravděpodobnost, že se trefím.

Nejprve potřebuji nějaká data. Šel jsem tedy ven a střílel na koš z různých vzdáleností, přičemž jsem zaznamenával každý výsledek (1 pro trefu, 0 pro chybu). Výsledek vypadá při vynesení do grafu rozptylu takto:

Všeobecně platí, že čím dále jsem od koše, tím méně přesně střílím. Takže už vidíme hrubé obrysy našeho modelu: při malé vzdálenosti by měl předpovídat vysokou pravděpodobnost a při velké vzdálenosti by měl předpovídat nízkou pravděpodobnost.

Na vysoké úrovni funguje logistická regrese podobně jako stará dobrá lineární regrese. Začněme tedy známou rovnicí lineární regrese:

Y = B0 + B1*X

V lineární regresi je výstup Y ve stejných jednotkách jako cílová proměnná (věc, kterou se snažíte předpovědět). V logistické regresi je však výstup Y v logaritmických jednotkách. Pokud nyní netrávíte mnoho času sportovním sázením nebo v kasinech, pravděpodobně se v kurzech příliš nevyznáte. Kurz je jen jiný způsob vyjádření pravděpodobnosti události, P(Událost).

Kurz = P(Událost) /

Pokračujeme-li v našem basketbalovém tématu, řekněme, že jsem hodil 100 trestných hodů a trefil jsem 70 z nich. Na základě tohoto vzorku je moje pravděpodobnost provedení trestného hodu 70 %. Mou pravděpodobnost provedení trestného hodu lze vypočítat takto:

Odds = 0,70 / (1-0,70) = 2,333

Takže když nám v podstatě říkají totéž, proč se tím zabývat? Pravděpodobnosti jsou ohraničené mezi 0 a 1, což se v regresní analýze stává problémem. Šance, jak vidíte níže, se pohybují od 0 do nekonečna.

A pokud vezmeme přirozený logaritmus šancí, pak dostaneme logaritmy šancí, které jsou neohraničené (pohybují se od záporných hodnot po kladné nekonečno) a zhruba lineární u většiny pravděpodobností! Protože můžeme odhadnout logaritmické šance pomocí logistické regrese, můžeme odhadnout i pravděpodobnost, protože logaritmické šance jsou jen jinak vyjádřená pravděpodobnost.

Všimněte si, že střední část grafu je lineární

Můžeme napsat naši rovnici logistické regrese:

Z = B0 + B1*vzdálenost_od_koše

kde Z = log(šance_na_výstřel)

A abychom ze Z, které je v logaritmech, získali pravděpodobnost, použijeme sigmoidní funkci. Použití sigmoidní funkce je módní způsob, jak popsat následující transformaci:

Pravděpodobnost provedení výstřelu = 1 /

Teď, když jsme pochopili, jak můžeme přejít od lineárního odhadu logaritmických šancí k pravděpodobnosti, prozkoumejme, jak se vlastně odhadují koeficienty B0 a B1 v rovnici logistické regrese, kterou používáme k výpočtu Z. V pozadí se odehrává určitá matematika, ale budu se ji snažit vysvětlit srozumitelnou angličtinou, abyste vy (i já) mohli tento model intuitivně pochopit.

Napsat komentář Zrušit odpověď na komentář

Nejnovější příspěvky

Archivy

Základní informace