Vamos dizer que eu queria examinar a relação entre a precisão do meu tiro de basquetebol e a distância de onde eu atiro. Mais especificamente, eu quero um modelo que aceite a “distância do cesto” em pés e cuspa a probabilidade de eu fazer o tiro.

Primeiro eu preciso de alguns dados. Então eu saí e chutei uma bola de basquete de várias distâncias enquanto gravavava cada resultado (1 para uma marca, 0 para uma falta). O resultado fica assim quando plotado em um gráfico de dispersão:

>

Generalmente, quanto mais distante eu tiro do cesto, menos preciso eu atiro. Assim já podemos ver as linhas gerais do nosso modelo: quando dada uma pequena distância, ele deve prever uma alta probabilidade e quando dada uma grande distância ele deve prever uma baixa probabilidade.

A um nível alto, a regressão logística funciona muito como uma boa e velha regressão linear. Então vamos começar com a equação de regressão linear familiar:

Y = B0 + B1*X

Na regressão linear, o output Y está nas mesmas unidades que a variável alvo (a coisa que você está tentando prever). Entretanto, na regressão logística, o output Y está em log odds. Agora, a menos que você passe muito tempo apostando em esportes ou em cassinos, você provavelmente não está muito familiarizado com odds. Odds é apenas outra forma de expressar a probabilidade de um evento, P(Event).

Odds = P(Event) /

Continuando o nosso tema de basquetebol, digamos que eu fiz 100 lançamentos livres e fiz 70. Com base nesta amostra, minha probabilidade de fazer um arremesso livre é de 70%. Minhas chances de fazer um arremesso livre podem ser calculadas como:

Odds = 0.70 / (1-0.70) = 2.333

Então se eles basicamente nos dizem a mesma coisa, por que se preocupar? As probabilidades são limitadas entre 0 e 1, o que se torna um problema na análise de regressão. As probabilidades como você pode ver abaixo variam de 0 a infinito.

>

E se pegarmos o log natural das probabilidades, então obtemos probabilidades que são ilimitadas (varia de negativo a infinito positivo) e aproximadamente lineares através da maioria das probabilidades! Como podemos estimar as probabilidades logísticas através da regressão logística, também podemos estimar as probabilidades porque as probabilidades log são apenas probabilidades declaradas de outra forma.

Notem que a seção do meio do gráfico é linear

Podemos escrever nossa equação de regressão logística:

Z = B0 + B1*distance_from_basket

where Z = log(odds_of_making_shot)

E para obter a probabilidade de Z, que está em log odds, aplicamos a função sigmóide. Aplicar a função sigmóide é uma forma elegante de descrever a seguinte transformação:

Probabilidade de fazer tiro = 1 /

Agora compreendemos como podemos passar de uma estimativa linear de probabilidades de log para uma probabilidade, vamos examinar como os coeficientes B0 e B1 são realmente estimados na equação de regressão logística que usamos para calcular Z. Há aqui algumas matemáticas que se passam nos bastidores, mas farei o meu melhor para explicar em inglês simples para que ambos (você e eu) possam ganhar uma compreensão intuitiva deste modelo.