Disons que je veux examiner la relation entre ma précision de tir au basket et la distance à laquelle je tire. Plus précisément, je veux un modèle qui prend la « distance du panier » en pieds et crache la probabilité que je réussisse le tir.

D’abord, il me faut des données. Je suis donc sorti et j’ai tiré un ballon de basket à différentes distances tout en enregistrant chaque résultat (1 pour une réussite, 0 pour un échec). Le résultat ressemble à ceci lorsqu’il est reporté sur un nuage de points :

Généralement, plus je m’éloigne du panier, moins je tire avec précision. Nous pouvons donc déjà voir les grandes lignes de notre modèle : lorsqu’on lui donne une petite distance, il devrait prédire une forte probabilité et lorsqu’on lui donne une grande distance, il devrait prédire une faible probabilité.

À un niveau élevé, la régression logistique fonctionne beaucoup comme la bonne vieille régression linéaire. Commençons donc par l’équation familière de régression linéaire :

Y = B0 + B1*X

Dans la régression linéaire, la sortie Y est dans les mêmes unités que la variable cible (la chose que vous essayez de prédire). Cependant, dans la régression logistique, la sortie Y est en logarithme des probabilités. À moins que vous ne passiez beaucoup de temps à faire des paris sportifs ou à fréquenter les casinos, vous n’êtes probablement pas très familier avec les cotes. La cote est juste une autre façon d’exprimer la probabilité d’un événement, P(Event).

Cotes = P(Event) /

Poursuivons notre thème sur le basket-ball, disons que j’ai tiré 100 lancers francs et que j’en ai réussi 70. Sur la base de cet échantillon, ma probabilité de réussir un lancer franc est de 70%. Mes chances de réussir un lancer franc peuvent être calculées comme:

Odds = 0,70 / (1-0,70) = 2,333

Alors, si elles nous disent essentiellement la même chose, pourquoi s’en préoccuper ? Les probabilités sont bornées entre 0 et 1, ce qui devient un problème dans l’analyse de régression. Comme vous pouvez le voir ci-dessous, les probabilités vont de 0 à l’infini.

Et si nous prenons le logarithme naturel des probabilités, alors nous obtenons des probabilités logarithmiques qui ne sont pas limitées (vont de l’infini négatif à l’infini positif) et sont grossièrement linéaires pour la plupart des probabilités ! Puisque nous pouvons estimer les chances logarithmiques via la régression logistique, nous pouvons également estimer la probabilité parce que les chances logarithmiques sont juste la probabilité énoncée d’une autre manière.

Notez que la section centrale du graphique est linéaire

Nous pouvons écrire notre équation de régression logistique :

Z = B0 + B1*distance_du_panier

où Z = log(chances_de_faire_un_coup)

Et pour obtenir la probabilité à partir de Z, qui est en logarithme des chances, nous appliquons la fonction sigmoïde. L’application de la fonction sigmoïde est une façon fantaisiste de décrire la transformation suivante :

Probabilité de faire un tir = 1 /

Maintenant que nous comprenons comment nous pouvons passer d’une estimation linéaire des chances logarithmiques à une probabilité, examinons comment les coefficients B0 et B1 sont réellement estimés dans l’équation de régression logistique que nous utilisons pour calculer Z. Il y a quelques mathématiques qui se passent en coulisses ici, mais je vais faire de mon mieux pour l’expliquer en anglais simple afin que vous (et moi) puissions acquérir une compréhension intuitive de ce modèle.