Stel dat ik de relatie wil onderzoeken tussen de nauwkeurigheid van mijn basketbalschieten en de afstand vanwaar ik schiet. Meer specifiek wil ik een model dat de “afstand van de basket” in voet aangeeft en de waarschijnlijkheid dat ik het schot maak.

Eerst heb ik gegevens nodig. Ik heb een basketbal van verschillende afstanden geschoten en elk resultaat genoteerd (1 voor een make, 0 voor een misser). Het resultaat ziet er als volgt uit wanneer het in een diagram wordt uitgezet:

Hoe verder ik van de basket kom, hoe minder nauwkeurig ik schiet. We kunnen dus al de ruwe contouren van ons model zien: bij een kleine afstand zou het een hoge waarschijnlijkheid moeten voorspellen en bij een grote afstand zou het een lage waarschijnlijkheid moeten voorspellen.

Op een hoog niveau lijkt logistische regressie veel op de goede oude lineaire regressie. Laten we dus beginnen met de bekende lineaire regressievergelijking:

Y = B0 + B1*X

In lineaire regressie is de uitvoer Y in dezelfde eenheden als de doelvariabele (datgene wat u probeert te voorspellen). Bij logistische regressie is de uitvoer Y echter in log odds. Tenzij je veel tijd doorbrengt met sportweddenschappen of in casino’s, ben je waarschijnlijk niet erg vertrouwd met kansen. Odds is gewoon een andere manier om de waarschijnlijkheid van een gebeurtenis uit te drukken, P(Gebeurtenis).

Odds = P(Gebeurtenis) /

Hiermee gaan we verder in ons basketbalthema, laten we zeggen dat ik 100 vrije worpen heb geschoten en er 70 heb gemaakt. Op basis van deze steekproef is de kans dat ik een vrije worp maak 70%. De kans dat ik een vrije worp maak, kan als volgt worden berekend:

Odds = 0,70 / (1-0,70) = 2,333

Dus als ze ons in feite hetzelfde vertellen, waarom zouden we ons dan druk maken? Kansen zijn begrensd tussen 0 en 1, wat een probleem wordt bij regressieanalyse. Zoals u hieronder kunt zien, liggen de kansen tussen 0 en oneindig.

En als we de natuurlijke log van de kansen nemen, dan krijgen we log-kansen die niet begrensd zijn (van negatief tot positief oneindig) en ruwweg lineair zijn voor de meeste kansen! Aangezien wij de log odds via logistische regressie kunnen schatten, kunnen wij ook de waarschijnlijkheid schatten, omdat log odds gewoon een andere manier van waarschijnlijkheid zijn.

Merk op dat het middelste gedeelte van de plot lineair is

We kunnen onze logistische regressievergelijking opschrijven:

Z = B0 + B1*afstand_van_bak

waar Z = log(kans_op_het_maken_van_schot)

En om kans te krijgen uit Z, die in logkansen is, passen we de sigmoid-functie toe. Het toepassen van de sigmoidfunctie is een mooie manier om de volgende transformatie te beschrijven:

Kans op schot = 1 /

Nu we begrijpen hoe we van een lineaire schatting van de logkans naar een kans kunnen gaan, laten we eens kijken hoe de coëfficiënten B0 en B1 worden geschat in de logistische regressievergelijking die we gebruiken om Z te berekenen. Er is wat wiskunde die zich hier achter de schermen afspeelt, maar ik zal mijn best doen om het in gewone taal uit te leggen, zodat zowel jij (als ik) een intuïtief begrip van dit model kunnen krijgen.