Angenommen, ich möchte die Beziehung zwischen meiner Treffsicherheit beim Basketball und der Entfernung, aus der ich schieße, untersuchen. Genauer gesagt möchte ich ein Modell, das die „Entfernung zum Korb“ in Fuß erfasst und die Wahrscheinlichkeit ausspuckt, dass ich den Wurf machen werde.

Zuerst brauche ich einige Daten. Also bin ich losgezogen und habe einen Basketball aus verschiedenen Entfernungen geworfen und jedes Ergebnis aufgezeichnet (1 für einen Treffer, 0 für einen Fehlschuss). Das Ergebnis sieht wie folgt aus, wenn man es in ein Streudiagramm einträgt:

Generell gilt: Je weiter ich vom Korb entfernt bin, desto ungenauer treffe ich. Wir können also bereits die groben Umrisse unseres Modells erkennen: Bei einer geringen Entfernung sollte es eine hohe Wahrscheinlichkeit vorhersagen, bei einer großen Entfernung eine niedrige.

Auf hohem Niveau funktioniert die logistische Regression ähnlich wie die gute alte lineare Regression. Beginnen wir also mit der bekannten linearen Regressionsgleichung:

Y = B0 + B1*X

Bei der linearen Regression ist die Ausgabe Y in denselben Einheiten wie die Zielvariable (das, was man vorherzusagen versucht). Bei der logistischen Regression ist die Ausgabe Y jedoch in logarithmischen Quoten angegeben. Wenn Sie nicht gerade viel Zeit mit Sportwetten oder in Kasinos verbringen, sind Sie wahrscheinlich nicht sehr vertraut mit Quoten. Odds ist nur eine andere Art, die Wahrscheinlichkeit eines Ereignisses auszudrücken, P(Ereignis).

Odds = P(Ereignis) /

Weiter im Basketball-Thema: Nehmen wir an, ich habe 100 Freiwürfe gemacht und 70 davon getroffen. Auf der Grundlage dieser Stichprobe beträgt meine Wahrscheinlichkeit, einen Freiwurf zu treffen, 70 %. Meine Chancen, einen Freiwurf zu treffen, lassen sich wie folgt berechnen:

Quoten = 0,70 / (1-0,70) = 2,333

Wenn sie uns also im Grunde das Gleiche sagen, warum sich die Mühe machen? Wahrscheinlichkeiten sind zwischen 0 und 1 begrenzt, was bei der Regressionsanalyse ein Problem darstellt. Wie Sie unten sehen können, reichen die Wahrscheinlichkeiten von 0 bis unendlich.

Und wenn wir den natürlichen Logarithmus der Wahrscheinlichkeiten nehmen, dann erhalten wir logarithmische Wahrscheinlichkeiten, die nicht begrenzt sind (von negativ bis positiv unendlich) und ungefähr linear über die meisten Wahrscheinlichkeiten sind! Da wir die logarithmischen Quoten mit Hilfe der logistischen Regression schätzen können, können wir auch die Wahrscheinlichkeit schätzen, denn die logarithmischen Quoten sind nichts anderes als die Wahrscheinlichkeit in anderer Form.

Beachten Sie, dass der mittlere Teil der Grafik linear ist

Wir können unsere logistische Regressionsgleichung schreiben:

Z = B0 + B1*Entfernung_vom_Korb

wobei Z = log(odds_of_making_shot)

Und um die Wahrscheinlichkeit von Z zu erhalten, die in log odds angegeben ist, wenden wir die Sigmoidfunktion an. Die Anwendung der Sigmoidfunktion ist eine schicke Art, die folgende Transformation zu beschreiben:

Wahrscheinlichkeit eines Schusses = 1 /

Nachdem wir nun verstanden haben, wie wir von einer linearen Schätzung der logarithmischen Quoten zu einer Wahrscheinlichkeit kommen, wollen wir untersuchen, wie die Koeffizienten B0 und B1 in der logistischen Regressionsgleichung, die wir zur Berechnung von Z verwenden, tatsächlich geschätzt werden. Hinter den Kulissen laufen einige mathematische Vorgänge ab, aber ich werde mein Bestes tun, um sie in einfachem Englisch zu erklären, damit Sie (und ich) ein intuitives Verständnis dieses Modells gewinnen können.