Eine der am häufigsten verwendeten Aktivierungsfunktionen beim maschinellen Lernen, oder genauer gesagt, bei neuronalen Netzen, ist die Sigmoidfunktion. Im Backpropagation-Schritt beim Training eines neuronalen Netzes muss die Ableitung der Verlustfunktion in Bezug auf jedes Gewicht im Netz gefunden werden. Dazu müssen Sie die Ableitung Ihrer Aktivierungsfunktion finden. Dieser Artikel soll alle Unklarheiten über die Ableitung der Sigmoidfunktion beseitigen.

Zu Beginn ist hier die Sigmoidfunktion:

Zum Test nehmen Sie das Sigmoid von 5 auf Ihrem Taschenrechner. Du solltest 0.99330714907 erhalten.

Für die Zwecke der Ableitung kann diese Funktion auch geschrieben werden als:

Das erste, was mir an dieser Funktion aufgefallen ist, ist, dass sie eine Zusammensetzung von Funktionen ist. Die erste Funktion ist

und die zweite ist

Erinnern Sie sich daran, dass in der Kalkulation, bei einer Komposition von Funktionen, die Ableitung, die erste Funktion nach der zweiten multipliziert mit der zweiten Funktion nach der Variablen, in diesem Fall x, ist. Etwa so:

Die Ableitung des Sigmoids nach x ist also die Ableitung der Sigmoidfunktion nach m mal der Ableitung von m nach x. Man kann sich diese Funktionszusammensetzungsregel als eine Art Zwischenberechnung vorstellen, die durch Kreuzaufhebung die ursprüngliche Ableitung ergibt, die man wollte:

Nun, da wir wissen, dass die Sigmoidfunktion eine Zusammensetzung von Funktionen ist, müssen wir nur noch die Ableitung finden:

  1. Bestimmen Sie die Ableitung der Sigmoidfunktion nach m, unserem Zwischenwert
  2. Bestimmen Sie die Ableitung von m nach x
  3. Multiplizieren Sie diese Werte miteinander

Ableitung der Sigmoidfunktion nach m

Schauen wir uns noch einmal an, wie die Sigmoidfunktion mit m als unserem Zwischenwert aussieht:

Die Ableitung davon nach m zu finden ist recht einfach, wenn wir uns die Potenzregel merken können:

Die Ableitung von x^n ist n mal die Ableitung von x hoch n-1.

So,

Nun, wenn wir unseren ursprünglichen Wert von m wieder in die Gleichung einsetzen, erhalten wir

Endlich,

Ja! Wir haben Schritt 1 abgeschlossen.

Finde die Ableitung von m nach x

Hier ist m:

Um die Ableitung zu finden, müssen wir die Ableitung von jedem Term nach x finden. Der erste Term ist einfach:

Der zweite Term ist ein bisschen komplizierter.

Lassen wir

und

Wir wissen, dass

Wenn der Weg zu e^u nicht klar ist, lesen Sie bitte dies.

Nun verwenden wir wieder die Kettenregel,

So, wir multiplizieren einfach die Ableitungen, die wir gerade berechnet haben, um die Ableitung nach x zu erhalten:

Alles in allem für Schritt 2,

Multipliziere die Ableitungen

Erinnere dich daran, dass wir, nachdem wir die beiden Zwischenableitungen gefunden haben, diese multiplizieren mussten. Also, hier eine kurze Zusammenfassung:

Nun, wenn du dich daran erinnerst, wie man multipliziert :), können wir das endlich beenden!

Sie können nun diesen Wert nehmen und ihn als Ableitung der Sigmoidfunktion verwenden. Nachdem Sie dieses Ergebnis manipuliert haben, geschieht jedoch etwas Interessantes. Es stellt sich heraus, dass man die Ableitung wie folgt umschreiben kann:

Die Ableitung der Sigmoidfunktion ist das Sigmoid mal 1 minus das Sigmoid. Wow! Ich fühle mich betrogen. 🙂