L’une des fonctions d’activation les plus fréquemment utilisées en apprentissage automatique, ou plus précisément dans les réseaux neuronaux, est la fonction sigmoïde. Dans l’étape de rétro-propagation de la formation d’un réseau neuronal, vous devez trouver la dérivée de la fonction de perte par rapport à chaque poids du réseau. Pour ce faire, vous devez trouver la dérivée de votre fonction d’activation. Cet article a pour but de dissiper toute confusion sur la recherche de la dérivée de la fonction sigmoïde.

Pour commencer, voici la fonction sigmoïde :

Pour un test, prenez la sigmoïde de 5 sur votre calculatrice. Vous devriez obtenir 0,99330714907.

Pour les besoins de la dérivée, cette fonction peut aussi être écrite comme:

La première chose que j’ai remarqué à propos de cette fonction, c’est qu’elle est une composition de fonctions. La première fonction étant

et la seconde étant

Rappellez-vous qu’en calcul, lorsqu’il y a une composition de fonctions, la dérivée, est la première fonction par rapport à la seconde multipliée par la seconde fonction par rapport à la variable, ici x. Comme ceci:

Donc, la dérivée de la sigmoïde par rapport à x est la dérivée de la fonction sigmoïde par rapport à m multipliée par la dérivée de m par rapport à x. Vous pouvez penser à cette règle de composition de fonctions comme une sorte de calcul intermédiaire qui aboutit à la dérivée originale que vous vouliez par annulation croisée:

Maintenant que nous savons que la fonction sigmoïde est une composition de fonctions, tout ce que nous avons à faire pour trouver la dérivée, est :

  1. Trouver la dérivée de la fonction sigmoïde par rapport à m, notre valeur intermédiaire
  2. Trouver la dérivée de m par rapport à x
  3. Multiplier ces valeurs ensemble

Dérivée de la sigmoïde par rapport à m

Regardons à quoi ressemble la fonction sigmoïde avec m comme valeur intermédiaire :

Trouver la dérivée de ceci par rapport à m est assez simple si nous pouvons nous rappeler la règle de la puissance :

La dérivée de x^n est n fois la dérivée de x à la puissance de n-1.

Donc,

Maintenant, si nous replaçons notre valeur initiale de m dans l’équation, on obtient

Enfin,

Yay ! Nous avons terminé l’étape 1.

Trouver la dérivée de m par rapport à x

Voici m:

Pour trouver la dérivée, nous devons trouver la dérivée de chaque terme par rapport à x. Le premier terme est facile:

Le second terme est un peu plus compliqué.

Laissons

et

.

Nous savons que

Si arriver à e^u n’est pas clair, veuillez lire ceci.

Maintenant, en utilisant à nouveau la règle de la chaîne,

Donc, on multiplie ces dérivées qu’on vient de calculer pour obtenir la dérivée par rapport à x :

Tout cela pour l’étape 2,

Multiplier les dérivées

Rappellez-vous, qu’une fois que nous avons trouvé les deux dérivées intermédiaires, nous avons dû les multiplier. Donc, voici un résumé rapide:

Maintenant, si vous vous souvenez comment multiplier :), nous pouvons enfin terminer ceci !

Vous pouvez maintenant prendre cette valeur et l’utiliser comme dérivation de la fonction sigmoïde. Une chose intéressante se produit cependant après avoir manipulé ce résultat. Il s’avère que vous pouvez réécrire la dérivée comme ceci:

La dérivée de la fonction sigmoïde est la sigmoïde fois 1 moins la sigmoïde. Wow. Je me sens trompé. 🙂