Pour une compréhension complète des réseaux neuronaux.
L’une des fonctions d’activation les plus fréquemment utilisées en apprentissage automatique, ou plus précisément dans les réseaux neuronaux, est la fonction sigmoïde. Dans l’étape de rétro-propagation de la formation d’un réseau neuronal, vous devez trouver la dérivée de la fonction de perte par rapport à chaque poids du réseau. Pour ce faire, vous devez trouver la dérivée de votre fonction d’activation. Cet article a pour but de dissiper toute confusion sur la recherche de la dérivée de la fonction sigmoïde.
Pour commencer, voici la fonction sigmoïde :
Pour un test, prenez la sigmoïde de 5 sur votre calculatrice. Vous devriez obtenir 0,99330714907.
Pour les besoins de la dérivée, cette fonction peut aussi être écrite comme:
La première chose que j’ai remarqué à propos de cette fonction, c’est qu’elle est une composition de fonctions. La première fonction étant
et la seconde étant
Rappellez-vous qu’en calcul, lorsqu’il y a une composition de fonctions, la dérivée, est la première fonction par rapport à la seconde multipliée par la seconde fonction par rapport à la variable, ici x. Comme ceci:
Donc, la dérivée de la sigmoïde par rapport à x est la dérivée de la fonction sigmoïde par rapport à m multipliée par la dérivée de m par rapport à x. Vous pouvez penser à cette règle de composition de fonctions comme une sorte de calcul intermédiaire qui aboutit à la dérivée originale que vous vouliez par annulation croisée:
Maintenant que nous savons que la fonction sigmoïde est une composition de fonctions, tout ce que nous avons à faire pour trouver la dérivée, est :
- Trouver la dérivée de la fonction sigmoïde par rapport à m, notre valeur intermédiaire
- Trouver la dérivée de m par rapport à x
- Multiplier ces valeurs ensemble
Dérivée de la sigmoïde par rapport à m
Regardons à quoi ressemble la fonction sigmoïde avec m comme valeur intermédiaire :
Trouver la dérivée de ceci par rapport à m est assez simple si nous pouvons nous rappeler la règle de la puissance :
La dérivée de x^n est n fois la dérivée de x à la puissance de n-1.
Donc,
Maintenant, si nous replaçons notre valeur initiale de m dans l’équation, on obtient
Enfin,
Yay ! Nous avons terminé l’étape 1.
Trouver la dérivée de m par rapport à x
Voici m:
Pour trouver la dérivée, nous devons trouver la dérivée de chaque terme par rapport à x. Le premier terme est facile:
Le second terme est un peu plus compliqué.
Laissons
et
Nous savons que
Si arriver à e^u n’est pas clair, veuillez lire ceci.
Maintenant, en utilisant à nouveau la règle de la chaîne,
Donc, on multiplie ces dérivées qu’on vient de calculer pour obtenir la dérivée par rapport à x :
Laisser un commentaire