Una de las funciones de activación más utilizadas en el aprendizaje de máquinas, o más específicamente, en las redes neuronales es la función sigmoidea. En el paso de retropropagación del entrenamiento de una red neuronal, hay que encontrar la derivada de la función de pérdida con respecto a cada peso de la red. Para ello, hay que encontrar la derivada de la función de activación. Este artículo pretende aclarar cualquier confusión sobre cómo encontrar la derivada de la función sigmoidea.

Para empezar, aquí está la función sigmoidea:

Para hacer una prueba, toma la sigmoidea de 5 en tu calculadora. Deberías obtener 0,99330714907.

Para los propósitos de la derivada, esta función también se puede escribir como:

Lo primero que noté sobre esta función, es que es una composición de funciones. La primera función es

y la segunda es

Recuerda que en Cálculo, cuando hay una composición de funciones, la derivada, es la primera función respecto a la segunda multiplicada por la segunda función respecto a la variable, en este caso x. Así:

Entonces, la derivada de la sigmoide con respecto a x es la derivada de la función sigmoide con respecto a m por la derivada de m con respecto a x. Puedes pensar en esta regla de composición de funciones como una especie de cálculo intermedio que da como resultado la derivada original que querías por cancelación cruzada:

Ahora que sabemos que la función sigmoide es una composición de funciones, todo lo que tenemos que hacer para encontrar la derivada, es:

  1. Hallar la derivada de la función sigmoide con respecto a m, nuestro valor intermedio
  2. Hallar la derivada de m con respecto a x
  3. Multiplicar esos valores juntos

Derivada de la sigmoide con respecto a m

Volvamos a ver cómo es la función sigmoide con m como nuestro valor intermedio:

Hallar la derivada de esto con respecto a m es bastante sencillo si podemos recordar la regla de la potencia:

La derivada de x^n es n veces la derivada de x a la potencia de n-1.

Entonces,

Ahora, si sustituimos nuestro valor original de m de nuevo en la ecuación, obtenemos

Finalmente,

¡Sí! Completamos el paso 1.

Encuentra la derivada de m con respecto a x

Aquí está m:

Para encontrar la derivada, tenemos que encontrar la derivada de cada término con respecto a x. El primer término es fácil:

El segundo término es un poco más complicado.

Dejemos

y

Sabemos que

Si llegar a e^u no está claro, por favor, lee esto.

Ahora, usando la regla de la cadena una vez más,

Entonces, sólo multiplicamos esas derivadas que acabamos de calcular para obtener la derivada con respecto a x:

Todo para el paso 2,

Multiplicar las derivadas

Recordemos, que una vez encontradas las dos derivadas intermedias, teníamos que multiplicarlas. Así que aquí tienes un resumen rápido:

Ahora, si recuerdas cómo se multiplica :), ¡por fin podemos terminar esto!

Ahora puedes tomar este valor y utilizarlo como derivación de la función sigmoidea. Sin embargo, una cosa interesante ocurre después de manipular este resultado. Resulta que puedes reescribir la derivada así:

La derivada de la función sigmoide es la sigmoide por 1 menos la sigmoide. Vaya. Me siento engañado 🙂