Jednou z nejčastěji používaných aktivačních funkcí ve strojovém učení, přesněji v neuronových sítích, je sigmoidní funkce. V kroku zpětného šíření při trénování neuronové sítě je třeba najít derivaci ztrátové funkce vzhledem ke každé váze v síti. K tomu je třeba najít derivaci aktivační funkce. Cílem tohoto článku je objasnit nejasnosti ohledně hledání derivace sigmoidní funkce.
Na začátek uvádíme sigmoidní funkci:
Na zkoušku si na kalkulačce vezměte sigmoidní funkci o velikosti 5. Měli byste dostat 0,99330714907.
Pro účely derivace lze tuto funkci zapsat také jako:
První věc, které jsem si na této funkci všiml, je, že jde o složení funkcí. První funkce je
a druhá je
Připomeňme si, že v kalkulačce, když existuje složení funkcí, derivace, je první funkce vzhledem k druhé vynásobená druhou funkcí vzhledem k proměnné, v tomto případě x. Takto:
Takže derivace sigmoidy vzhledem k x je derivace sigmoidální funkce vzhledem k m krát derivace m vzhledem k x. Toto pravidlo o složení funkcí si můžete představit jako jakýsi mezivýpočet, jehož výsledkem je původní derivace, kterou jste chtěli získat křížovým zrušením:
Napsat komentář