De trainingsset is het materiaal waarmee de computer leert hoe hij informatie moet verwerken. Machine learning maakt gebruik van algoritmen – het bootst het vermogen van het menselijk brein na om diverse inputs op te nemen en te wegen, om zo activaties in de hersenen, in de individuele neuronen, te produceren. Kunstmatige neuronen repliceren veel van dit proces met software – programma’s voor machinaal leren en neurale netwerken die zeer gedetailleerde modellen leveren van hoe onze menselijke denkprocessen werken.

Met dat in gedachten kunnen trainingsgegevens op verschillende manieren worden gestructureerd. Voor sequentiële beslisbomen en dat soort algoritmen, zou het een reeks ruwe tekst of alfanumerieke gegevens zijn die worden geclassificeerd of anderszins gemanipuleerd. Voor convolutionele neurale netwerken die te maken hebben met beeldverwerking en computervisie, bestaat de trainingsset daarentegen vaak uit grote aantallen afbeeldingen. Het idee is dat, omdat het programma voor machinaal leren zo complex en zo geavanceerd is, het iteratief traint op elk van die beelden om uiteindelijk in staat te zijn kenmerken, vormen en zelfs onderwerpen zoals mensen of dieren te herkennen. De trainingsgegevens zijn absoluut essentieel voor het proces – het kan worden beschouwd als het “voedsel” dat het systeem gebruikt om te werken.