Training set je materiál, pomocí kterého se počítač učí zpracovávat informace. Strojové učení používá algoritmy – napodobuje schopnosti lidského mozku přijímat různorodé vstupy a zvažovat je, aby v mozku, v jednotlivých neuronech, vznikly aktivace. Umělé neurony kopírují velkou část tohoto procesu pomocí softwaru – programů pro strojové učení a neuronové sítě, které poskytují velmi podrobné modely toho, jak fungují naše lidské myšlenkové procesy.

S ohledem na to mohou být tréninková data strukturována různými způsoby. Pro sekvenční rozhodovací stromy a tyto typy algoritmů by to byl soubor surového textu nebo alfanumerických dat, která se klasifikují nebo se s nimi jinak manipuluje. Na druhou stranu u konvolučních neuronových sítí, které mají co do činění se zpracováním obrazu a počítačovým viděním, se trénovací množina často skládá z velkého počtu obrázků. Myšlenka spočívá v tom, že protože program strojového učení je tak složitý a sofistikovaný, používá iterativní trénink na každém z těchto obrázků, aby byl nakonec schopen rozpoznat rysy, tvary a dokonce i předměty, jako jsou lidé nebo zvířata. Tréninková data jsou pro tento proces naprosto zásadní – lze si je představit jako „potravu“, kterou systém používá ke své činnosti.