Træningssættet er det materiale, hvorigennem computeren lærer at behandle information. Maskinlæring anvender algoritmer – den efterligner den menneskelige hjernes evne til at modtage forskellige input og afveje dem med henblik på at frembringe aktiveringer i hjernen, i de enkelte neuroner. Kunstige neuroner kopierer en stor del af denne proces med software – maskinlærings- og neurale netværksprogrammer, der giver meget detaljerede modeller af, hvordan vores menneskelige tankeprocesser fungerer.

Med dette in mente kan træningsdata struktureres på forskellige måder. For sekventielle beslutningstræer og den slags algoritmer vil det være et sæt rå tekst eller alfanumeriske data, der bliver klassificeret eller på anden måde manipuleret. På den anden side er træningssættet for konvolutionelle neurale netværk, der har med billedbehandling og computervision at gøre, ofte sammensat af et stort antal billeder. Idéen er, at fordi maskinlæringsprogrammet er så komplekst og sofistikeret, bruger det iterativ træning på hvert af disse billeder for i sidste ende at kunne genkende træk, former og endda emner som f.eks. mennesker eller dyr. Træningsdataene er helt afgørende for processen – man kan betragte dem som den “mad”, som systemet bruger til at fungere.