Träningsuppsättningen är det material genom vilket datorn lär sig att bearbeta information. Maskininlärning använder algoritmer – den efterliknar den mänskliga hjärnans förmåga att ta emot olika indata och väga dem, för att skapa aktiveringar i hjärnan, i de enskilda neuronerna. Artificiella neuroner replikerar mycket av denna process med mjukvara – program för maskininlärning och neurala nätverk som ger mycket detaljerade modeller av hur våra mänskliga tankeprocesser fungerar.

Med detta i åtanke kan träningsdata struktureras på olika sätt. För sekventiella beslutsträd och den typen av algoritmer skulle det vara en uppsättning rå text eller alfanumeriska data som klassificeras eller på annat sätt manipuleras. Å andra sidan, för konvolutionella neurala nätverk som har att göra med bildbehandling och datorseende, består träningsmängden ofta av ett stort antal bilder. Tanken är att eftersom programmet för maskininlärning är så komplext och sofistikerat använder iterativ träning på var och en av dessa bilder för att så småningom kunna känna igen funktioner, former och till och med ämnen som människor eller djur. Träningsdata är helt avgörande för processen – de kan ses som den ”mat” som systemet använder för att fungera.