Koulutusjoukko on aineisto, jonka avulla tietokone oppii käsittelemään tietoa. Koneoppiminen käyttää algoritmeja – se jäljittelee ihmisen aivojen kykyä ottaa vastaan erilaisia syötteitä ja punnita niitä, jotta aivoissa, yksittäisissä neuroneissa, syntyisi aktivaatioita. Keinotekoiset neuronit jäljittelevät suurta osaa tästä prosessista ohjelmistoilla – koneoppimis- ja neuroverkko-ohjelmilla, jotka tarjoavat erittäin yksityiskohtaisia malleja siitä, miten ihmisen ajatteluprosessimme toimivat.

Tässä mielessä harjoitusdata voidaan jäsentää eri tavoin. Peräkkäisiä päätöspuita ja tämäntyyppisiä algoritmeja varten se olisi joukko raakaa tekstiä tai aakkosnumeerista dataa, jota luokitellaan tai muutoin käsitellään. Toisaalta kuvankäsittelyyn ja tietokonenäköön liittyvissä konvolutiohermoverkoissa harjoitusjoukko koostuu usein suuresta määrästä kuvia. Ajatuksena on, että koska koneoppimisohjelma on niin monimutkainen ja hienostunut, se käyttää iteratiivista harjoittelua jokaisessa kuvassa, jotta se lopulta kykenee tunnistamaan piirteitä, muotoja ja jopa kohteita, kuten ihmisiä tai eläimiä. Koulutusdata on prosessin kannalta ehdottoman tärkeää – sitä voidaan pitää ”ravintona”, jota järjestelmä käyttää toimiakseen.