Zbiór treningowy to materiał, dzięki któremu komputer uczy się jak przetwarzać informacje. Uczenie maszynowe wykorzystuje algorytmy – naśladuje zdolności ludzkiego mózgu do przyjmowania różnych danych wejściowych i ważenia ich w celu wytworzenia aktywacji w mózgu, w poszczególnych neuronach. Sztuczne neurony powielają wiele z tego procesu za pomocą oprogramowania – programów uczenia maszynowego i sieci neuronowych, które dostarczają bardzo szczegółowych modeli działania naszych ludzkich procesów myślowych.

Mając to na uwadze, dane treningowe mogą być ustrukturyzowane na różne sposoby. Dla sekwencyjnych drzew decyzyjnych i tego typu algorytmów będzie to zestaw surowego tekstu lub danych alfanumerycznych, które zostaną sklasyfikowane lub w inny sposób zmanipulowane. Z drugiej strony, dla konwencjonalnych sieci neuronowych, które mają do czynienia z przetwarzaniem obrazu i wizji komputerowej, zestaw treningowy jest często składa się z dużej liczby obrazów. Chodzi o to, że ponieważ program uczenia maszynowego jest tak złożony i tak wyrafinowany, wykorzystuje iteracyjne szkolenie na każdym z tych obrazów, aby ostatecznie być w stanie rozpoznać cechy, kształty, a nawet przedmioty, takie jak ludzie lub zwierzęta. Dane treningowe są absolutnie niezbędne w tym procesie – można je traktować jako „pokarm”, którego system używa do działania.