O conjunto de treinamento é o material através do qual o computador aprende a processar informações. A aprendizagem da máquina utiliza algoritmos – imita as capacidades do cérebro humano de tomar diversos inputs e pesá-los, a fim de produzir ativações no cérebro, nos neurônios individuais. Neurônios artificiais replicam muito desse processo com software – aprendizagem de máquinas e programas de redes neurais que fornecem modelos altamente detalhados de como nossos processos de pensamento humano funcionam.

Com isso em mente, dados de treinamento podem ser estruturados de diferentes maneiras. Para árvores de decisão seqüenciais e esses tipos de algoritmos, seria um conjunto de textos em bruto ou dados alfanuméricos que são classificados ou manipulados de outra forma. Por outro lado, para redes neurais convolucionais que têm a ver com processamento de imagens e visão computacional, o conjunto de treinamento é muitas vezes composto de um grande número de imagens. A idéia é que, por ser tão complexo e sofisticado, o programa de aprendizagem da máquina utiliza um treinamento iterativo em cada uma dessas imagens para eventualmente ser capaz de reconhecer características, formas e até mesmo assuntos como pessoas ou animais. Os dados de treinamento são absolutamente essenciais para o processo – eles podem ser pensados como o “alimento” que o sistema usa para operar.