El conjunto de entrenamiento es el material a través del cual el ordenador aprende a procesar la información. El aprendizaje automático utiliza algoritmos: imita las capacidades del cerebro humano para tomar diversas entradas y sopesarlas, con el fin de producir activaciones en el cerebro, en las neuronas individuales. Las neuronas artificiales replican gran parte de este proceso con software: programas de aprendizaje automático y redes neuronales que proporcionan modelos muy detallados de cómo funcionan nuestros procesos de pensamiento humano.

Con esto en mente, los datos de entrenamiento pueden estructurarse de diferentes maneras. Para los árboles de decisión secuenciales y esos tipos de algoritmos, sería un conjunto de texto en bruto o datos alfanuméricos que se clasifican o manipulan de otra manera. Por otro lado, para las redes neuronales convolucionales que tienen que ver con el procesamiento de imágenes y la visión por ordenador, el conjunto de entrenamiento suele estar compuesto por un gran número de imágenes. La idea es que, dado que el programa de aprendizaje automático es tan complejo y sofisticado, utiliza un entrenamiento iterativo en cada una de esas imágenes para poder reconocer finalmente características, formas e incluso sujetos como personas o animales. Los datos de entrenamiento son absolutamente esenciales para el proceso: pueden considerarse como el «alimento» que el sistema utiliza para funcionar.