L’ensemble d’entraînement est le matériel grâce auquel l’ordinateur apprend à traiter l’information. L’apprentissage automatique utilise des algorithmes – il imite les capacités du cerveau humain à prendre des entrées diverses et à les pondérer, afin de produire des activations dans le cerveau, dans les neurones individuels. Les neurones artificiels reproduisent une grande partie de ce processus avec des logiciels – des programmes d’apprentissage automatique et de réseaux neuronaux qui fournissent des modèles très détaillés du fonctionnement de nos processus de pensée humains.

Avec cela en tête, les données d’entraînement peuvent être structurées de différentes manières. Pour les arbres de décision séquentiels et ces types d’algorithmes, il s’agirait d’un ensemble de données textuelles ou alphanumériques brutes qui sont classées ou autrement manipulées. En revanche, pour les réseaux neuronaux convolutifs liés au traitement de l’image et à la vision par ordinateur, l’ensemble de formation est souvent composé d’un grand nombre d’images. L’idée est que le programme d’apprentissage automatique est si complexe et si sophistiqué qu’il utilise un apprentissage itératif sur chacune de ces images pour être finalement capable de reconnaître des caractéristiques, des formes et même des sujets tels que des personnes ou des animaux. Les données d’entraînement sont absolument essentielles au processus – on peut les considérer comme la « nourriture » que le système utilise pour fonctionner.