Der Trainingssatz ist das Material, mit dem der Computer lernt, wie er Informationen verarbeiten kann. Das maschinelle Lernen verwendet Algorithmen – es ahmt die Fähigkeiten des menschlichen Gehirns nach, verschiedene Eingaben aufzunehmen und abzuwägen, um Aktivierungen im Gehirn, in den einzelnen Neuronen, zu erzeugen. Künstliche Neuronen ahmen einen Großteil dieses Prozesses mit Software nach – Programme für maschinelles Lernen und neuronale Netze, die sehr detaillierte Modelle der Funktionsweise unserer menschlichen Denkprozesse liefern.

In diesem Sinne können die Trainingsdaten auf unterschiedliche Weise strukturiert werden. Bei sequentiellen Entscheidungsbäumen und solchen Algorithmen handelt es sich um eine Reihe von Rohtexten oder alphanumerischen Daten, die klassifiziert oder anderweitig manipuliert werden. Bei Faltungsneuronalen Netzen, die mit Bildverarbeitung und Computer Vision zu tun haben, besteht die Trainingsmenge dagegen oft aus einer großen Anzahl von Bildern. Da das maschinelle Lernprogramm so komplex und ausgeklügelt ist, trainiert es iterativ mit jedem dieser Bilder, um schließlich in der Lage zu sein, Merkmale, Formen und sogar Objekte wie Menschen oder Tiere zu erkennen. Die Trainingsdaten sind für den Prozess absolut unerlässlich – man kann sie als die „Nahrung“ betrachten, mit der das System arbeitet.