Het is tegenwoordig heel gewoon geworden om moderne systemen voor machinaal leren “zwarte dozen” te horen noemen. Neem als voorbeeld een recente aflevering van de podcast van Sam Harris, waarin hij AI-pionier Stuart Russell interviewde. Harris vraagt:
“Dus, als ik me niet vergis, zijn de meeste, zo niet alle van deze deep learning-benaderingen, of zelfs meer in het algemeen machine learning-benaderingen, in wezen zwarte dozen, waarin je niet echt kunt inspecteren hoe het algoritme bereikt wat het bereikt.”
Hoewel deze metafoor geschikt is voor sommige specifieke situaties, is hij eigenlijk behoorlijk misleidend in het algemeen, en kan hij een aanzienlijke mate van verwarring veroorzaken. Zoals we zullen zien, is een deep learning-systeem geen zwarte doos; zelfs de ontwikkeling van een dergelijk systeem hoeft geen zwarte doos te zijn. De echte uitdaging is echter dat beide zaken complex zijn, en niet noodzakelijk goed worden begrepen. Ik wil hier proberen een aantal van deze ideeën te verduidelijken, en tegelijkertijd doordenken wat we bedoelen met verklaringen.
Zoals ik hieronder zal uitleggen, denk ik dat de verwarring althans gedeeltelijk voortkomt uit de misvattingen die mensen hebben over hoe deze systemen werken. Wanneer mensen naar de zwarte doos metafoor grijpen, lijken ze uit te drukken dat het moeilijk is om het doel van de verschillende componenten in een model voor machinaal leren te begrijpen. Hoewel dit inderdaad moeilijk is, wil ik betogen dat het ook een onrealistische verwachting is. Gaandeweg zal ik proberen uit te leggen wat het verschil is tussen modellen en hoe ze worden getraind, scenario’s bespreken waarin de metafoor van de zwarte doos op zijn plaats is, en suggereren dat in veel opzichten mensen de echte zwarte dozen zijn, althans wat machine learning betreft.
Om te beginnen is het nuttig om na te denken over wat mensen bedoelen als ze het over uitleg hebben. Dit is zeker geen triviale vraag, maar er lijken ten minste twee bijzonder relevante manieren te zijn om hierover na te denken.
Wanneer we iemand om een verklaring vragen van waarom hij iets heeft gedaan (“Waarom heb je X gedaan?”), gaan we uit van een bepaalde reeks achtergrondveronderstellingen. In het geval van een beslissing die zorgvuldig is genomen, gaan we er doorgaans van uit dat ze een goede reden hadden om te handelen zoals ze hebben gedaan, en vragen we in wezen naar het redeneerproces dat ze hebben gebruikt om de beslissing te nemen. We zouden bijvoorbeeld kunnen verwachten dat ze de voors en tegens tegen elkaar hebben afgewogen en een handelwijze hebben gekozen op basis van de verwachting dat die tot een bepaald resultaat zou leiden.
Wanneer we vragen waarom iets verkeerd is gegaan, vragen we daarentegen naar een soort post-hoc verklaring van het falen. Bijvoorbeeld, na een auto-ongeluk, willen we misschien een verklaring van de oorzaak van het ongeluk. Was de bestuurder afgeleid? Heeft een andere auto hem doen uitwijken? In plaats van een redeneerproces, vragen we min of meer naar de kritische stimulus die een bepaalde reactie buiten het normale gedrag om veroorzaakte.
Wanneer mensen aan kunstmatige intelligentie denken, lijken ze meestal de eerste soort verklaring in gedachten te hebben. De verwachting is dat het systeem een afweging heeft gemaakt en op basis van de verwachte uitkomst een handelwijze heeft gekozen. Hoewel er gevallen zijn waarin dit mogelijk is, zien we steeds meer een verschuiving naar systemen die meer lijken op het tweede geval; dat wil zeggen dat ze prikkels ontvangen en dan gewoon reageren.
Er zijn heel goede redenen voor (niet in de laatste plaats omdat de wereld ingewikkeld is), maar het betekent wel dat het moeilijker is om te begrijpen waarom een bepaalde beslissing is genomen, of waarom we bij het ene model zijn uitgekomen in plaats van bij het andere. Laten we daarom eens kijken naar wat we onder een model verstaan, en naar de metafoor van de zwarte doos.
Dozen en modellen
De metafoor van de zwarte doos stamt uit de begintijd van de cybernetica en het behaviorisme, en verwijst gewoonlijk naar een systeem waarvan we alleen de inputs en outputs kunnen waarnemen, maar niet de interne werking. Dit was inderdaad de manier waarop B.F. Skinner het brein in het algemeen conceptualiseerde. Hoewel hij met succes aantoonde hoe bepaald aangeleerd gedrag kon worden verklaard door een versterkingssignaal dat bepaalde inputs verbond met bepaalde outputs, maakte hij vervolgens de beroemde fout te denken dat deze theorie gemakkelijk al het menselijk gedrag kon verklaren, inclusief taal.
Als een eenvoudiger voorbeeld van een zwarte doos, beschouw een gedachte-experiment van Skinner: je krijgt een doos met een set inputs (schakelaars en knoppen) en een set outputs (lampjes die aan of uit zijn). Door de ingangen te manipuleren, kunt u de overeenkomstige uitgangen waarnemen, maar u kunt niet in de doos kijken om te zien hoe die werkt. In het eenvoudigste geval, zoals een lichtschakelaar in een kamer, is het gemakkelijk om met grote zekerheid vast te stellen dat de schakelaar het lichtniveau regelt. Voor een voldoende complex systeem kan het echter feitelijk onmogelijk zijn om vast te stellen hoe de doos werkt door alleen maar verschillende combinaties uit te proberen.
Geef een antwoord