Hoy en día es bastante común escuchar a la gente referirse a los sistemas modernos de aprendizaje automático como «cajas negras». Como ejemplo, consideremos un episodio reciente del podcast de Sam Harris en el que entrevistó al pionero de la IA Stuart Russell. Harris pregunta:
«Así que, si no me equivoco, la mayoría, si no todos estos enfoques de aprendizaje profundo, o incluso más generalmente los enfoques de aprendizaje automático son, esencialmente cajas negras, en las que no se puede inspeccionar realmente cómo el algoritmo está logrando lo que está logrando»
Aunque esta metáfora es apropiada para algunas situaciones particulares, en realidad es bastante engañosa en general, y puede estar causando una cantidad considerable de confusión. Como veremos, un sistema de aprendizaje profundo no es una caja negra; incluso el desarrollo de dicho sistema no tiene por qué ser una caja negra. Sin embargo, el verdadero reto es que ambas cosas son complejas, y no necesariamente bien entendidas. Aquí quiero intentar aclarar algunas de estas ideas y, al mismo tiempo, reflexionar sobre lo que entendemos por explicaciones.
Como explicaré a continuación, creo que la confusión surge, al menos en parte, de las ideas erróneas que tiene la gente sobre el funcionamiento de estos sistemas. Cuando la gente recurre a la metáfora de la caja negra, lo que parece estar expresando es el hecho de que es difícil dar sentido al propósito de los diversos componentes de un modelo de aprendizaje automático. Aunque esto es realmente difícil, quiero argumentar que también es una expectativa poco realista. Por el camino, intentaré explicar la diferencia entre los modelos y cómo se entrenan, discutiré los escenarios en los que la metáfora de la caja negra es apropiada y sugeriré que, en muchos sentidos, los humanos son las verdaderas cajas negras, al menos en lo que respecta al aprendizaje automático.
Para empezar, es útil reflexionar sobre lo que la gente quiere decir cuando habla de explicaciones. Esta no es en absoluto una cuestión trivial, pero parece que hay al menos dos formas particularmente relevantes de pensar en esto.
Cuando pedimos a alguien una explicación de por qué hizo algo («¿Por qué hiciste X?»), estamos operando sobre un cierto conjunto de supuestos de fondo. En el caso de una decisión cuidadosamente tomada, solemos suponer que tuvieron alguna buena razón para actuar como lo hicieron, y básicamente estamos preguntando por el proceso de razonamiento que utilizaron para tomar la decisión. Por ejemplo, podríamos esperar que sopesaran los pros y los contras y eligieran un curso de acción basándose en la expectativa de que condujera a algún resultado concreto.
Cuando preguntamos por qué algo salió mal, por el contrario, estamos pidiendo una especie de explicación post-hoc del fracaso. Por ejemplo, después de un accidente de coche, podríamos querer una explicación de la causa del accidente. ¿Se distrajo el conductor? ¿Otro coche le hizo desviarse? Más que un proceso de razonamiento, estamos preguntando, más o menos, por el estímulo crítico que causó una reacción particular fuera del comportamiento normal.
Cuando la gente piensa en la inteligencia artificial, normalmente parece tener en mente el primer tipo de explicación. La expectativa es que el sistema hizo una deliberación y eligió un curso de acción basado en el resultado esperado. Aunque hay casos en los que esto es posible, cada vez más estamos viendo un movimiento hacia sistemas que se asemejan más al segundo caso; es decir, reciben estímulos y luego simplemente reaccionan.
Hay muy buenas razones para esto (entre otras cosas porque el mundo es complicado), pero significa que es más difícil entender las razones de por qué se tomó una decisión particular, o por qué terminamos con un modelo en lugar de otro. Teniendo esto en cuenta, vamos a profundizar en lo que entendemos por modelo y en la metáfora de la caja negra.
Cajas y modelos
La metáfora de la caja negra se remonta a los primeros tiempos de la cibernética y el conductismo, y suele referirse a un sistema del que sólo podemos observar las entradas y salidas, pero no su funcionamiento interno. De hecho, ésta era la forma en que B. F. Skinner conceptualizaba las mentes en general. Aunque demostró con éxito que ciertos comportamientos aprendidos podían explicarse mediante una señal de refuerzo que vinculaba ciertas entradas con ciertas salidas, cometió el famoso error de pensar que esta teoría podía explicar fácilmente todo el comportamiento humano, incluido el lenguaje.
Como ejemplo más sencillo de una caja negra, considere un experimento mental de Skinner: se le da una caja con un conjunto de entradas (interruptores y botones) y un conjunto de salidas (luces que están encendidas o apagadas). Al manipular las entradas, puede observar las salidas correspondientes, pero no puede mirar dentro para ver cómo funciona la caja. En el caso más sencillo, como un interruptor de luz en una habitación, es fácil determinar con gran confianza que el interruptor controla el nivel de luz. Sin embargo, en el caso de un sistema suficientemente complejo, puede resultar imposible determinar cómo funciona la caja simplemente probando varias combinaciones.
Deja una respuesta