Los sistemas de inteligencia artificial más avanzados, desarrollados por empresas como Google y OpenAI, deben parte de su avance a una técnica basada en la asociación entre acciones y recompensas, un principio que se remonta a los experimentos del psicólogo estadounidense B.F. Skinner realizados con palomas hace más de 80 años, según MIT Technology Review.
Skinner, pionero en el estudio del condicionamiento, ideó proyectos durante la Segunda Guerra Mundial como el “Project Pigeon”, donde entrenó a estas aves para guiar misiles mediante la entrega de comida cuando seleccionaban el objetivo correcto en imágenes aéreas.
Aunque el ejército nunca implementó el sistema, Skinner demostró que estos animales eran especialmente eficaces para investigar las bases del aprendizaje, señalando en 1944 que su uso respondía a su practicidad para convertirse en “máquinas experimentales”.
El aprendizaje por refuerzo en la revolución de la IA
Las ideas conductistas de Skinner, centradas en aprender a través de la asociación de conductas con recompensas o castigos, perdieron protagonismo en biología y psicología en los años 60, pero destacados informáticos las recuperaron para inspirar la actual revolución tecnológica.
Richard Sutton y Andrew Barto, premiados con el Turing en 2024, profundizaron en estos fundamentos al diseñar algoritmos capaces de adaptarse y mejorar a partir de la experiencia y la búsqueda de resultados positivos. Como relató Sutton a MIT Technology Review, su formación en psicología animal fue determinante para la creación de modelos informáticos que exploran su entorno e identifican patrones de éxito, replicando los mecanismos observados en estudios con animales.
Uno de los mayores exponentes de este enfoque es AlphaGo Zero, de Google DeepMind, que en 2017 alcanzó un nivel superior al de cualquier jugador humano de Go tras entrenarse únicamente por ensayo y error durante 40 días.
David Silver, responsable del equipo desarrollador, se formó bajo la guía de Sutton en la Universidad de Alberta. El propio Silver destaca cómo el programa, partiendo de cero conocimientos previos, logró descubrir siglos de estrategias humanas y generar nuevos enfoques para el juego.
Nuevas aplicaciones y desafíos conceptuales
El modelo asociativo no se limita a entornos de juego. Recientemente, empresas como OpenAI y DeepSeek perfeccionaron sus chatbots y modelos de lenguaje con técnicas similares, transformando constantemente la retroalimentación humana en nuevas metas de aprendizaje para los sistemas.
Aunque a menudo se afirma que estos modelos presentan “razonamiento”, expertos como Sutton consideran inexacto ese término para describir su funcionamiento, ya que los sistemas en realidad optimizan elecciones y respuestas que conducen a evaluaciones favorables, sin desplegar procesos cognitivos complejos.
Este planteamiento, celebrado en la informática, paradójicamente fue visto tradicionalmente como insuficiente por biólogos para explicar la flexibilidad conductual de los animales. Johan Lind, de la Universidad de Estocolmo, resalta que los mismos mecanismos, desechados por sencillos en biología, permiten en inteligencia artificial la generación de conductas inesperadamente sofisticadas.
Según Lind, comportamientos como el uso de herramientas o el aprendizaje social pueden surgir del simple vínculo entre situación, acción y resultado, sin apelar a capacidades mentales superiores.
Entre la capacidad y la conciencia: el debate sobre la sintiencia
Los límites de este enfoque fueron explorados por investigadores como Ed Wasserman, de la Universidad de Iowa, quien mostró que las palomas pueden superar a estudiantes universitarios clasificando patrones complejos o identificar, con precisión semejante a la de un médico, anomalías en imágenes médicas.
Sin embargo, numerosos especialistas sostienen que muchos animales, incluidos simios, elefantes o cuervos, exhiben destrezas que exigen algo más que solo asociación de estímulos y resultados.
La discusión llega al terreno ético y filosófico ante la distinción fundamental: solo los seres vivos poseen experiencias subjetivas y emociones. Wasserman evidenció que las palomas discriminan entre sensaciones internas tras recibir fármacos, mostrando un nivel de autopercepción imposible para la IA. Por eso, mientras una paloma merece consideraciones éticas por su capacidad de experimentar, un chatbot, por avanzado que sea, carece de sintiencia.
Comprender el papel del aprendizaje asociativo redefine no solo las fronteras entre animales y máquinas, sino también la naturaleza del propio comportamiento humano. Los fundamentos de la inteligencia artificial, en realidad, reflejan mecanismos antiguos que compartimos con otras especies, y que fueron el motor de numerosos logros relevantes en la historia de la humanidad.