Podés salvar a una sola persona de una muerte segura: tu madre, que trabaja como empleada doméstica, o un científico a punto de descubrir la cura del cáncer. Elegí.

La mayoría salvaría a su madre (al menos, eso sugiere la evidencia experimental sobre el tema). No porque no puedan hacer el cálculo -la matemática es simple-, sino porque no pueden, o no quieren, verse como el tipo de persona que sacrificaría a su madre para salvar a extraños. La restricción opera antes del cálculo, no es su resultado. Y eso cambia todo.

No estamos frente a una irracionalidad o un sesgo cognitivo, sino ante algo más estructural: nuestras restricciones de identidad son más fuertes que nuestra adhesión intelectual al utilitarismo. En gran medida, nuestra moral se construye alrededor de estas identidades: quiénes pensamos o queremos ser, y viceversa.

Al traducir decisiones humanas a reglas computables, los diseñadores tienden a dejar fuera precisamente aquello que en nosotros opera antes del cálculo: lealtades, vínculos, prohibiciones y restricciones de identidad

Distintas versiones de este dilema aparecen todo el tiempo en las aplicaciones de la IA: hospitales asignando respiradores, algoritmos de contratación evaluando postulantes, vehículos autónomos programados para decidir en escenarios de colisión. El problema no es solo que estos sistemas no duden ni experimenten angustia moral (las máquinas no tienen moral): en ambos casos se trata de decisiones humanas, solo que en contextos distintos, uno inmediato y otro más distante.

Al traducir decisiones humanas a reglas computables, los diseñadores tienden a dejar fuera precisamente aquello que en nosotros opera antes del cálculo: lealtades, vínculos, prohibiciones y restricciones de identidad. El resultado es una versión formalizada y despersonalizada de la decisión: más cercana a lo que decimos que debería hacerse que a lo que efectivamente estamos dispuestos a hacer.

El desafío del alineamiento de IA termina siendo, entonces, algo muy distinto de lo que asume la literatura técnica. El desafío real -y esto me llevó tiempo entenderlo- no es hacer que la IA haga lo que queremos: es decidir qué estamos dispuestos a elegir cuando dejamos fuera -a menudo, porque no sabemos cómo formalizarlas- las restricciones que organizan nuestra moral.

La tensión no está en el alineamiento entre lo que decimos y lo que hace la IA. Está en la delegación: entre lo que hacemos y lo que autorizamos a la IA a hacer en nuestro nombre.

Distanciamiento

Cuando un programador escribe un código que resuelve dilemas utilitaristas, sabe qué resultados se producirán. No está confundido sobre lo que hace el sistema. Simplemente no será el agente directo detrás de esas decisiones: la responsabilidad se diluye con la distancia del rol. La sensibilidad a esa distancia no es nueva. La psicología moral lleva décadas documentando cómo cambia el peso ético de una misma decisión según cuán lejos estamos de sus consecuencias.

Tomemos, por ejemplo, el célebre problema del tranvía. La decisión se vuelve más utilitaria con la distancia: cuando la palanca se opera a control remoto o cuando el experimento se formula en un idioma que no es el propio. Esa distancia -física, lingüística, tecnológica- amortigua la respuesta emocional y facilita el cálculo frío. Seguimos siendo las mismas personas; simplemente, estamos menos presentes en el momento de decidir.

Desde el asesinato por encargo hasta la tercerización contemporánea, los humanos sabemos desde hace tiempo que delegar disminuye la angustia moral

Hannah Arendt escribió sobre la “banalidad del mal” en sistemas burocráticos donde la responsabilidad se fragmenta entre roles hasta que nadie se siente responsable por los resultados que todos ayudaron a producir colectivamente. Los sistemas de IA crean una variante de este mecanismo: el programador está separado de las consecuencias por capas de código, distribuciones de probabilidad y contextos de implementación que ningún individuo controla del todo.

Hay otro mecanismo que produce una distancia moral comparable: la delegación. Desde el asesinato por encargo hasta la tercerización contemporánea, los humanos sabemos desde hace tiempo que delegar disminuye la angustia moral. Crímenes y Pecados, la película de Woody Allen, ofrece una ilustración lúcida de este caso: un personaje encarga un asesinato que no puede cometer él mismo y, para su sorpresa, gradualmente encuentra la culpa tolerable gracias a esa distancia.

Los sistemas de IA combinan ambos mecanismos en lo que podríamos llamar “distanciamiento computacional”: el programador está separado de las consecuencias por la fragmentación de tareas -nadie construye el sistema completo- y por la delegación de la ejecución: el algoritmo realiza lo que el diseñador solo autorizó, esa separación está inscripta, por diseño, en la arquitectura misma.

El problema del tranvía, en una de sus versiones más impersonales, reformula la decisión de empujar a una persona para salvar a muchas en otra en la que la acción se limita a apretar un botón desde un lugar lejano. Algo así como la guerra remota, tan familiar estos días.

¿Qué pasaría si nuestras decisiones morales consistieran en diseñar y autorizar a un sistema que “empuje” a una persona a la muerte? El peso psicológico cambia con la fragmentación y la distancia, aunque la responsabilidad causal permanezca intacta.

Conócete a ti mismo

La literatura técnica sobre alineamiento de IA trata todo esto como un problema de agregación de preferencias. El desafío, en este marco, es extraer valores humanos con precisión e implementarlos consistentemente a escala: definamos la función de recompensa “correcta” que refleje lo que los humanos “realmente queremos” y una IA así alineada hará lo que haríamos si fuéramos más inteligentes, más consistentes, sin sesgos.

Como argumentó el filósofo Harry Frankfurt, no somos simplemente un conjunto de deseos. Tenemos juicios sobre qué deseos respaldamos y cuáles repudiamos, preferencias sobre nuestras preferencias

El problema es el supuesto enterrado en lo que “realmente queremos”. Los economistas sabemos desde hace tiempo que las preferencias están lejos de ser estables; y, a juzgar por la prevalencia de sesgos cognitivos bien documentados, uno se pregunta si alguna vez son consistentes. Los valores humanos no son una función de utilidad coherente esperando ser descubierta y optimizada: son un conjunto de restricciones de identidad, obligaciones de rol, compromisos relacionales y juicios contextuales que se contradicen sistemáticamente. Queremos maximizar el bienestar social y queremos proteger a los nuestros. Queremos justicia imparcial y queremos misericordia para quienes amamos. Queremos eficiencia y queremos preservar el residuo moral (la culpa, la vacilación) que señala que estamos tratando a las personas como fines y no meramente como medios.

Como argumentó el filósofo Harry Frankfurt, no somos simplemente un conjunto de deseos. Tenemos juicios sobre qué deseos respaldamos y cuáles repudiamos, preferencias sobre nuestras preferencias. Pensemos en la adicción: queremos el cigarrillo y queremos no quererlo. Esos deseos de segundo orden no son solo un conjunto de impulsos, sino los que nos hacen personas.

Cuando nos negamos a sacrificar a nuestra madre, no le estamos asignando una utilidad mayor a la del científico; nos estamos negando a hacer el cálculo.

El filósofo T.M. Scanlon distingue entre razones que ofrecemos a otros y razones que dependen de nuestras relaciones especiales -con nuestros hijos, nuestros pacientes, nuestros colaboradores- que no pueden justificarse mediante cálculo imparcial. La investigación sobre alineamiento trata estas como sesgos a corregir en lugar de restricciones a respetar; al hacerlo, descarta lo “humano” de “valores humanos”.

Paradoja

La tensión es esta: podemos construir sistemas que tomen decisiones utilitarias que aceptamos reflexivamente, o podemos preservar la agencia moral donde los humanos siguen siendo autores de los resultados.

Si los sistemas tomaran decisiones como las tomamos nosotros -con toda nuestra parcialidad, restricciones de identidad y rechazo a reducir decisiones críticas a cálculos abstractos- simplemente automatizaríamos nuestra psicología moral existente, sesgos incluidos. En cambio, si los sistemas tomaran decisiones como pensamos que deberíamos tomarlas -maximizando el bienestar sin tener en cuenta las relaciones o la identidad- abdicaríamos la autoría moral a favor de entidades que carecen de las características mismas que hicieron que nuestros valores fueran moralmente significativos.

La implementación en el mundo real no espera una resolución filosófica. Cada vez que desplegamos algoritmos de triage, sistemas de contratación o vehículos autónomos, respondemos implícitamente la pregunta de legitimidad: estamos dispuestos a delegar estas elecciones. Pero los costos de esta delegación van más allá de la seguridad y la capacidad —problemas de ingeniería con soluciones de ingeniería. Implican la pérdida de algo más difícil de reponer: la agencia moral.

El espejo que adula

Hay, sin embargo, algo más perturbador que la mera evasión del costo moral. El distanciamiento computacional no solo nos libera de la incomodidad de ejecutar ciertas decisiones: nos ofrece algo más seductor, una imagen favorecida de nosotros mismos.

¿Qué pasa cuando el sistema funciona exactamente como fue diseñado? Construimos un algoritmo de contratación que selecciona a los candidatos más calificados según criterios objetivos, eliminando el favoritismo, el sesgo inconsciente, la lealtad a las caras conocidas que distorsionan el juicio humano. Construimos un sistema de triage médico que asigna recursos escasos según años de vida ajustados por probabilidad de supervivencia, sin el peso emocional de mirarle la cara al paciente. Construimos un vehículo autónomo que calcula protocolos de colisión basados en minimización del daño esperado, sin vacilación ni residuo moral.

En cada caso, el sistema hace lo que dijimos que haríamos, si pudiéramos. Implementa la lógica utilitarista que respaldamos intelectualmente pero que no podemos ejecutar en la práctica. Eso, que llamamos alineamiento, también es un espejo pulido y calibrado para mostrarnos la persona que creemos ser, no la que somos.

Lo que el espejo oculta es esto: la fricción que experimentamos cuando no podemos ejecutar esas elecciones no es una falla del sistema. El malestar de la doctora al negarle tratamiento a un paciente cara a cara no es un sesgo; es la señal de que está tratando a una persona como fin en sí misma, no como un número en una distribución. La vacilación del gerente antes de aprobar un recorte masivo de empleados no es ineficiencia; es el peso de saber que cada unidad en la planilla es un sustento, una familia, una persona que confió en la institución.

Cuando construimos sistemas que realizan estos cálculos limpiamente, sin vacilación, sin residuo, no eliminamos el costo moral: lo relocalizamos. El costo lo asume el destinatario: el paciente que recibe el rechazo, el empleado cuya salida se procesa como un dato, el peatón que se convierte en un valor esperado en una fórmula de colisión. El sistema desplaza la fricción del autor al objeto. No resuelve el problema ético; lo redistribuye, y de paso lo hace invisible.

“El algoritmo decidió”

La frase merece atención. A veces es un enunciado empírico: el algoritmo procesó inputs y produjo un output. Pero con frecuencia arrastra un corolario implícito: nadie es responsable. Nadie eligió. El resultado fue calculado, no es de nadie.

Una vez que el sistema de contratación está en funcionamiento, el gerente que antes hubiera dudado ante un candidato particular ya no duda, porque ya no decide. La vacilación, junto con la responsabilidad, fue delegada. El algoritmo no solo tomó una decisión; disolvió el momento de la rendición de cuentas.

Aristóteles llamaba phronesis (sabiduría práctica) a la capacidad de percibir los rasgos moralmente relevantes de una situación y responder de manera apropiada. Decir que es una virtud significa que se desarrolla a través de la práctica, de la experiencia acumulada de haber tomado decisiones difíciles y vivido con sus consecuencias. Una persona que nunca tuvo que ejercer ese juicio -porque cada decisión difícil fue ya procesada por un sistema que arroja la respuesta correcta- no lo desarrolla. La carga de decidir, que tercerizamos, no es solo incómoda. Es lo que forma el juicio.

Frente a esto, hay una réplica seria: el juicio humano es poco confiable. Los jueces fallan diferente según si comieron o no. Los médicos son susceptibles a la fatiga y al sesgo implícito. Las reglas y los algoritmos, con todas sus limitaciones, al menos se aplican consistentemente.

El punto merece consideración. Pero prueba menos de lo que parece. Las reglas no eliminan el juicio moral: lo desplazan hacia arriba, hacia quien las redacta e interpreta (legisladores, reguladores, diseñadores). Las decisiones morales no desaparecen; se codifican, lo que las vuelve menos visibles, más difíciles de cuestionar, y más consecuentes precisamente porque ahora operan a escala sin cara visible.

Un juez que falla puede ser apelado. Un algoritmo que codifica un valor erróneo y lo aplica a millones de casos es más difícil de corregir —y mucho más fácil de confundir con neutralidad.

Moralidad sin deliberación

Una objeción razonable: los marcos colectivos deberían ir más allá de la parcialidad individual. En una sociedad amplia, la madre y el científico forman parte del mismo sistema moral, y la matemática cambia. Las sociedades crean leyes y protocolos precisamente para separar la definición de lo correcto de quienes las aplican: el legislador no es también el juez.

El argumento es válido, pero señala el problema equivocado. La preocupación no es que los sistemas de IA apliquen principios colectivos en lugar de preferencias individuales: es que nos liberan de la carga de aplicarlos. La separación entre el legislador y el juez confirma exactamente esto: todavía exigimos al juez que sea dueño de su decisión y rinda cuentas por ella. La IA puede eliminar ese rol por completo: sistemas auditables sin nadie en la silla del autor.

La tensión, entonces, no es entre moralidad individual y moralidad colectiva. Es entre moralidad colectiva definida mediante deliberación y moralidad colectiva ejecutada por delegación a sistemas que no experimentan ni el peso de la regla ni la cara de la persona sobre quien recae. La responsabilidad no desaparece: se desplaza al diseñador del algoritmo, más cercano al legislador que al juez, más distante de cada caso concreto y más difícil de impugnar.

Esta lógica se extiende más allá del caso individual. En Albania, el gobierno presentó hace meses a Diella, un avatar de IA, como “ministro” virtual de compras públicas, con la promesa de volver las licitaciones “100% libres de corrupción”. La fantasía es reveladora: si el político decide mal, que decida el algoritmo. Pero no es que la política desaparezca, ni que la máquina decida por sí sola. Las decisiones se trasladan al diseño del sistema, a quienes lo programan. La política no cambia: se vuelve más opaca.

Lo que el espejo no muestra

El proyecto de alineamiento de IA está motivado por un fin legítimo: que los sistemas avanzados no puedan perseguir objetivos desalineados con el progreso humano. Pero al resolver el alineamiento técnicamente, construyendo sistemas que implementan de manera confiable nuestras preferencias declaradas, podemos crear algo más sutil y quizás más difícil de reconocer: agentes que ejecutan cálculos que teníamos razón moral en resistir, que implementan preferencias sobre las que no deberíamos haber actuado, que eliminan la fricción y la vacilación que constituían nuestra agencia moral.

Una ironía que rara vez se menciona: el proyecto de alineamiento asume que existe un “nosotros” coherente al cual alinear la IA, un ser humano racional y consistente liberado de los sesgos que distorsionan su juicio real. Ese ser humano es un espejismo. El que salva a su madre, el que vacila antes del recorte, el que siente el peso de la regla que acaba de aplicar: ese es el humano real. Construir un agente que se parezca a la versión idealizada no es alinear la IA con los valores humanos. Es proyectar en el espejo una imagen que preferimos a la real.

Diseñamos el espejo para que nos muestre quiénes aspiramos a ser. Quizás deberíamos preguntarnos qué perdemos cuando deja de mostrarnos quiénes somos.

El algoritmo ejecuta. Nosotros autorizamos. A esto llamamos alineación. El espejo nos dice que es lo mismo. Pero autorizar no es decidir.

Facebook Comments Box