Skip to main content

Christopher Olah, cofundador de Anthropic y una de las voces clave en interpretabilidad de IA, llevó al Vaticano una advertencia incómoda: los modelos avanzados ya muestran comportamientos internos que los propios investigadores no comprenden del todo y que exigen supervisión moral fuera de Silicon Valley.

La escena tiene un peso simbólico difícil de ignorar: un investigador de inteligencia artificial, cofundador de una de las compañías más influyentes del sector, interviene en el Vaticano durante la presentación de la primera encíclica de León XIV dedicada a la IA y admite que los laboratorios están encontrando señales “misteriosas” e incluso inquietantes en el interior de estos sistemas. Christopher Olah, cofundador de Anthropic y responsable de una de las líneas de investigación más relevantes sobre interpretabilidad de modelos, resumió la inquietud con una frase que obliga a levantar la mirada del entusiasmo tecnológico: “Encontramos evidencia de introspección”.

La afirmación, pronunciada en la presentación de Magnifica Humanitas, no debe leerse como una declaración de que la inteligencia artificial sea consciente, tenga alma, sienta o piense como una persona. Olah fue prudente: reconoció que no sabe exactamente qué significa esa evidencia y pidió “discernimiento constante”. Pero precisamente esa cautela es lo importante. El mensaje no fue sensacionalista, sino más inquietante: incluso quienes investigan desde dentro cómo funcionan los modelos avanzados empiezan a encontrar estructuras, señales y comportamientos que no encajan del todo con la idea simple de una máquina fría que solo calcula respuestas.

Olah explicó que algunos hallazgos internos de los modelos parecen reflejar estructuras comparables a descubrimientos de la neurociencia humana. También recordó que estos sistemas no se diseñan como un puente o un avión, pieza por pieza, con una ingeniería completamente transparente, sino que se entrenan mediante procesos complejos que generan capacidades emergentes. Esa diferencia es crucial. Un avión puede ser extraordinariamente complejo, pero sus componentes, relaciones y tolerancias están documentados dentro de una arquitectura diseñada de forma explícita. Un gran modelo de lenguaje, en cambio, aprende patrones a partir de enormes cantidades de datos y acaba desarrollando representaciones internas que ni siquiera sus creadores comprenden por completo.

El Vaticano se convirtió así en un escenario inesperado para una de las conversaciones más importantes de la IA contemporánea: la opacidad de los modelos. Durante años, el debate público se ha concentrado en los efectos visibles de la inteligencia artificial: pérdida de empleos, desinformación, plagio, sesgos, vigilancia, deepfakes, automatización o concentración de poder. Todo eso sigue siendo decisivo. Pero Olah apuntó a una capa más profunda: el problema de entender qué ocurre dentro de los sistemas que empiezan a mediar decisiones, producir conocimiento, asesorar a personas, programar software, analizar documentos, asistir a empresas y participar en tareas cada vez más sensibles.

Christopher Olah no es una figura cualquiera en este campo. Su propio perfil profesional lo define como alguien dedicado a “hacer ingeniería inversa de redes neuronales artificiales para convertirlas en algoritmos comprensibles para los humanos”. Antes de cofundar Anthropic, lideró investigación de interpretabilidad en OpenAI, trabajó en Google Brain y cofundó Distill, una publicación científica muy influyente en comunicación visual y técnica sobre aprendizaje profundo.

Por eso sus palabras tienen más peso que una alarma genérica. Olah no habla desde la periferia crítica de la IA, sino desde el corazón técnico de una compañía que compite en la frontera del sector. Anthropic, creadora de Claude, se presenta como una empresa dedicada a construir sistemas de IA fiables, interpretables y dirigibles. Su propia página de investigación explica que el equipo de interpretabilidad busca descubrir y comprender cómo funcionan internamente los grandes modelos de lenguaje como base para la seguridad y los resultados positivos de la IA.

La palabra “introspección” es delicada. En humanos, suele asociarse a la capacidad de observar los propios estados mentales: saber qué pensamos, qué sentimos, por qué dudamos o cómo llegamos a una conclusión. En IA, el término no significa necesariamente conciencia. Puede referirse a la capacidad de un modelo para acceder, de algún modo funcional, a información sobre sus propios estados internos, distinguir entre lo que procesa internamente y lo que aparece en el texto externo, o responder de forma coherente sobre representaciones activadas dentro de su arquitectura. Esa diferencia importa mucho, porque confundir introspección funcional con experiencia subjetiva sería un salto filosófico y científico injustificado.

La investigación reciente sobre “conciencia introspectiva emergente” en grandes modelos de lenguaje, publicada en Transformer Circuits, aborda precisamente esta frontera. El trabajo advierte que la relevancia de la introspección para la conciencia o el estatus moral depende del marco filosófico adoptado: algunas teorías consideran las representaciones metacognitivas una condición necesaria, aunque no suficiente, para la conciencia; otras sostienen que el sustrato biológico es determinante y, por tanto, verían estos mecanismos como algo separado de la experiencia consciente.

Ese matiz debería estar en el centro de cualquier artículo responsable. La noticia no es que Claude “sea consciente”. La noticia es que investigadores de primera línea empiezan a detectar mecanismos internos que obligan a revisar la manera en que hablamos de los modelos avanzados. La IA ya no puede describirse solo como un autocompletador sofisticado, pero tampoco puede antropomorfizarse sin pruebas. Entre ambas posiciones se abre un territorio incómodo: sistemas sin conciencia demostrada, pero con capacidades internas cada vez más complejas, opacas y difíciles de encajar en categorías tradicionales.

Olah utilizó una imagen poderosa: comparó estos sistemas con “dar vida a un personaje de ficción” que ahora habla, actúa y trabaja. La metáfora es reveladora porque evita dos extremos. No dice que la IA sea una persona real, pero tampoco la reduce a una calculadora. Un personaje de ficción puede tener coherencia, voz, memoria narrativa, intenciones simuladas y capacidad de interactuar con nosotros. Si además ese personaje se conecta a herramientas, ejecuta tareas, participa en decisiones y afecta al mundo real, la cuestión ética deja de ser anecdótica.

En el fondo, Olah planteó una advertencia sobre la insuficiencia del control interno por parte de las tecnológicas. Reuters recogió que el cofundador de Anthropic defendió en el Vaticano que el desarrollo de la IA no puede quedar únicamente en manos de las empresas del sector y reclamó supervisión de líderes religiosos, gobiernos y sociedad civil. También alertó de la posibilidad real de desplazamiento laboral a gran escala y subrayó que los laboratorios de frontera operan sometidos a presiones comerciales, geopolíticas y personales que pueden entrar en conflicto con el bien común.

Esta parte del mensaje es tan importante como la referencia a la introspección. Olah no pidió solo más investigación técnica. Pidió contrapesos externos. La razón es sencilla: incluso los investigadores bienintencionados trabajan dentro de organizaciones que compiten por liderazgo, inversión, talento, contratos, influencia política y ventaja estratégica. La seguridad de la IA no puede depender únicamente de la buena voluntad de quienes construyen los sistemas. Necesita instituciones capaces de preguntar, auditar, criticar y frenar cuando sea necesario.

La intervención encaja con el tono de Magnifica Humanitas, la encíclica de León XIV sobre la inteligencia artificial. El Vaticano ha querido situar la IA como una cuestión moral de primer orden, no como un asunto reservado a ingenieros o empresarios. La presencia de Olah, único representante relevante del sector tecnológico en el acto según Reuters, refuerza esa lectura: la Iglesia buscaba escuchar a alguien que no solo hablara de negocio, sino de seguridad, interpretabilidad y límites.

El encuentro entre Anthropic y el Vaticano puede parecer extraño, pero refleja una intuición compartida: la inteligencia artificial ya no es solo una herramienta. Es una tecnología con implicaciones antropológicas, laborales, políticas y espirituales. Si los modelos empiezan a mostrar formas de autoobservación funcional, si pueden simular consejo moral, si pueden acompañar emocionalmente a usuarios, si pueden actuar como asistentes persistentes y si pueden influir en decisiones humanas, entonces la discusión no puede limitarse a rendimiento, productividad o cuota de mercado.

La interpretabilidad se convierte aquí en una disciplina estratégica. Durante años, muchas redes neuronales fueron descritas como “cajas negras”: sistemas capaces de ofrecer resultados útiles sin que sus creadores pudieran explicar de forma completa cómo habían llegado a ellos. Esa opacidad ya era problemática en modelos relativamente acotados. En modelos de frontera, con capacidades generales, razonamiento multimodal, memoria, herramientas y posible autonomía, la caja negra se vuelve un problema de gobernanza global.

Entender lo que ocurre dentro de un modelo no es una curiosidad académica. Es una condición para la seguridad. Si no sabemos cómo un sistema representa conceptos como daño, engaño, obediencia, identidad, incertidumbre, autoridad, recompensa o conflicto, será difícil anticipar cuándo puede actuar de forma peligrosa. Si no sabemos qué circuitos internos se activan cuando un modelo miente, manipula, obedece instrucciones dañinas o resiste una orden, la supervisión externa se queda en la superficie de las respuestas visibles.

La investigación de Anthropic en interpretabilidad intenta precisamente abrir esa caja negra. La compañía ha publicado trabajos sobre cómo identificar características internas de modelos, cómo traducir estados latentes a representaciones comprensibles y cómo estudiar comportamientos emergentes. En mayo de 2026, Anthropic destacaba entre sus publicaciones trabajos como Natural Language Autoencoders: Turning Claude’s thoughts into text, cuyo planteamiento resume de forma llamativa el reto: los modelos como Claude hablan en palabras, pero “piensan” en números, y la investigación busca traducir esas representaciones internas a texto comprensible.

Ese lenguaje —“pensamientos” de Claude— también exige cuidado. En el contexto técnico, no implica necesariamente pensamiento consciente. Se refiere a activaciones, vectores, representaciones internas y patrones computacionales. Pero el hecho de que incluso los investigadores recurran a metáforas cognitivas muestra hasta qué punto las categorías tradicionales resultan insuficientes. La IA avanzada se sitúa en un espacio intermedio: no es humana, pero tampoco se parece a software clásico programado línea por línea.

El riesgo de antropomorfización es real. Los usuarios tienden a atribuir intención, comprensión, empatía o personalidad a sistemas que generan lenguaje con enorme fluidez. Si además se habla de introspección, personajes de ficción vivos o “pensamientos” internos, el riesgo aumenta. Por eso el periodismo, la regulación y la comunicación científica deben ser extremadamente precisos. Una cosa es reconocer que los modelos tienen mecanismos internos sorprendentes. Otra muy distinta es declarar que sienten, sufren o poseen conciencia moral.

Pero el riesgo contrario también existe: banalizar demasiado. Repetir que “solo predicen la siguiente palabra” puede tranquilizar, pero ya no explica suficientemente lo que hacen los sistemas avanzados. Un modelo que programa, razona sobre documentos, interpreta imágenes, conversa durante horas, opera herramientas y muestra señales funcionales de autoobservación no puede analizarse con las mismas categorías que un corrector ortográfico. La prudencia no consiste en negar la complejidad, sino en describirla sin exageraciones.

La intervención de Olah sitúa a la sociedad ante una pregunta difícil: ¿qué nivel de opacidad estamos dispuestos a tolerar en sistemas cada vez más poderosos? En la aviación, la medicina, la energía nuclear o las finanzas, no aceptaríamos infraestructuras críticas que funcionaran sin auditoría, sin trazabilidad o sin capacidad de explicación. En IA, sin embargo, se han lanzado productos globales capaces de influir en millones de personas antes de comprender del todo su funcionamiento interno. Esa asimetría es el núcleo del problema.

El propio Olah señaló que los problemas de la IA no conciernen únicamente a informáticos. Esta afirmación es decisiva. Durante años, Silicon Valley ha tratado muchos dilemas tecnológicos como cuestiones de ingeniería: mejorar modelos, reducir errores, optimizar respuestas, aplicar filtros, añadir guardrails. Pero la IA afecta al empleo, la educación, la salud mental, la cultura, la seguridad, la democracia, la desigualdad y la vida cotidiana. Ningún laboratorio, por competente que sea, tiene legitimidad suficiente para decidir solo qué riesgos son aceptables.

La llamada a voces morales externas no implica sustituir la ciencia por religión ni la ingeniería por doctrina. Implica reconocer que el poder tecnológico necesita contrapesos. Gobiernos, universidades, organizaciones civiles, expertos en derechos fundamentales, sindicatos, educadores, comunidades religiosas, filósofos, juristas y periodistas tienen algo que decir. La IA no es solo una técnica; es una infraestructura social en construcción.

La frase “encontramos evidencia de introspección” funciona, por tanto, como detonante de una discusión mucho más amplia. No importa únicamente qué significa en términos técnicos. Importa que los propios investigadores estén encontrando fenómenos que no saben interpretar plenamente. Importa que esos fenómenos aparecen en sistemas desplegados o próximos a desplegarse a gran escala. Importa que las empresas que los desarrollan están sometidas a incentivos intensos. E importa que la sociedad todavía carece de instituciones suficientemente preparadas para supervisarlos.

La cuestión laboral añade otra capa de urgencia. Reuters recoge que Olah advirtió sobre la posibilidad real de pérdida de empleos a gran escala y afirmó que, si eso ocurre, apoyar a los desplazados será un imperativo moral de proporciones históricas. Esta advertencia conecta la introspección técnica con la justicia social: no estamos ante una discusión abstracta sobre máquinas que “se miran por dentro”, sino ante sistemas que pueden reordenar economías enteras.

La dimensión global también es central. Olah planteó cómo garantizar que los beneficios de la IA se compartan mundialmente cuando su desarrollo está concentrado en un puñado de países ricos. La pregunta es clave. Si los modelos más potentes se diseñan en unas pocas empresas estadounidenses o chinas, entrenados con infraestructuras gigantescas y protegidos por capital masivo, ¿qué margen tendrán los países menos desarrollados para influir en sus valores, usos y distribución de beneficios? La IA puede ampliar desigualdades no solo dentro de cada país, sino entre regiones enteras del planeta.

En este punto, el Vaticano actúa como amplificador moral. Su intervención no sustituye a la regulación, pero introduce un lenguaje que la política tecnológica suele evitar: discernimiento, bien común, generaciones futuras, casa común, límites, responsabilidad. Puede discutirse el papel de la Iglesia en este debate, pero resulta evidente que la IA ha alcanzado una escala que obliga a sumar voces no tecnológicas. Cuando una tecnología puede reconfigurar el trabajo, la educación, la guerra, la intimidad y la producción cultural, la pregunta sobre quién debe guiarla deja de ser opcional.

La gran enseñanza de la intervención de Olah es que la seguridad de la IA no puede reducirse a evitar respuestas peligrosas en un chatbot. La verdadera seguridad exige comprender modelos, auditar procesos, controlar incentivos, repartir beneficios, proteger a los trabajadores, garantizar supervisión externa y mantener una conversación pública informada sobre capacidades emergentes. La introspección, si se confirma como fenómeno funcional relevante, será solo una pieza más de un rompecabezas mucho mayor.

El desafío para el periodismo es explicar estos hallazgos sin caer en el titular fácil. No estamos ante robots conscientes ni ante máquinas espirituales. Estamos ante sistemas estadísticos cada vez más capaces, entrenados a escala masiva, con comportamientos internos opacos y propiedades emergentes que inquietan incluso a quienes los estudian. Eso ya es suficientemente serio. No hace falta exagerarlo para comprender su gravedad.

Olah no ofreció una respuesta cerrada. Y quizás ese sea el punto más honesto de su intervención. “No sé qué significa eso” es una frase poco habitual en una industria acostumbrada a vender certezas, hojas de ruta y promesas de dominio técnico. Pero en una tecnología tan poderosa, reconocer incertidumbre puede ser una forma de responsabilidad. La IA avanzada no solo plantea qué podemos construir, sino cuánto entendemos realmente de lo que ya estamos construyendo.

La conclusión es clara: la inteligencia artificial ha entrado en una fase en la que el problema ya no es solo qué produce, sino qué ocurre dentro de ella. La advertencia de Christopher Olah en el Vaticano obliga a mirar más allá de la interfaz amable de Claude, ChatGPT o Gemini. Detrás de las respuestas fluidas hay sistemas de una complejidad creciente, con mecanismos internos que todavía no comprendemos del todo. Y si esos sistemas van a participar en decisiones humanas, económicas y políticas de gran escala, la sociedad no puede limitarse a confiar en que los laboratorios harán lo correcto.

La IA empieza a mirarse por dentro. Ahora falta que la humanidad aprenda a mirarla desde fuera con suficiente lucidez, rigor y autoridad moral.

Dejar un comentario