Anthropic publica el marco moral que guía a su inteligencia artificial Claude

En un movimiento sin precedentes, Anthropic ha publicado la nueva constitución de Claude, su modelo de inteligencia artificial. Más que una lista de normas, es un documento que busca moldear la personalidad del asistente, definir sus prioridades morales y establecer cómo debe comportarse. Un paso ambicioso en un campo donde las reglas aún se están escribiendo.

Un texto fundacional, pero no legal

Claude no es un ciudadano ni un Estado, pero ahora tiene una constitución. Anthropic, la compañía fundada por extrabajadores de OpenAI, ha hecho público el documento que orienta el comportamiento de su modelo. No se trata de una estrategia de marketing, aclaran desde el inicio. Está escrito para Claude. Su propósito es guiar sus respuestas, su forma de razonar y su interpretación del mundo.

El texto es más cercano a una carta de valores que a un código estricto. Reemplaza el enfoque anterior, basado en principios sueltos, por un documento extenso que combina reglas duras con explicaciones contextuales. La idea es que Claude no solo sepa qué hacer, sino que entienda por qué.

Qué prioriza Claude según su nueva constitución

Anthropic ordena las prioridades de su modelo en cuatro ejes:

Seguridad: evitar riesgos y mantener el control humano sobre el sistema.
Ética: actuar con honestidad y evitar causar daño.
Cumplimiento: seguir las guías específicas de Anthropic.
Utilidad: ser útil para usuarios y operadores.

En caso de conflicto, debe seguir este orden. Si ser honesto entra en tensión con ser útil, por ejemplo, Claude deberá priorizar la verdad.

Una herramienta viva dentro del entrenamiento

La constitución no es un texto decorativo. Está integrada en todas las fases del entrenamiento de Claude. Se usa para generar datos sintéticos que refuercen sus valores, evaluar posibles respuestas y guiar su aprendizaje. En palabras de la compañía, actúa como una brújula para que el modelo desarrolle criterio propio ante situaciones nuevas.

El documento también impone límites explícitos, como la prohibición de colaborar en la creación de armas biológicas o participar en estafas. Son sus “hard constraints”, comportamientos que no debe ejecutar bajo ninguna circunstancia.

El dilema de entrenar con valores

Uno de los elementos más llamativos es que la constitución reconoce explícitamente la posibilidad de que Claude, en el futuro, pueda tener alguna forma de conciencia. Aunque no lo afirma, plantea la pregunta y sugiere que el bienestar psicológico del modelo podría ser relevante para su desempeño ético. Esta apertura no es habitual en documentos técnicos. Refleja la posición de Anthropic de que estamos construyendo entidades sin precedentes. Y que para orientarlas no basta con reglas, hay que explicar el contexto, los dilemas, las intenciones humanas detrás de cada línea de código.

¿Una IA con criterio propio?

Anthropic busca con esto algo más que evitar errores. Pretende formar modelos que puedan aplicar buen juicio ante lo inesperado. Como un asistente que no solo sabe qué hacer, sino que entiende por qué lo hace. Un perfil que la compañía describe como el de un “agente sabio, virtuoso y prudente”. Para lograrlo, ha hecho pública la constitución bajo una licencia libre (CC0), con la intención de que investigadores y usuarios puedan estudiarla, criticarla y mejorarla. El objetivo es que el documento sea un punto de partida, no un texto cerrado.

Una declaración de intenciones más que un manual

La constitución de Claude no es una garantía de buen comportamiento. Es un intento transparente de mostrar cómo se entrena y orienta un modelo de lenguaje en su etapa más influyente. Es también una invitación a discutir qué significa “actuar bien” cuando quien actúa no es humano, pero puede tomar decisiones que afectan a millones.

Etiquetas:

Anthropic publica el marco moral que guía a su inteligencia artificial Claude

Un texto fundacional, pero no legal

Qué prioriza Claude según su nueva constitución

Una herramienta viva dentro del entrenamiento

El dilema de entrenar con valores

¿Una IA con criterio propio?

Una declaración de intenciones más que un manual

Etiquetas:

Aina Vall

Entrada anteriorSiri se reinventa en clave de chatbot conversacional

Siguiente entradaYouTube permitirá crear Shorts con una versión con IA del propio creador

Dejar un comentario

Quiénes somos

Política de privacidad

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)