Claude aprendió con libros guillotinados: el caso Anthropic abre una grieta en la cultura escrita

El Proyecto Panamá revela hasta qué punto la carrera por entrenar modelos de IA ha convertido los libros en materia prima: Anthropic compró, desmontó, escaneó y recicló millones de ejemplares físicos para alimentar a Claude y defender que ese uso era legal.

La historia tiene algo de metáfora brutal: una empresa de inteligencia artificial compra millones de libros de papel, corta sus lomos, escanea sus páginas y manda los restos al reciclaje para que su modelo aprenda a escribir. No es una distopía literaria ni una exageración de los críticos de Silicon Valley. Es el núcleo del llamado Proyecto Panamá, la operación de Anthropic para reunir una enorme biblioteca digital destinada al entrenamiento de Claude, según documentos judiciales desclasificados y publicados ahora por WIRED.

El caso muestra una de las paradojas más incómodas de la inteligencia artificial generativa: los modelos capaces de producir textos fluidos, razonamientos complejos, resúmenes, artículos, diálogos y códigos necesitan haber sido entrenados con cantidades masivas de lenguaje humano. Y buena parte de ese lenguaje procede de obras escritas por autores, periodistas, académicos, traductores, editores y creadores que nunca imaginaron que sus libros acabarían convertidos en combustible estadístico para sistemas comerciales.

Anthropic, creadora de Claude y presentada durante años como una de las compañías más preocupadas por la seguridad y la ética de la IA, queda ahora situada en el centro de una batalla que va mucho más allá de su caso. El debate no es solo si una empresa puede entrenar modelos con obras protegidas por derechos de autor. La cuestión de fondo es quién controla la memoria escrita de la humanidad, bajo qué condiciones puede ser procesada por máquinas y qué compensación merecen quienes produjeron esos contenidos.

El Proyecto Panamá resulta especialmente llamativo porque no se limitó a descargar textos de internet. Según los documentos citados por WIRED y por informaciones previas de The Washington Post, Anthropic compró grandes cantidades de libros físicos, los desmembró para facilitar su digitalización, escaneó las páginas y eliminó los ejemplares originales mediante reciclaje. La operación buscaba construir una biblioteca interna para entrenar modelos sin depender exclusivamente de copias pirateadas o de bases de datos de origen dudoso.

Ahí aparece el matiz legal decisivo. En junio de 2025, el juez federal William Alsup, del Distrito Norte de California, dictaminó en el caso Bartz v. Anthropic que el entrenamiento de Claude con libros adquiridos legalmente podía considerarse “fair use” bajo la legislación estadounidense. Es decir, el uso transformativo de esos textos para entrenar un modelo no equivalía necesariamente a una infracción directa de copyright. Sin embargo, el mismo juez distinguió ese supuesto de otro mucho más problemático: la descarga y almacenamiento de millones de libros pirateados en una biblioteca centralizada.

La diferencia es esencial. Para el tribunal, no era lo mismo comprar un libro, escanearlo de forma destructiva y usarlo internamente para entrenar un modelo, que descargar millones de obras desde bibliotecas piratas como LibGen o PiLiMi y conservarlas como repositorio corporativo. Esa segunda conducta abrió la puerta a una responsabilidad mucho mayor y terminó desembocando en un acuerdo de 1.500 millones de dólares con autores y titulares de derechos, aprobado de forma preliminar en 2025.

El resultado es jurídicamente complejo y culturalmente explosivo. Por un lado, Anthropic obtuvo una victoria importante para la industria de la IA: el entrenamiento con obras adquiridas legalmente puede ser considerado uso legítimo en Estados Unidos. Por otro, el caso confirma que la procedencia de los datos importa. No basta con decir que un modelo “aprende” de los textos; hay que explicar cómo se obtuvieron, cómo se almacenaron, con qué finalidad y si los titulares de derechos fueron ignorados o compensados.

La imagen de los libros destruidos tiene una fuerza simbólica que ningún argumento legal consigue neutralizar del todo. Durante siglos, el libro ha sido un objeto cultural asociado a la preservación, la transmisión y la permanencia. En el Proyecto Panamá aparece como soporte desechable: se compra, se corta, se escanea y se recicla. El contenido se conserva como dato; el objeto desaparece. La operación no pretendía quemar libros ni borrar conocimiento, pero sí revela una transformación profunda: para la economía de la IA, el libro vale menos como obra que como unidad de entrenamiento.

La pregunta incómoda es si ese cambio degrada la cultura escrita o la inserta en una nueva cadena de valor. Anthropic podría argumentar que el modelo no reproduce los libros, sino que extrae patrones lingüísticos, estructuras narrativas, estilos, relaciones semánticas y conocimiento general para generar respuestas nuevas. Esta fue, en buena medida, la lógica aceptada por el juez Alsup cuando consideró que el entrenamiento era “transformativo”. Reuters resumió la decisión señalando que el tribunal entendió que Anthropic había transformado de manera sustancial los materiales originales al usarlos para desarrollar Claude.

Los autores y editores, sin embargo, ven otra cosa: una industria multimillonaria que ha construido productos comerciales gracias a obras ajenas, sin pedir permiso ni pagar licencias previas. La compensación posterior, incluso cuando llega, no resuelve del todo el problema moral. Si una empresa tecnológica puede usar millones de libros para levantar un modelo y discutir la legalidad solo después, la asimetría de poder es evidente. Los creadores tienen que litigar contra gigantes financiados por capital masivo, mientras sus obras ya han sido absorbidas por sistemas que pueden competir en parte con ellos.

El acuerdo de Anthropic es histórico por su cuantía. La cifra de 1.500 millones de dólares representa una de las mayores recuperaciones conocidas en materia de copyright y prevé pagos de unos 3.000 dólares por título elegible, según AP y el Authors Guild. Pero también tiene límites: afecta a un conjunto concreto de obras, no cubre necesariamente usos futuros y no cierra el debate jurídico general sobre el entrenamiento de modelos con contenidos protegidos.

Lo que emerge del caso Anthropic es una nueva geografía del conflicto cultural. Antes, el copyright se discutía en torno a copias, ventas, descargas, bibliotecas digitales o plataformas de distribución. Ahora se discute sobre entrenamiento, vectores, pesos de modelos, datasets, inferencias y sistemas capaces de producir textos derivados estadísticamente de una inmensa exposición a obras humanas. La infracción ya no siempre adopta la forma clásica de una copia visible. Puede residir en la apropiación masiva de un corpus para producir una capacidad comercial.

Este desplazamiento complica la respuesta legal. Si un modelo no devuelve fragmentos sustanciales de una novela, ¿ha vulnerado el derecho del autor? Si aprende de miles de libros de cocina y luego genera recetas nuevas, ¿compite con los autores originales? Si absorbe estilos periodísticos, académicos o literarios, ¿está simplemente aprendiendo como un lector humano o explotando industrialmente un patrimonio creativo? La comparación entre IA y aprendizaje humano es seductora, pero insuficiente. Un lector no ingiere millones de libros en semanas ni convierte ese aprendizaje en un producto vendido globalmente por una empresa valorada en miles de millones.

El Proyecto Panamá también revela el hambre material de datos de la IA. Durante años se habló de la nube, los modelos y los algoritmos como si fueran entidades inmateriales. Pero entrenar IA requiere servidores, energía, chips, centros de datos, cables, agua para refrigeración y también libros, imágenes, vídeos, voces, artículos, foros, manuales y archivos. La inteligencia artificial no nace de la nada: se construye sobre infraestructuras físicas y sobre trabajo cultural acumulado. La destrucción de libros de papel es solo la imagen más visible de una maquinaria mucho más amplia.

La operación de Anthropic tuvo, además, una lógica defensiva. En un entorno cada vez más litigioso, comprar libros físicos podía servir para reforzar la posición legal de la compañía frente a acusaciones de uso indebido de obras. El razonamiento era sencillo: si la empresa adquiría ejemplares en el mercado, los escaneaba internamente y no distribuía las copias digitales, podía defender que actuaba dentro de los márgenes del uso legítimo. El juez aceptó en parte esa tesis, aunque no extendió el mismo amparo a las descargas piratas.

Pero esa estrategia plantea otra cuestión: ¿comprar un libro da derecho a convertirlo en entrenamiento para una IA comercial? En el mundo analógico, adquirir un ejemplar permite leerlo, prestarlo, revenderlo o conservarlo, pero no explotar la obra en cualquier formato. La doctrina del “first sale” agota ciertos derechos sobre el ejemplar físico, no necesariamente sobre la obra intelectual. El tribunal estadounidense ha considerado que, en este caso concreto, el uso transformativo pesa mucho. Pero otros países, con marcos legales distintos, podrían llegar a conclusiones diferentes.

La comparación con Meta y otras tecnológicas muestra que Anthropic no es un caso aislado. La carrera por conseguir datos ha empujado a las grandes compañías a explorar bibliotecas, repositorios, archivos web y colecciones de libros con una agresividad que ahora empieza a conocerse gracias a litigios y documentos internos. La industria de la IA generativa se ha desarrollado en una zona gris: primero entrenó, luego lanzó productos, después llegó la discusión legal. Ese orden temporal ha favorecido a las empresas, no a los creadores.

El caso también obliga a revisar la reputación ética de Anthropic. La compañía se ha diferenciado de otros actores por su discurso sobre seguridad, alineamiento y responsabilidad. Claude ha sido presentado como un modelo prudente, útil y menos propenso a ciertos riesgos. Pero la ética de una empresa de IA no puede limitarse al comportamiento del modelo en la conversación con el usuario. También debe incluir la procedencia de los datos, la relación con los creadores, la transparencia de los procesos y la forma en que se distribuye el valor económico generado.

La destrucción de millones de libros no significa que Anthropic haya querido destruir la cultura. El objetivo era exactamente el contrario: capturar cultura escrita para que Claude pudiera producir lenguaje de alta calidad. Pero ahí reside la contradicción: para construir una máquina capaz de escribir, la empresa trató los libros como materia prima fungible. La cultura fue preservada como dato, no como relación con autores, editores, lectores y comunidades.

Este episodio marca un punto de inflexión porque hace visible lo que normalmente permanece oculto. Cada respuesta fluida de un chatbot tiene detrás una cadena de extracción: textos recogidos, filtrados, limpiados, tokenizados, entrenados y convertidos en capacidad estadística. El usuario ve una interfaz amable. Los tribunales empiezan a mostrar la trastienda: bibliotecas piratas, acuerdos millonarios, libros cortados, almacenes de datos y estrategias legales para justificar una captura masiva de conocimiento.

La gran batalla que viene no será solo tecnológica, sino contractual y política. Autores, editoriales, medios de comunicación, universidades y archivos tendrán que decidir si licencian sus contenidos, bajo qué condiciones y con qué mecanismos de trazabilidad. Las empresas de IA tendrán que aceptar que la opacidad ya no es sostenible. Y los reguladores deberán definir si el entrenamiento de modelos puede seguir apoyándose en interpretaciones amplias del uso legítimo o si hace falta un sistema específico de remuneración, exclusión voluntaria, registro y auditoría.

El Proyecto Panamá deja una lección clara: la IA generativa no solo amenaza empleos creativos por lo que puede producir, sino por la forma en que ha sido construida. La discusión sobre derechos de autor ya no puede reducirse a si Claude, ChatGPT o Gemini copian fragmentos literales. El problema es más profundo: una industria entera ha aprendido a escribir gracias a bibliotecas humanas y ahora debe explicar qué le debe a quienes las hicieron posibles.

La paradoja final es poderosa. Para que Claude aprendiera a escribir, Anthropic necesitó libros. Muchos libros. Tantos que tuvo que comprarlos por millones, cortarlos y convertirlos en datos. Esa escena resume una época: la inteligencia artificial se presenta como futuro, pero se alimenta del pasado; promete creatividad automática, pero depende de la creatividad humana; habla con voz nueva, pero ha aprendido leyendo voces ajenas. La cuestión ya no es si la IA puede escribir. La cuestión es quién pagó el precio para que pudiera hacerlo.

Etiquetas:

Claude aprendió con libros guillotinados: el caso Anthropic abre una grieta en la cultura escrita

El Proyecto Panamá revela hasta qué punto la carrera por entrenar modelos de IA ha convertido los libros en materia prima: Anthropic compró, desmontó, escaneó y recicló millones de ejemplares físicos para alimentar a Claude y defender que ese uso era legal.

Etiquetas:

Paréntesis MEDia

Entrada anteriorEl Gobierno entra en la gran ficción europea con 98 millones para crear Aurora Media

Siguiente entradaEl anuncio que confirma que la publicidad española ya ha entrado en la era de la IA

Dejar un comentario

Quiénes somos

Política de privacidad

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)