Skip to main content

Reddit ha iniciado una batalla legal que va más allá de lo habitual. Acusa a Perplexity AI y a tres empresas tecnológicas de extraer masivamente comentarios públicos de sus usuarios sin autorización. ¿Qué ocurre cuando una conversación digital se convierte en materia prima para la inteligencia artificial?

Cómo funciona el sistema de extracción

La demanda sostiene que Perplexity AI—junto a Oxylabs UAB (Lituania), AWMProxy (un antiguo botnet ruso) y SerpApi (Texas)—habría eludido barreras técnicas de Reddit para raspar comentarios a gran escala. El método, según Reddit, incluye ocultar la identidad de los bots, enmascarar ubicaciones y extraer datos incluso desde resultados de Google cuando el acceso directo estaba bloqueado. En mayo de 2024, Reddit envió una carta de cese y desistimiento a Perplexity. Poco después, la empresa habría multiplicado por cuarenta las citas a Reddit.

Qué propone Perplexity AI

Perplexity se presenta como un «motor de respuestas», una alternativa a los buscadores tradicionales basada en IA. Su promesa son respuestas rápidas y fundamentadas, con citas visibles a las fuentes originales. En su defensa, Perplexity afirma que «defenderá siempre el derecho de los usuarios a acceder libremente al conocimiento público». Sin embargo, Reddit ya ha firmado acuerdos de licencia con OpenAI y Google para compartir sus datos bajo condiciones pactadas.

El valor de los datos conversacionales

Los datos implicados son los comentarios públicos de Reddit, generados en miles de subcomunidades temáticas. La empresa los considera uno de sus activos más valiosos y ha optado por licenciar su uso de forma controlada. Según la demanda, algunos actores han sorteado medidas como el archivo robots.txt, límites de tasa o bloqueos automatizados para acceder a esos datos sin autorización expresa.

Tensiones múltiples en el modelo de IA

El caso plantea varias fricciones centrales en la era de los modelos de lenguaje. Una de ellas es la tensión entre lo «público» y lo «propietario», aunque los comentarios en Reddit son accesibles, la empresa argumenta que su recolección masiva sin permiso ni compensación constituye una extracción ilegítima. También entra en juego el dilema del entrenamiento de IA, que requiere volúmenes masivos de texto que, en muchos casos, se recopilan sin acuerdos formales.

A esto se suma el debate sobre la eficacia de los mecanismos técnicos de control. Reddit, por ejemplo, ya ha modificado su archivo robots.txt para bloquear bots no autorizados. Mientras tanto, el rol del usuario final queda desdibujado, sus aportes, aunque públicos, se transforman en insumos para productos comerciales. Finalmente, si la demanda prospera, podría sentar un precedente legal que redefina qué contenidos pueden usarse libremente para entrenar modelos de IA y cuáles requieren una licencia expresa.

Un conflicto que no es nuevo

Reddit no es la única ni es la primera. Ya en junio de 2025 demandó a Anthropic por razones similares. La práctica del scraping afecta también a medios de comunicación y editores, que reclaman protección frente a extracciones masivas. Además, investigaciones previas señalaron que Perplexity podría estar utilizando rastreadores que ignoran directivas básicas de respeto a robots.txt, algo que la empresa niega pero que genera dudas sobre sus prácticas.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Dejar un comentario