⚖️ Reddit demanda a Perplexity AI por raspado masivo de datos: una batalla por el control del contenido

🧩 El valor de los datos en la era de la inteligencia artificial

Durante años, el modelo de negocio de Internet ha descansado sobre un principio tácito: si algo es gratuito, el producto somos nosotros.
Los datos generados por los usuarios —mensajes, publicaciones, búsquedas, interacciones— alimentan los algoritmos que sostienen las plataformas digitales.

Sin embargo, la llegada de la inteligencia artificial generativa ha reconfigurado este equilibrio. Los textos, conversaciones y opiniones que los usuarios comparten en foros o redes se han convertido en materia prima para entrenar modelos de IA, lo que ha desatado una ola de conflictos legales sobre el uso y la propiedad del contenido.

En ese contexto, Reddit ha decidido trazar una línea roja.

⚖️ La demanda: Reddit vs Perplexity AI

La compañía ha presentado una demanda ante la justicia estadounidense contra Perplexity AI y tres empresas intermediarias de raspado masivo de datos: SerpApi, Oxylabs y AWMProxy.
Reddit acusa a estas entidades de eludir sus sistemas de protección y acceder de forma no autorizada a contenido protegido por derechos de autor.

En su escrito, Reddit describe el caso como un “raspado a escala industrial”, afirmando que los acusados recopilaron publicaciones, comentarios y datos de usuarios con fines comerciales, sin firmar un acuerdo de licencia ni respetar sus políticas de acceso.

“No se trata de innovación, sino de apropiación masiva de contenido ajeno”, sostiene la demanda.

La denuncia va más allá de lo técnico: busca sentar un precedente legal en la protección del contenido generado por comunidades digitales frente a su explotación por sistemas de IA.

🔍 El experimento que encendió la polémica

Uno de los episodios más contundentes del caso ocurrió en mayo de 2024.
Reddit ordenó formalmente a Perplexity dejar de recopilar sus datos, pero poco después observó un aumento en las menciones de Reddit dentro del motor de respuestas del buscador de IA.

Para comprobarlo, el equipo publicó una entrada diseñada para ser visible únicamente en Google.
Horas después, el texto completo apareció reproducido dentro de las respuestas de Perplexity, confirmando, según la denuncia, que el sistema seguía accediendo al contenido de Reddit por vías indirectas.

La compañía califica a los demandados como “aspirantes a ladrones de bancos”, una metáfora que refleja la magnitud del conflicto: no solo se trata de uso indebido, sino de un intento deliberado por burlar los límites impuestos.

🗣️ La respuesta de Perplexity AI

Lejos de esconderse, Perplexity publicó su postura directamente en Reddit.
La empresa argumentó que no entrena modelos de inteligencia artificial con contenido de la plataforma, y por tanto no necesita pagar una licencia.

“Somos una compañía de capa de aplicación. No entrenamos modelos con datos de Reddit, y nunca lo hemos hecho”,
aclaró el comunicado oficial de Perplexity.

La compañía sostiene que Reddit exige compensaciones incluso cuando el uso del contenido no implica entrenamiento de modelos, una práctica que consideran “táctica coercitiva”.

💰 Reddit sí cobra… cuando hay acuerdo

La postura de Reddit con Perplexity contrasta con los acuerdos comerciales que ha firmado con Google y OpenAI.

En febrero de 2024, amplió su colaboración con Google, otorgando acceso licenciado a su API de datos.
En mayo de 2024, firmó un acuerdo con OpenAI, permitiendo que ChatGPT y otros productos de la empresa muestren publicaciones recientes de Reddit en sus respuestas.

Ambas alianzas demuestran que Reddit no se opone al uso de su contenido por IA, siempre que exista compensación económica y control sobre el proceso.

📜 Lo que aceptamos sin leer: los Términos de Reddit

Un aspecto poco conocido es que los propios usuarios ya otorgan a Reddit derechos amplios sobre su contenido.
Al crear una cuenta, los usuarios aceptan una licencia mundial, perpetua e irrevocable que permite a la plataforma usar, modificar, distribuir y sublicenciar sus aportaciones.

Incluso se especifica que Reddit puede emplear este material para entrenar modelos de inteligencia artificial y aprendizaje automático.

En otras palabras: los usuarios no reciben compensación, pero Reddit sí puede monetizar ese contenido mediante acuerdos corporativos.

🔒 De las protestas al litigio: una estrategia coherente

Esta demanda no es un caso aislado. Reddit lleva más de dos años restringiendo el acceso libre a su API y endureciendo su control sobre los datos.
En 2023, la medida provocó protestas masivas y el cierre temporal de miles de comunidades.

Posteriormente, en 2024, la empresa envió una carta de cese a Perplexity y presentó otra demanda contra Anthropic por motivos similares.

El objetivo es claro: defender el valor económico del contenido generado por sus usuarios y establecer quién puede acceder a él en la era de la IA.

⚔️ Un precedente legal en construcción

El caso Reddit vs Perplexity se encuentra aún en fase inicial, pero su impacto potencial es enorme.
Lo que decidan los tribunales podría definir el futuro de la relación entre plataformas digitales y empresas de inteligencia artificial.

De un lado: el derecho al libre acceso a la información y la innovación tecnológica.
Del otro: la propiedad intelectual y el control sobre los datos generados por comunidades online.

Esta disputa no trata solo de dinero, sino del poder de decidir quién entrena a las inteligencias del futuro.

El resultado podría marcar un antes y un después en la forma en que las plataformas negocian con los desarrolladores de IA y en cómo los usuarios comprenden el valor real de sus datos.

24 ¡Haz clic para valorar este Post!

[Total: 0 Promedio: 0]

Fernando Juca Maldonado

Ingeniero en Sistemas de Información y docente universitario en el área de tecnología. Especialista en el desarrollo de sitios web, plataformas e-commerce y entornos virtuales de aprendizaje basados en Moodle. Experiencia en soluciones tecnológicas aplicadas a la educación y a la transformación digital de organizaciones.

Post Views: 334