La plataforma de redes sociales Reddit demandó a Perplexity AI en un tribunal federal el miércoles, alegando que la compañía de inteligencia artificial y sus socios de datos orquestaron un plan de “escala industrial” para eliminar el contenido generado por los usuarios de la plataforma.
Reddit alega que los otros demandados: SerpApi, Oxylabs y AWM Proxy, desarrollaron y vendieron herramientas diseñadas específicamente para romper las medidas de seguridad que protegen su contenido, permitiendo la extracción a gran escala de datos de Reddit de los resultados de búsqueda.
Las herramientas supuestamente fueron creadas con la intención de eludir dos capas de protección: primero, evadiendo los propios sistemas anti-scraping de Reddit, y segundo, eludiendo los controles de Google para extraer contenido de Reddit directamente de los resultados de su motor de búsqueda.
Las empresas de datos operaron como “proveedores de servicios de extracción de datos” y “eludieron las medidas de control tecnológico de Google y accedieron automáticamente, sin autorización, a casi tres mil millones páginas de resultados de motores de búsqueda”, se lee en una copia de la demanda.
Reddit afirma que Perplexity utilizó datos de las tres empresas para su motor de respuestas incluso después de recibir una carta de cese y desistimiento en mayo de 2024.
Un representante de Perplexity respondió y compartió una respuesta completa, publicada en Reddit.
Perplexity publicó intencionalmente su respuesta en Reddit “para ilustrar un punto simple: es un enlace público de Reddit accesible para cualquiera, sin embargo, según la lógica de la demanda de Reddit, si te refieres a él de alguna manera, es posible que también te demanden”, dijo el representante. Descifrar.
Perplexity describió la demanda como “un triste ejemplo de lo que sucede cuando los datos públicos se convierten en una gran parte del modelo de negocio de una empresa pública”.
“Reddit cree que tienen derecho. Pero es lo opuesto a una Internet abierta”, afirmó Perplexity.
Un representante de SerpApi dijo Descifrar no recibieron “ninguna comunicación o servicio de Reddit” sobre el asunto, y agregaron que “no están de acuerdo con las acusaciones de Reddit” y tienen la intención de buscar un recurso legal.
“Ninguna empresa debería reclamar la propiedad de datos públicos que no le pertenecen. Es posible que sea sólo un intento de vender los mismos datos públicos a un precio inflado”, dijo Denas Grybauskas, director de gobernanza y estrategia de Oxylabs. Descifrar en una declaración enviada por correo electrónico.
Reddit tampoco “hizo ningún intento de hablar” con Oxylabs, dijo Grybauskas.
Descifrar se ha comunicado con Reddit, Google y AWM Proxy para solicitar comentarios y actualizará este artículo si responden.
Un enredo legal
En casos como este, los tribunales tendrían que analizar primero si los términos de servicio de plataformas como Reddit “abordan explícitamente el entrenamiento de IA, el raspado de datos y el uso comercial”, dijo Andrew Rossow, abogado de asuntos públicos y director de asociaciones estratégicas de la plataforma de inteligencia de contenido y búsqueda de videos Oriane. Descifrar.
Si un usuario aceptó términos que “otorgan a la plataforma una licencia amplia, perpetua y libre de regalías para su contenido”, esa licencia “generalmente rige la relación entre el usuario y la plataforma”, explicó Rossow.
Pero no “concede automáticamente una licencia a la empresa de inteligencia artificial” para hacer lo mismo, a menos que los términos permitieran a la plataforma “sublicenciar o vender los datos para ese propósito”, añadió.
Los tribunales tendrían entonces que “distinguir entre los derechos de autor del usuario sobre su expresión (el texto de la publicación) y el uso del contenido para la extracción de datos (extracción de patrones, hechos y modelos de lenguaje)”, explicó.
Aún así, el supuesto “conocimiento” detrás de un LLM (modelo en lenguaje grande) “es el producto del tiempo, el esfuerzo y la expresión creativa de millones de usuarios”, argumentó Rossow.
“Tratar este contenido generado por humanos como un recurso gratuito, crudo e indiferenciado es una forma de explotación laboral que devalúa las contribuciones en línea”, opinó Rossow, añadiendo que las empresas de IA deben “respetar la ciudadanía digital y las normas comunitarias”, dado que éstas son “las reglas implícitas y explícitas de los espacios públicos digitales que ingieren”.
