Una nueva demanda colectiva en el tribunal federal de San Francisco acusó al gigante del software Salesforce de construir sus modelos XGen AI en una biblioteca de libros pirateada y luego borrar las referencias a esas fuentes una vez que surgieron preguntas.
Presentada el miércoles por los autores E. Molly Tanzer y Jennifer Gilmore, la demanda se presenta bajo la Ley de Derechos de Autor, alegando una infracción continua, diciendo que Salesforce “continúa haciéndolo al continuar almacenando, copiando, usando y procesando los conjuntos de datos que contienen copias de los libros protegidos por derechos de autor de los demandantes”.
La denuncia dice que Salesforce.INC “pirateó cientos de miles de libros con derechos de autor para desarrollar su serie XGen de grandes modelos de lenguaje”, basándose en los “notorios conjuntos de datos RedPajama y The Pile” que incluyen un corpus de libros conocido como Books3, una colección de más de 196.000 libros copiados del rastreador privado Bibliotik.
La presentación dice que Salesforce inicialmente incluyó “RedPajama-Books” entre sus fuentes de capacitación cuando lanzó XGen en junio de 2023, y un ingeniero de la compañía vinculó a los usuarios de GitHub directamente con ambos conjuntos de datos.
Sin embargo, en septiembre, Salesforce supuestamente eliminó esas referencias de su sitio web y las reemplazó con descripciones vagas de “datos en lenguaje natural” extraídos de “fuentes disponibles públicamente”.
Hugging Face, la plataforma que aloja Books3, eliminó el conjunto de datos el mes siguiente, citando quejas de derechos de autor, según la demanda.
La demanda alega que Salesforce utilizó The Pile para entrenar sus modelos CodeGen en 2022 y luego comercializó la tecnología a través de su plataforma Agentforce AI, incluido el modelo XGen-Sales lanzado en octubre de 2024.
Dos meses después, Salesforce supuestamente borró sus divulgaciones, eliminando gráficos y referencias a “RedPajama-Books” y reemplazándolos con un lenguaje vago sobre una “mezcla de datos disponibles públicamente”, antes de afirmar en diciembre de 2023 que sus modelos utilizaban un “conjunto de datos legalmente compatible” sin mencionar RedPajama.
Ishita Sharma, socia directora de Fathom Legal, dijo Descifrar que los autores deben “probar un daño financiero real, no sólo que sus libros fueron utilizados para capacitación”, señalando cómo el juez Vince Chhabria recientemente desestimó demandas similares contra Meta, dictaminando que “simplemente afirmar que ‘nuestro trabajo fue utilizado’ no es suficiente”.
Fallos recientes favorecieron a OpenAI y Anthropic en casos similares, y los jueces encontraron que los autores no lograron demostrar daño al mercado, aunque uno criticó a Anthropic por mantener “una biblioteca permanente de libros pirateados”.
“El uso de conjuntos de datos públicos como RedPajama o The Pile no borra automáticamente la infracción deliberada”, dijo Sharma, y agregó que “si supieran o ignoraran que se incluyen obras protegidas por derechos de autor, los tribunales aún podrían considerar una indiferencia imprudente”.
“A menos que la IA pueda reproducir partes del trabajo original, los pesos del modelo en sí no se consideran una infracción de derechos de autor”, añadió.
La denuncia cita declaraciones del director ejecutivo de Salesforce, Marc Benioff, quien dijo a un Bloomberg entrevistador en enero de 2024 que las empresas de inteligencia artificial “estafaron” datos de entrenamiento y que “todos los datos de entrenamiento han sido robados”.
Los autores buscan una certificación colectiva para todos los titulares de derechos de autor estadounidenses cuyas obras se utilizaron desde octubre de 2022, exigiendo daños y perjuicios legales, destrucción de copias infractoras, devolución de ganancias, una declaración de infracción intencional y honorarios de abogados.
