Demandan a OpenAI por entrenar ChatGPT con datos personales “robados”

Problemas judiciales a la vista para Open AI. Un bufete de abogados de California ha presentado una demanda colectiva contra la compañía por presuntamente “robar” datos personales para entrenar a ChatGPT.

El despacho de abogados Clarkson ha presentado una denuncia en el tribunal del Distrito Norte de California alegando que ChatGPT y Dall-E “utilizan información privada robada, incluida información de identificación personal, de cientos de millones de usuarios de internet, incluidos niños de todas las edades, sin su consentimiento informado o conocimiento” para entrenar a su gran modelo lingüístico.

Según el texto de la demanda, la empresa extrajo 300.000 millones de palabras de internet, libros, artículos, sitios web y publicaciones en redes sociales, incluida la información personal, “en secreto y sin registrarse como intermediario de datos, como le exigía la legislación aplicable”.

En la denuncia se mencionan múltiples ejemplos concretos, como datos de ubicación y vinculados con imágenes personales de Snapchat, información financiera de Stripe, gustos musicales y preferencias de Spotify o conversaciones privadas de Slack y Microsoft Teams.

Los denunciantes pretenden ir a juicio y reclaman una compensación por daños que podría superar los 3.000 millones de dólares.

Renace la polémica sobre la recolección de datos de ChatGPT

OpenAI ya ha sido objeto de polémica en varias ocasiones por cómo y qué datos recopila para entrenar y seguir desarrollando ChatGPT. Hasta hace poco, los usuarios no tenían forma explícita de impedir que OpenAI utilizara sus conversaciones e información personal para alimentar el modelo.

De hecho, ChatGPT fue prohibido inicialmente en Italia, acogiéndose al Reglamento General de Protección de Datos de Europa, por proteger inadecuadamente los datos de los usuarios, especialmente los menores.

La denuncia acusa a OpenAI de hasta 15 cargos

La demanda incluye las opacas políticas de privacidad de OpenAI para los usuarios existentes, pero se centra en gran medida en los datos extraídos de webs que nunca fueron explícitamente destinados a ser compartidos con ChatGPT.

Los 15 cargos que presenta la demanda incluyen violación de la privacidad, negligencia por no proteger los datos personales y hurto al obtener ilegalmente cantidades masivas de datos personales para entrenar sus modelos.

Se considera que, aunque nuestra información personal puede ser pública en redes sociales, blogs y artículos, si estos datos se utilizan fuera de la plataforma prevista, puede considerarse una violación de la privacidad.

En Europa existe una distinción legal entre los datos de dominio público y los de libre uso, pero en Estados Unidos esto sigue siendo objeto de un gran debate jurídico. Esta demanda podría terminar por arrojar luz a esta problemática.