La red social Reddit demandó el miércoles a la empresa de inteligencia artificial Perplexity AI y a otras tres entidades, alegando que participan en una economía “ilegal a escala industrial” para “extraer” los comentarios de millones de usuarios de Reddit con fines comerciales.

La demanda de Reddit, presentada ante un tribunal federal de Nueva York, se dirige contra Perplexity, con sede en San Francisco, creadora de un chatbot de IA y un “motor de respuestas” que compite con Google, ChatGPT y otras empresas en la búsqueda en línea.

También se mencionan en la demanda a la empresa lituana de extracción de datos Oxylabs UAB, un dominio web llamado AWMProxy que Reddit describe como un “antiguo botnet ruso”, y la startup SerpApi, con sede en Texas.

Se trata de la segunda acción legal de este tipo presentada por Reddit desde que demandó en junio a Anthropic, otra importante empresa de IA.

Sin embargo, la demanda presentada el miércoles es diferente en cuanto a que confronta no solo a una empresa de IA, sino también a los servicios menos conocidos de los que depende esa industria para adquirir textos en línea necesarios para entrenar a los chatbots de IA.

“Los extractores de información eluden las protecciones tecnológicas para robar datos y venderlos a clientes ávidos de material de entrenamiento. Reddit es un importante objetivo porque es una de las colecciones más grandes y dinámicas de conversación humana jamás creadas”, dijo Ben Lee, director legal de Reddit, el miércoles en un comunicado.

Perplexity afirmó que aún no recibe la demanda, pero “siempre luchará vigorosamente por los derechos de los usuarios a acceder libre y justamente al conocimiento público. Nuestro enfoque sigue siendo responsable y con principios, al tiempo que proporcionamos respuestas factuales con IA precisa, y no toleraremos amenazas contra la apertura y el interés público”.

Hasta el miércoles, Oxylabs y SerpAPI no habían respondido a las solicitudes de comentarios. AWMProxy no pudo ser contactada para solicitar sus comentarios.

Reddit compara a las empresas a las que demanda con “aspirantes a ladrones de bancos” que no pueden entrar en la bóveda, por lo que irrumpen en el camión blindado. En la demanda se alega que las empresas evaden las medidas antiextracción de Reddit al tiempo que “eluden los controles de Google y extraen contenido de Reddit directamente de los resultados del motor de búsqueda de Google”.

Lee dijo que, debido a que no pueden extraer datos directamente de Reddit, “enmascaran sus identidades, ocultan sus ubicaciones y disfrazan sus extractores web para robar contenido de Reddit a partir de la función de búsqueda de Google. Perplexity es un cliente dispuesto de al menos uno de estos extractores que elige comprar datos robados en lugar de lograr un acuerdo legal con el propio Reddit”.

Al igual que en su demanda contra Anthropic, creador del chatbot Claude, Reddit afirma que Perplexity ha accedido al contenido de Reddit a pesar de que se le ha solicitado que no lo haga.

La empresa presentó un argumento similar en su demanda contra Anthropic. Ese caso se presentó inicialmente en el Tribunal Superior de California, pero luego se trasladó a un tribunal federal y tiene programada una audiencia para enero.

Junto con libros digitalizados y artículos de noticias, sitios web como Wikipedia y Reddit son grandes depósitos de materiales escritos que pueden ayudar a enseñar los patrones del lenguaje humano a un asistente de IA.

Reddit ha firmado previamente acuerdos de licencia con Google, OpenAI y otras empresas que pagan para poder entrenar sus sistemas de IA con los comentarios públicos de los más de 100 millones de usuarios diarios de Reddit.

Dichos acuerdos ayudaron a la plataforma en línea, de 20 años de antigüedad, a recaudar dinero antes de debutar en Wall Street como empresa pública el año pasado.

___

Esta historia fue traducida del inglés por un editor de AP con la ayuda de una herramienta de inteligencia artificial generativa.