Rede social acusa quatro startups de roubo e revenda de informações extraídas de seus fóruns, valiosos por grande volume de interações humanas
IA – O Reddit entrou com uma ação judicial contra quatro empresas acusadas de extrair ilegalmente dados da plataforma e revendê-los para companhias de inteligência artificial, como a OpenAI e a Meta. O processo, movido no Tribunal do Distrito Sul de Nova York, mira as startups SerpApi, Oxylabs, AWMProxy e Perplexity.
De acordo com o Reddit, as empresas teriam coletado informações de seus fóruns a partir de resultados do Google, vendendo posteriormente os dados a desenvolvedores de sistemas de IA. A rede social pede uma liminar permanente, indenização por danos financeiros e a proibição do uso ou comercialização de qualquer material obtido ilegalmente.
LEIA: Maioria dos brasileiros cogitou pedir demissão este ano
“As empresas de IA estão presas em uma corrida armamentista por conteúdo humano de qualidade, e essa pressão alimentou uma economia de ‘lavagem de dados’ em escala industrial”, afirmou Ben Lee, diretor jurídico do Reddit.
Disputa por dados humanos
A SerpApi, uma das empresas processadas, afirmou não ter recebido notificação formal do processo e declarou que “se defenderá vigorosamente em tribunal”. A Perplexity também negou ter sido informada e disse que mantém uma “abordagem baseada em princípios e responsabilidade”. Já Denas Grybauskas, da Oxylabs, afirmou que “nenhuma companhia deve reivindicar propriedade sobre dados públicos que não lhe pertencem”. A AWMProxy não comentou o caso.
A raspagem de dados, técnica de coleta automatizada de informações, é uma prática antiga e polêmica. Nos primórdios da internet, o Google usou robôs para mapear páginas e construir seu mecanismo de busca. Mais tarde, outras empresas começaram a raspar os próprios resultados do Google, criando um ecossistema que, à época, beneficiava tanto quem coletava quanto quem era coletado.
“Esse era o ecossistema original da web”, afirmou Doug Leeds, cofundador da Really Simple Licensing, organização que busca garantir compensação a editores e criadores cujos conteúdos são usados por IA. “Não era necessariamente um problema, porque havia uma forma de monetização para todos os envolvidos.”
Com o avanço da inteligência artificial, porém, o equilíbrio se rompeu. Empresas de IA passaram a coletar grandes volumes de dados sem compensar financeiramente os criadores. Em resposta, plataformas como o Reddit começaram a restringir o acesso de rastreadores automatizados.
Do compartilhamento à disputa judicial
O Reddit, que reúne mais de 416 milhões de usuários semanais, considera seu conteúdo extremamente valioso por abranger discussões sobre diversos temas, de maquiagem e raças de cães a RPGs e viagens, dados úteis para treinar modelos de linguagem.
Em 2023, a rede anunciou que cobraria pelo acesso a suas informações e firmou acordos de licenciamento com o Google, que utiliza dados do site para treinar o chatbot Gemini, e com a OpenAI, responsável pelo ChatGPT. Entretanto, nem todas as empresas aceitaram os termos, recorrendo a raspadores para obter o material.
Segundo o processo, SerpApi, Oxylabs e AWMProxy teriam coletado bilhões de consultas do Google por mês e empacotado dados do Reddit para revenda. A Perplexity, uma das compradoras, já havia sido notificada para interromper a prática, mas o volume de citações ao conteúdo da rede em seus resultados teria aumentado “quarenta vezes”.
O Reddit afirma que chegou a criar uma “postagem de teste”, visível apenas via Google, que apareceu pouco depois nos resultados da Perplexity, o que seria uma prova da raspagem. “O modelo de negócios da Perplexity é, na prática, pegar o conteúdo do Reddit dos resultados de busca do Google, inseri-lo em um modelo de IA e chamá-lo de novo produto”, diz a ação.
Embora algumas das empresas processadas estejam sediadas na Europa e na Ásia, o Reddit afirma que seguirá adiante na tentativa de proteger seus dados. A rede já havia processado, em junho, a empresa Anthropic, também por uso indevido de conteúdo.
O Google, que não faz parte do processo, declarou tentar conter raspadores como a SerpApi. “O Google sempre respeitou as escolhas dos sites por meio do robots.txt, mas há um grupo de scrapers furtivos que ignora essas regras”, disse o porta-voz José Castaneda.
Com o crescimento da demanda por conteúdo humano para treinar sistemas de IA, a disputa por dados se tornou global. “As empresas estão correndo atrás de qualquer fonte de informação de qualidade”, afirmou Ben Lee. “O Reddit continuará tomando medidas legais para impedir o uso indevido de seus dados.”
(Com informações de O Globo)
(Foto: Reprodução/Freepik/arialfatih)