É uma queixa recorrente: os modelos de IA devoram conteúdo em escala industrial. Para obter o conjunto de dados usado para treinar um modelo, são necessários bots rastreadores. Cada empresa tem o seu: a OpenAI usa o GPTBot, a Gemini usa o Googlebot, enquanto a Anthropic utiliza o ClaudeBot. Eles sugam informações e realizam o que é chamado de web scraping, rastreando milhões de páginas da web, baixando o HTML, extraindo o texto limpo e armazenando os links para continuar sua busca digital.
Uma vez treinados, os modelos recorrem a ferramentas de busca na web se não tiverem informações suficientes para responder a uma consulta. Isso geralmente acontece com eventos atuais ou tópicos sobre os quais surgiram novos detalhes desde o treinamento do modelo. Quando isso ocorre, um novo bot extrai o conteúdo dos sites necessários para refinar a resposta da IA.
Essa dinâmica leva a problemas. O mais visível está relacionado à propriedade intelectual e ficou evidente ao vermos as imagens no estilo Studio Ghibli geradas pelo ChatGPT ou os vídeos feitos com o Seedance 2.0, que apresentam atores reais em cenas geradas artificialmente.
Nos últimos três anos, proliferaram os processos por violação de direitos autorais. O processo do The New York Times contra a Microsoft e a OpenAI, acusando-as de usar milhões de seus artigos para treinar o ChatGPT, é bem conhecido. Mesmo antes dessa acusação, um grupo de artistas processou geradores de imagens como o Stability AI e o Midjourney.
Veículos de comunicação e associações de direitos autorais também entraram com ações judiciais contra a Perplexity, assim como contra a Meta, embora esta última tenha se saído bem até o momento. Em 2025, a OpenAI tinha tantos casos de violação de direitos autorais que conseguiu consolidar grande parte deles em um único tribunal de Nova York para facilitar sua defesa.
Diante de uma ação coletiva movida por autores, a solução da Anthropic foi chegar a um acordo, mas um acordo caro: a empresa teve que pagar aproximadamente US$ 1,5 bilhão. Isso equivalia a US$ 3 mil para cada um dos 482.460 livros que admitiu ter baixado ilegalmente para treinar sua IA.
Esse cenário levou as empresas de desenvolvimento de IA a licenciarem conteúdo. A OpenAI firmou um acordo com o grupo de mídia News Corp para acessar suas informações por cinco anos em troca de US$ 250 milhões. Também estabeleceu alianças com a Associated Press e os grupos Condé Nast e Axel Springer. A Meta fechou contrato com a própria News Corp e também com a Reuters. Enquanto isso, o Google e, novamente, a OpenAI, pagam à plataforma Reddit para treinar seus modelos.
Ironicamente, talvez a aliança mais comentada tenha sido a da OpenAI com a Disney. Um acordo assinado no final do ano passado permitiu que o gerador de vídeos Sora usasse os personagens do estúdio, incluindo os de franquias como Marvel, Star Wars e Pixar. No entanto, os termos foram suspensos com o recente fechamento do aplicativo.
Mas a violação de direitos autorais não é a única desvantagem da coleta indiscriminada de dados por bots. Sites reclamam que, se seu conteúdo for reproduzido por IA, os usuários não o visitarão mais, resultando em perda de tráfego e de negócios.
A voracidade dos bots também pode causar problemas técnicos. O CEO do reparos iFixit afirmou que o bot Anthropic visitou seu site um milhão de vezes em um único dia. O caso da plataforma Freelancer foi ainda pior: em quatro horas, recebeu quase quatro milhões de solicitações. Essa enxurrada de visitas aumenta os custos de computação dos sites e pode sobrecarregar os servidores, degradando a experiência dos usuários humanos.
Para tentar controlar os bots de IA, o RSL Collective foi criado no ano passado. Dessa organização surge o padrão aberto RSL (Really Simple Licensing), que visa permitir que cada site controle o acesso de bots ao seu conteúdo. Ele é apoiado por plataformas como Yahoo, Reddit, Medium e Quora, e um de seus principais objetivos é fornecer uma fórmula universal para que os sites licenciem seu conteúdo.
Um Spotify para conteúdo da internet
O RSL permite que cada site defina quais de suas páginas estão disponíveis para bots e quais páginas eles podem usar simplesmente citando-o.
Quais sites os usuários podem acessar como fonte e quais serão pagos? Tudo isso é feito por meio do arquivo robots.txt, um documento que fornece instruções simples para bots navegarem em cada site. Com o novo padrão, regras mais complexas podem ser criadas.
“Somos a chave para abrir as portas. O que fazemos é fornecer aos sites a infraestrutura e os padrões para que eles possam definir seus próprios termos de uso”, resume Doug Leeds, ex-CEO do mecanismo de busca Ask.com e um dos fundadores da iniciativa. Seu sócio é Eckart Walther, cocriador do padrão RSS (Really Simple Syndication), do qual o RSL deriva seu nome e filosofia subjacente.
Leeds esclarece que sua organização não lida com o bloqueio de bots. Se o proprietário de um site decidir bloquear bots, basta especificar isso nas instruções do RSL, e é aí que outros provedores entram em cena. Cloudflare, Akami e Fastly oferecem esse serviço. No entanto, a ideia principal é incentivar o pagamento justo pelo conteúdo.
Para entender como funciona, Leeds oferece um exemplo prático: “Se uma empresa, digamos a OpenAI, licenciar todo o acervo do nosso repositório, ela terá o direito de usar todas essas informações. Ela pagará um preço fixo, uma taxa única, e não pagará mais se usar mais informações. Quando o conteúdo for usado em seus modelos, pegaremos o dinheiro que recebemos e pagaremos ao site cujo conteúdo a OpenAI usou. Quanto mais eles usarem seu conteúdo, mais dinheiro você receberá.”
Leeds compara a fórmula ao Spotify ou Apple Music. A essência é uma taxa fixa que é então distribuída entre os sites visitados pelos bots. Mais de 1,5 mil empresas criadoras de conteúdo já apoiam a iniciativa. No entanto, este não é o único projeto que busca recompensar criadores.
A Cloudflare, provedora de CDN e serviços de backend, possui seu próprio sistema para prevenir a extração de dados da web. Dentro desse programa, há uma funcionalidade beta privada que permite aos editores monetizar o acesso ao conteúdo. Chama-se "Pay Per Crawl" (Pague por Rastreamento), e o nome não poderia ser mais descritivo. "Serve como uma ponte entre editores e modelos de IA baseados na dinâmica do mercado. Permite que os criadores controlem e monetizem o acesso dos rastreadores de IA ao conteúdo", explica Lara Cohen, vice-presidente de Parcerias Estratégicas da Cloudflare.
Por que OpenAI, Google e Anthropic pagariam por conteúdo?
Essas iniciativas levantam uma questão natural. As empresas que desenvolvem modelos de IA rastreiam a internet livremente até agora. Por que estariam dispostas a pagar por algo que obtiveram gratuitamente?
Leeds está certo de que a OpenAI, o Google, a Anthropic e os outros grandes desenvolvedores de IA prefeririam "licenciar conteúdo em vez de roubá-lo". Mas hoje, isso significaria fechar centenas de milhares de contratos, uma perspectiva inviável. Há também outro motivo. “Essas empresas gastam quantidades enormes de poder computacional e de processamento para pegar conteúdo e misturá-lo com outros conteúdos não originais. E elas acham que, dessa forma, não terão muitos problemas legais, porque não têm os direitos de simplesmente oferecer o conteúdo original”, explica Leeds. “O resultado é que elas não fornecem as melhores respostas. Enquanto que licenciar o conteúdo permitiria que elas oferecessem as melhores respostas e, além disso, economizassem muito dinheiro em computação.”
Isso significa que, quando você pede uma receita ao ChatGPT ou ao Gemini, ele gera uma resposta que é uma mistura de várias receitas das quais extraiu informações. Aparentemente, funciona bem. É coerente; os ingredientes são os esperados. Não é como se fosse te envenenar se você segui-la. “Mas não está usando uma única receita”, esclarece Leeds. “Pode ser que o sistema recomende usar um ingrediente de uma fonte e obter o tempo de cozimento de outra. E talvez o tempo de cozimento não seja o apropriado para aquele ingrediente, porque não se trata da mesma receita. Então você vai descobrir que não cozinhou a comida tempo suficiente quando já for tarde demais.”
O cofundador da RSL acredita que os modelos de IA podem oferecer uma única receita ou uma variedade de opções. Isso não parece muito diferente do que o mecanismo de busca do Google já faz. Mas Leeds acredita que o modelo de IA, LLM, agrega valor à busca. Ele teria um papel contextual.
“O LLM pode sugerir que você use uma das receitas se quiser algo simples, ou que uma leva mais tempo e outra menos”, destaca ele. “Acho que a IA é um produto melhor do que a busca tradicional. O problema é que ela comete erros e é muito cara. Além disso, a verdade é que não é sustentável. Se as empresas continuarem coletando conteúdo sem pagar por ele, mais cedo ou mais tarde não haverá mais conteúdo para coletar”, conclui, aludindo à perda de renda que os criadores sofrerão se não forem remunerados por seu trabalho no topo da cadeia de suprimentos de informação.
Pagar por conteúdo representaria um gasto para as empresas de IA, mas o RSL Collective acredita que seria simplesmente transferir dinheiro de um lugar para outro. "O custo do licenciamento virá do valor alocado para computação", destaca Leeds. "As empresas gastam bilhões de dólares em computação, mas quase nada em informação. Nossa fórmula não teria tanto impacto em suas margens de lucro, porque elas economizariam muito dinheiro em processamento e poderiam alocar esse valor para licenciamento."
Dado o cenário complexo que envolve direitos autorais e IA, as empresas de desenvolvimento teriam outra vantagem. "Elas também economizariam muito dinheiro em defesa jurídica e litígios, porque não seriam processadas novamente", acrescenta Leeds, que admite que ainda não iniciaram as negociações com as empresas de IA. Atualmente, estão trabalhando para garantir apoio suficiente, formular os termos dos contratos de licenciamento e determinar seu valor econômico. As negociações podem começar em algumas semanas.
Plano B: Bloquear o acesso ao conteúdo
A abordagem da Cloudflare para bots de rastreamento é mais técnica. O programa AI Crawl Control identifica essas ferramentas quando elas acessam um site. Ele as classifica como um tipo distinto de tráfego, em vez de visitantes humanos. Como explica Lara Cohen, “Ele oferece visibilidade e controle sobre a coleta não autorizada de dados por meio de um diretório global de rastreadores de IA conhecidos, atualizado dinamicamente. Os proprietários de sites podem bloquear facilmente esses agentes em todo o seu domínio ou em páginas específicas de alto valor.”
A ideia prevê uma internet baseada em permissões de acesso. Muitos bots são úteis e necessários para que um site apareça nos resultados de pesquisa do Google ou para monitorar o tempo de atividade. A Cloudflare mantém um registro de bots verificados, que devem atender a certos padrões de transparência, identidade declarada e finalidade, para facilitar seu controle.
Mas o programa também possui seus próprios métodos para avaliar o tráfego de entrada do site. “Além das simples verificações de identidade, nosso sistema usa detecção heurística avançada e modelos de aprendizado de máquina para identificar as impressões digitais e os padrões de comportamento exclusivos dos rastreadores de IA”, enfatiza o vice-presidente de Parcerias Estratégicas da Cloudflare. “Isso garante que mesmo os bots que tentam disfarçar sua identidade sejam neutralizados antes que possam consumir seu conteúdo.”
Se os bots ignorarem as políticas definidas do site, a empresa tem outra arma. Eles a chamam de Labirinto de IA. "Ela é ativada quando um rastreador é identificado como não conforme ou de alto risco", explica Cohen. "A Cloudflare injeta links invisíveis 'nofollow' no HTML do seu site, que são indetectáveis para humanos, mas irresistíveis para os scrapers. Esses links levam a um labirinto de páginas-isca geradas por IA que desperdiçam os recursos do scraper e contaminam os dados que ele está tentando roubar."
Essas páginas-isca são geradas pela Cloudflare usando um modelo de IA. “À medida que o bot rastreia mais profundamente, encontra mais links, ficando preso em um loop infinito de dados sem sentido”, aponta Cohen, explicando que isso força o agente a desperdiçar seus próprios ciclos de processamento e largura de banda com conteúdo inútil. Dessa forma, o custo de rastrear aquele site será muito maior do que o valor dos dados obtidos.
Outros provedores de CDN também oferecem programas de detecção de bots para controlar o acesso deles a sites. Exemplos incluem o Akami Bot Manager e o Fastly AI Bot Management. No entanto, por enquanto, o único padrão aberto que visa conciliar os interesses de sites de conteúdo com empresas de desenvolvimento de IA é a iniciativa RSL.
De qualquer forma, essas são soluções projetadas para uma internet que está mudando em ritmo acelerado e onde os bots estão se tornando cada vez mais prevalentes. Até 2025, o tráfego desses agentes atingiu 51% do total. Esta é a primeira vez que eles ultrapassaram o tráfego humano globalmente, de acordo com o relatório Bad Bot da Imperva, que vem analisando a situação há anos. Não é de admirar que a teoria da "internet morta", que prevê uma web onde o conteúdo é criado por bots e não por pessoas, esteja ganhando cada vez mais adeptos.
Combater isso é exatamente o que Leeds está tentando fazer. "Nossa cultura, seja ela qual for, nossos governos, sistemas democráticos, nossas vidas precisam de informações produzidas por humanos para funcionar. Elas podem ser agregadas, sintetizadas, a IA pode servir a esse propósito, mas se não tivermos informações criadas por humanos, teremos um problema", afirma o cofundador da RSL.
Ele diz que ele e seu sócio recusaram muito dinheiro de capital de risco. Muito? "Sim, milhões de dólares", acrescenta. "Obviamente, os investidores querem que sejamos uma empresa com fins lucrativos, para que possam obter retorno sobre o investimento. E eu não gosto da ideia de isso interferir em nossa missão. O dinheiro tem que ir para os criadores e editores, não para os investidores." Um idealismo destinado a se chocar com a realidade. Ou a transformá-la.
Ver 0 Comentários