Tendências do dia

A imagem que resume uma era: milhões de livros num armazém aguardando destruição após treinamento de IA

Washington Post revela detalhes do projeto "Panamá", iniciado pela Anthropic com intenção de digitalizar milhões de livros para treinar IA

Imagem | Obtida pelo Washington Post
Sem comentários Facebook Twitter Flipboard E-mail
pedro-mota

PH Mota

Redator
pedro-mota

PH Mota

Redator

Jornalista há 15 anos, teve uma infância analógica cada vez mais conquistada pelos charmes das novas tecnologias. Do videocassete ao streaming, do Windows 3.1 aos celulares cada vez menores.

1350 publicaciones de PH Mota

Um modelo de linguagem para IA precisa de informações para ser treinado e se tornar mais preciso e eficaz. A questão é como essas informações são obtidas e se existe uma maneira ética e lucrativa de fazê-lo para a empresa de tecnologia em questão. Não há dúvida de que a opção preferida das empresas tem sido usar o máximo possível de conteúdo físico e digital sem a permissão de ninguém, e há provas disso.

Um vazamento judicial revela que a Anthropic investiu dezenas de milhões de dólares na aquisição e digitalização de obras literárias sem a permissão dos autores. Segundo o Washington Post, o projeto, internamente chamado de "Panamá", fazia parte de uma corrida frenética entre grandes empresas de tecnologia para acumular dados massivos para treinar modelos de inteligência artificial.

Como tudo começou

O Projeto Panamá foi lançado pela Anthropic no início de 2024. De acordo com documentos internos revelados pelo Washington Post, o objetivo era "escanear destrutivamente todos os livros do mundo". Além disso, esses documentos também refletem explicitamente que a empresa não queria que ninguém soubesse que estava trabalhando nisso.

Em cerca de um ano, a empresa gastou dezenas de milhões de dólares comprando milhões de livros, cortando suas lombadas com máquinas hidráulicas e escaneando suas páginas para alimentar os modelos de IA que impulsionam Claude, seu principal chatbot. Segundo as informações, os livros, uma vez digitalizados, acabaram sendo reciclados.

Por que veio à tona?

Os detalhes do projeto foram revelados em um processo por violação de direitos autorais movido por autores literários contra a Anthropic. Embora a empresa tenha concordado em pagar US$ 1,5 bilhão para encerrar o caso em agosto de 2025, um juiz distrital decidiu tornar públicos mais de 4 mil páginas de documentos internos na semana passada, expondo toda a operação.

Os documentos judiciais revelam que outras empresas de tecnologia, como Meta, Google e OpenAI, também participaram dessa corrida para obter informações massivas para treinar seus modelos. Conforme revelado a partir dos documentos, um dos cofundadores da Anthropic teorizou em janeiro de 2023 que treinar modelos de IA com livros poderia ensiná-los "como escrever bem" em vez de imitar "jargões de baixa qualidade da internet".

E-mails internos

Por outro lado, um e-mail interno da Meta de 2024 descrevia o acesso a uma biblioteca digital de livros como "essencial" para ser competitivo contra os rivais na corrida para dominar a IA. No entanto, os documentos revelados também mostram como funcionários da Meta expressaram preocupação em diversas ocasiões sobre a legalidade do download de milhões de livros sem permissão. Um e-mail interno de dezembro de 2023 indica que a prática havia sido aprovada após ser "encaminhada para MZ", aparentemente referindo-se ao CEO Mark Zuckerberg.

Não era prático

De acordo com registros judiciais vistos pelo veículo, as empresas não consideravam "prático" obter permissão direta de editoras e autores. Em vez disso, encontraram maneiras de adquirir livros em massa sem o conhecimento dos escritores, incluindo o download de cópias sem autorização de sites de terceiros.

Registros de bate-papo de abril de 2024 mostram um funcionário perguntando por que usavam servidores alugados da Amazon para baixar torrents em vez dos próprios servidores do Facebook. A resposta: "Evitar o risco de rastrear" a atividade até a empresa.

Torrent de dados

Os documentos vistos pelo Washington Post também comprovam que Ben Mann, cofundador da Anthropic, baixou pessoalmente uma coleção de livros do LibGen, uma gigantesca biblioteca de conteúdo protegido por direitos autorais, durante 11 dias em junho de 2021. A mídia também revelou que, um ano depois, em julho de 2022, Mann comemorou o lançamento do site "Pirate Library Mirror", que possui um enorme banco de dados de livros e declara abertamente violar as leis de direitos autorais. "Na hora certa!!", escreveu Mann para outros funcionários da Anthropic, segundo a mídia.

A Anthropic afirmou em documentos legais que nunca treinou um modelo de negócios gerador de receita usando dados do LibGen nem usou o Pirate Library Mirror para treinar qualquer modelo completo.

Solução legal da Anthropic

De acordo com a reportagem, diante do risco legal, a Anthropic mudou sua estratégia. A empresa contratou Tom Turvey, um veterano do Vale do Silício que ajudou a criar o projeto Google Books duas décadas antes. Sob sua direção, a Anthropic considerou comprar livros de bibliotecas ou livrarias de segunda mão, incluindo a icônica Strand Bookstore de Nova York.

A Anthropic reembalava livros, muitas vezes em lotes de dezenas de milhares, de acordo com documentos judiciais. O Washington Post também afirma que a empresa trabalhou com vendedores de livros usados ​​no Reino Unido. Uma proposta de projeto menciona que a Anthropic pretendia "converter entre 500 mil e dois milhões de livros em um período de seis meses".

O que diz a lei

A maioria dos processos judiciais contra empresas de IA ainda está em andamento, mas o jornal cita duas decisões judiciais que consideraram legal o uso de livros para treinar modelos de IA sem a permissão do autor ou editor, sob a doutrina do "uso justo" dos direitos autorais.

Em junho de 2025, o juiz distrital dos EUA, William Alsup, decidiu que a Anthropic tinha o direito de usar livros para treinar modelos de IA porque os processava de forma "transformadora". Ele comparou o processo ao de professores "ensinando crianças a escrever bem". No mesmo mês, o juiz Vince Chhabria decidiu, no caso Meta, que os autores não conseguiram demonstrar que os modelos de IA da empresa poderiam prejudicar as vendas de seus livros.

No caso da Anthropic, o projeto de digitalização física de livros foi considerado legal, mas o juiz constatou que a empresa pode ter infringido direitos autorais ao baixar milhões de livros sem autorização antes de lançar o Projeto Panamá.

Acordo final

Em vez de enfrentar um julgamento, a Anthropic concordou em pagar US$ 1,5 bilhão a editoras e autores sem admitir culpa. Segundo a imprensa, os autores cujos livros foram baixados podem reivindicar sua parte do acordo, estimada em cerca de US$ 3 mil por título.

Imagem | Obtida pelo Washington Post

Inicio