"Todos os livros do mundo": a Anthropic comprou milhões de livros, treinou sua IA e os destruiu, graças a um ex-chefe do Google Books

A empresa de inteligência artificial Anthropic está sendo julgada por usar conteúdo de terceiros para treinar sua renomada IA, Claude. Isso inclui, entre outras coisas, o uso de milhões de livros que a Anthropic alega ter comprado. Agora, graças à decisão, há novas informações, e uma que chamou atenção especial: o que a empresa fez com esses livros depois de usá-los.

Há alguns dias, o site Genbeta publicou um relatório sobre como modelos de IA capazes de gerar textos estão cada vez mais presentes em nosso cotidiano. E isso levou muitas pessoas a se perguntarem: onde essas máquinas aprenderam a escrever do jeito que escrevem? E estamos vendo que, em muitos casos, foi pegando textos, livros e até obras de arte sem a autorização dos autores ou sem pagar os royalties.

Agora, documentos judiciais revelaram que a empresa de IA Anthropic gastou milhões de dólares digitalizando livros impressos para desenvolver o Claude, seu assistente de IA semelhante ao ChatGPT, adorado por desenvolvedores. Após digitalizá-los, a empresa os destruiu.

Como a Anthropic treinou sua IA

Especificamente, a Anthropic investiu milhões de dólares na digitalização física de livros impressos para criar Claude. No processo, a empresa cortou milhões de livros impressos de suas encadernações, digitalizou-os em arquivos digitais e descartou os originais exclusivamente com o propósito de treinar sua IA.

A decisão de 32 páginas conta a história de como, em fevereiro de 2024, a empresa contratou Tom Turvey, ex-diretor do projeto de digitalização de livros do Google Books, e o encarregou de obter "todos os livros do mundo".

Essa contratação estratégica parece ter sido projetada para replicar a abordagem bem-sucedida do Google para digitalização de livros — a mesma operação de digitalização que superou os desafios de direitos autorais e estabeleceu precedentes importantes de uso justo (que já era controversa na época, incluindo processos judiciais).

De acordo com informações divulgadas agora, embora a digitalização e a subsequente destruição "sejam práticas comuns em algumas operações de digitalização de livros, a abordagem da Anthropic foi um tanto incomum" devido ao grande número de livros digitalizados. Em contraste, o projeto Google Books utilizou um processo para digitalizar milhões de livros emprestados de bibliotecas, que foram então devolvidos ao seu local de armazenamento original, sem serem destruídos.

"Confusão jurídica, prática e comercial"

O juiz do caso, William Alsup, decidiu que essa operação de digitalização destrutiva se qualificava como uso justo, mas somente porque a Anthropic havia comprado legalmente os livros primeiro, destruído cada cópia impressa após a digitalização e mantido os arquivos digitais internamente em vez de distribuí-los.

Vale ressaltar que, antes dessa estratégia, de acordo com as informações divulgadas publicamente, a Anthropic inicialmente optou por um caminho diferente: em sua busca por dados de treinamento de alta qualidade, de acordo com o processo judicial, a Anthropic compilou versões digitalizadas de livros copiados sem pagar a licença de direitos autorais. Isso permitiu que evitassem o que o CEO Dario Amodei chamou de "uma confusão jurídica, prática e comercial", referindo-se às negociações de licenciamento com as editoras.

Mas em 2024, a Anthropic perdeu a confiança no uso de e-books sem licença "por motivos legais" e precisava de uma fonte mais segura, então começou a comprar livros, digitalizá-los e depois destruí-los.

A decisão estabelece um precedente

O tribunal considerou a empresa culpada de usar livros pirateados, mas que a compra dos livros e sua posterior digitalização foram legais.

A decisão afirma que "antes de comprar livros para sua biblioteca central, a Anthropic baixou mais de sete milhões de cópias piratas, não pagou nada e as manteve em sua biblioteca mesmo após decidir não usá-las para treinar sua IA. Os autores argumentam que a Anthropic deveria ter pago por essas cópias piratas da biblioteca."

Como aponta a Tech Policy, a decisão do juiz federal de São Francisco de que a Anthropic não violou a lei de direitos autorais ao usar livros adquiridos para treinar seus modelos de IA Claude, apesar de não ter a autorização dos autores individuais, é uma vitória para a indústria de IA.

A indústria de IA precisa de textos de qualidade

Como aponta a ArtTechnica, isso demonstra a necessidade da IA para entregar textos de qualidade que, afinal, foram escritos por humanos. Empresas do setor estão construindo seus próprios modelos de linguagem de IA (LLMs), que exigem que elas alimentem uma rede neural com bilhões de palavras.

A qualidade dos dados de treinamento inseridos na rede neural influencia diretamente os resultados, e é por isso que livros e artigos de qualidade tornarão a ferramenta final muito melhor do que se você a alimentasse com comentários aleatórios deixados nas redes sociais.

Como a Anthropic treinou sua IA

"Confusão jurídica, prática e comercial"

A decisão estabelece um precedente

A indústria de IA precisa de textos de qualidade

RECEBA "", NOSSA NEWSLETTER SEMANAL