Nem dados da internet, nem arquivos virtuais: gigantes da tecnologia assumiram a tática assustadora de destruir milhões de livros físicos para criar a IA perfeita

A Anthropic, startup americana de inteligência artificial, entrou em uma grande polêmica após documentos judiciais revelarem uma estratégia extrema para treinar o Claude, seu chatbot de IA. A empresa comprou milhões de livros físicos, desmontou cada um deles e digitalizou todo o conteúdo para criar sua própria biblioteca de treinamento. O processo aconteceu nos Estados Unidos e foi liderado por um ex-executivo do Google Books, contratado para reunir praticamente “todos os livros do mundo”. Apesar de a Justiça considerar legal a digitalização de obras compradas, o caso ganhou repercussão após a revelação de que a empresa também recorreu a cópias pirateadas.

Em Xataka Brasil

Anthropic vai pagar 200 bilhões de dólares ao Google para obter mais capacidade de computação

Anthropic desmontou livros físicos para acelerar treinamento do Claude

Bilhões de dados, textos e informações alimentam os modelos de inteligência artificial.

Você sabe como funciona o treinamento de uma inteligência artificial? Modelos como o Claude aprendem analisando volumes gigantescos de dados, como textos, imagens, áudios e documentos, para identificar padrões, relações entre palavras e formas de responder comandos humanos. Durante esse processo, os sistemas passam por milhões de ciclos de tentativa e erro até conseguirem produzir respostas mais naturais e precisas.

Quanto maior e mais diversificada for a base de dados, maior tende a ser a capacidade da IA de compreender linguagem, contexto e informação. Esse volume gigantesco de informação virou a matéria-prima mais disputada pela indústria de inteligência artificial, e explica por que empresas de tecnologia passaram a buscar acesso massivo a livros, artigos e outros conteúdos escritos para alimentar seus modelos.

No caso da Anthropic, a disputa judicial revelou uma busca por dados de alta qualidade. Segundo os documentos apresentados no processo, a Anthropic criou uma operação dedicada exclusivamente à digitalização de livros impressos para alimentar seus modelos de IA. A estratégia escolhida pela empresa envolvia comprar exemplares físicos em grande escala, retirar as encadernações e escanear página por página. Depois da digitalização, os livros eram descartados. O projeto foi conduzido por Tom Turvey, ex-responsável pelas parcerias do Google Books, contratado para liderar a criação de uma biblioteca digital para a empresa.

Internamente, a meta era construir uma coleção gigantesca de obras para ampliar a capacidade de treinamento do Claude. A Justiça dos Estados Unidos entendeu que o procedimento pode ser enquadrado como “uso justo”, desde que os livros tenham sido adquiridos legalmente e os arquivos digitais não sejam comercializados ou distribuídos.

Em Xataka Brasil

Anthropic revela IA altamente poderosa, mas afirma que ela é perigosa demais para ser lançada normalmente

O problema não foram os livros destruídos — foram os milhões de cópias piratas usadas pela Anthropic

O grande problema da estratégia utilizada pela Anthropic não estava relacionado aos livros comprados, mas na utilização de milhões de cópias pirateadas para alimentar seus sistemas de IA. Segundo a decisão judicial, mais de 7 milhões de livros foram baixados de plataformas conhecidas por disponibilizar conteúdo sem autorização, como Library Genesis, Pirate Library Mirror e Books3. O juiz do caso, William Alsup, afirmou que criar uma biblioteca digital permanente baseada em material pirateado não pode ser protegido pelas regras de uso justo previstas na legislação americana.

O CEO da empresa, Dario Amodei, admitiu que a utilização desse material ocorreu para evitar os obstáculos legais e comerciais envolvidos em negociações de licença com editoras. No entanto, o caso trouxe grande tensão entre empresas de IA, autores e editoras. Isso porque, enquanto essas empresas de tecnologia defendem a necessidade de enormes volumes de dados para desenvolver sistemas mais avançados, escritores e entidades de direitos autorais querem regras mais rígidas e modelos de compensação financeira pelo uso dessas obras no treinamento das inteligências artificiais.

Anthropic desmontou livros físicos para acelerar treinamento do Claude

O problema não foram os livros destruídos — foram os milhões de cópias piratas usadas pela Anthropic

RECEBA "", NOSSA NEWSLETTER SEMANAL