A Anthropic, startup americana de inteligência artificial, entrou em uma grande polêmica após documentos judiciais revelarem uma estratégia extrema para treinar o Claude, seu chatbot de IA. A empresa comprou milhões de livros físicos, desmontou cada um deles e digitalizou todo o conteúdo para criar sua própria biblioteca de treinamento. O processo aconteceu nos Estados Unidos e foi liderado por um ex-executivo do Google Books, contratado para reunir praticamente “todos os livros do mundo”. Apesar de a Justiça considerar legal a digitalização de obras compradas, o caso ganhou repercussão após a revelação de que a empresa também recorreu a cópias pirateadas.
Anthropic desmontou livros físicos para acelerar treinamento do Claude
Bilhões de dados, textos e informações alimentam os modelos de inteligência artificial.
Você sabe como funciona o treinamento de uma inteligência artificial? Modelos como o Claude aprendem analisando volumes gigantescos de dados, como textos, imagens, áudios e documentos, para identificar padrões, relações entre palavras e formas de responder comandos humanos. Durante esse processo, os sistemas passam por milhões de ciclos de tentativa e erro até conseguirem produzir respostas mais naturais e precisas.
Quanto maior e mais diversificada for a base de dados, maior tende a ser a capacidade da IA de compreender linguagem, contexto e informação. Esse volume gigantesco de informação virou a matéria-prima mais disputada pela indústria de inteligência artificial, e explica por que empresas de tecnologia passaram a buscar acesso massivo a livros, artigos e outros conteúdos escritos para alimentar seus modelos.
No caso da Anthropic, a disputa judicial revelou uma busca por dados de alta qualidade. Segundo os documentos apresentados no processo, a Anthropic criou uma operação dedicada exclusivamente à digitalização de livros impressos para alimentar seus modelos de IA. A estratégia escolhida pela empresa envolvia comprar exemplares físicos em grande escala, retirar as encadernações e escanear página por página. Depois da digitalização, os livros eram descartados. O projeto foi conduzido por Tom Turvey, ex-responsável pelas parcerias do Google Books, contratado para liderar a criação de uma biblioteca digital para a empresa.
Internamente, a meta era construir uma coleção gigantesca de obras para ampliar a capacidade de treinamento do Claude. A Justiça dos Estados Unidos entendeu que o procedimento pode ser enquadrado como “uso justo”, desde que os livros tenham sido adquiridos legalmente e os arquivos digitais não sejam comercializados ou distribuídos.
O problema não foram os livros destruídos — foram os milhões de cópias piratas usadas pela Anthropic
O grande problema da estratégia utilizada pela Anthropic não estava relacionado aos livros comprados, mas na utilização de milhões de cópias pirateadas para alimentar seus sistemas de IA. Segundo a decisão judicial, mais de 7 milhões de livros foram baixados de plataformas conhecidas por disponibilizar conteúdo sem autorização, como Library Genesis, Pirate Library Mirror e Books3. O juiz do caso, William Alsup, afirmou que criar uma biblioteca digital permanente baseada em material pirateado não pode ser protegido pelas regras de uso justo previstas na legislação americana.
O CEO da empresa, Dario Amodei, admitiu que a utilização desse material ocorreu para evitar os obstáculos legais e comerciais envolvidos em negociações de licença com editoras. No entanto, o caso trouxe grande tensão entre empresas de IA, autores e editoras. Isso porque, enquanto essas empresas de tecnologia defendem a necessidade de enormes volumes de dados para desenvolver sistemas mais avançados, escritores e entidades de direitos autorais querem regras mais rígidas e modelos de compensação financeira pelo uso dessas obras no treinamento das inteligências artificiais.
Ver 0 Comentários